CN104584524A - 聚合中介系统中的数据 - Google Patents

聚合中介系统中的数据 Download PDF

Info

Publication number
CN104584524A
CN104584524A CN201380040956.8A CN201380040956A CN104584524A CN 104584524 A CN104584524 A CN 104584524A CN 201380040956 A CN201380040956 A CN 201380040956A CN 104584524 A CN104584524 A CN 104584524A
Authority
CN
China
Prior art keywords
record
time interval
records
data store
records ends
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380040956.8A
Other languages
English (en)
Other versions
CN104584524B (zh
Inventor
L·P·罗西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ab Initio Technology LLC
Ab Initio Software LLC
Original Assignee
Ab Initio Software LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ab Initio Software LLC filed Critical Ab Initio Software LLC
Publication of CN104584524A publication Critical patent/CN104584524A/zh
Application granted granted Critical
Publication of CN104584524B publication Critical patent/CN104584524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/41Billing record details, i.e. parameters, identifiers, structure of call data record [CDR]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/43Billing software details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/44Augmented, consolidated or itemized billing statement or bill presentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/53Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP using mediation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/62Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP based on trigger specification

Abstract

处理来自网络(104)中的一个或多个源的记录。对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程(200),所述匹配过程包括比较与不同的记录相关联的标识符以生成集合以及针对一个或多个集合确定(210)是否满足完整性标准。所述处理还包括对于时间间隔中的至少一些时间间隔,处理至少一个完整的集合,所述至少一个完整的集合由在时间间隔期间首次尝试匹配过程(200)的接收到的记录中的一个或多个以及在时间间隔之前在数据存储部(110)中存储的一个或多个记录构成;以及对于时间间隔中的至少一些时间间隔,处理至少一个不完整的集合,所述至少一个不完整的集合由在时间间隔之前在数据存储部(110)中存储的一个或多个记录构成。

Description

聚合中介系统中的数据
相关申请的交叉引用
本申请要求享有2012年8月2日提交的美国申请号13/565,321的优先权,该申请通过引用合并与此。
技术领域
本申请涉及聚合中介(mediation)系统中的数据。
背景技术
在一些系统中执行各种数据的聚合(aggregation),以确保来自网络中的各个源的所有相关信息可以被用于决策和执行某些功能。例如,在电信网络中,在网络中的节点上运行的计费中介平台收集来自其他节点(例如,路由节点或网关节点)的记录(例如,呼叫详细记录(CDR)),以确定下游计费系统的计费信息。收集到的记录的处理可包括与相同呼叫有关的不同记录的聚合。一些待聚合的记录可能已经通过不同时间(例如,对应于电话呼叫的启动和停止的启动CDR和停止CDR)处的相同节点被生成。一些待聚合的记录可能已经通过不同节点(例如,提供启动和停止CDR的节点以及提供呼叫质量度量记录)被生成。
发明内容
在一个方案中,通常,用于处理在网络中的节点处接收到的数据的方法包括:接收来自所述网络中的一个或多个源的记录。所述记录中的至少一些记录每个与一标识符相关联。所述方法还包括:对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程。所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准。所述方法还包括:对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在所述时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
这些方案可包括一个或多个以下特征。
所述方法还包括:在所述匹配过程的至少一些尝试之后,在所述数据存储部中存储在所述尝试期间不满足所述完整性标准的至少一些不完整的记录集合,以及在与所述数据存储部分开的数据结构中存储对应于所述不完整的记录集合的键;以及从所述数据结构中检索存储的键以在后续的时间间隔期间对相应的记录尝试所述匹配过程。
从与所述时间间隔异步的所述数据结构中检索存储的键。
所述方法还包括:对于所述时间间隔中的至少一些时间间隔,处理至少一个完整的记录集合,并在所述数据存储部中存储将所述处理的完整的记录集合识别为已处理的信息。
所述方法还包括:对于所述时间间隔中的至少一些时间间隔,处理至少一个不完整的记录集合,并在所述数据存储部中存储将所述处理的不完整的记录集合识别为已处理的信息。
响应于将与不完整的记录集合中的至少一个记录相关联的时间与过期标准进行的比较,所述不完整的记录集合在至少两次尝试所述匹配过程之后被处理。
所述过期标准取决于所述不完整的记录集合的不完整程度。
比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述记录集合确定是否满足完整性标准包括:确定与所述接收到的记录相关联的独特标识符,对于每个独特标识符,检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录,以及聚合与该标识符相关联的记录集合,该记录集合包括一个或多个所述接收到的记录以及任何检索到的记录,以及针对每个聚合的记录的集合确定是否满足所述完整性标准。
检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:在与所述数据存储部相关联的索引中查找所述独特标识符。
检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:解压缩包括与所述独特标识符相关联的任何记录的所述数据存储部的一部分。
检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:扫描所述数据存储部的所述解压缩的部分以定位与所述独特标识符相关联的任何记录。
检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:确定与所述独特标识符相关联的存储的记录集合是否已经被识别为已处理。
检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:基于所述独特标识符来确定哈希值。
接收来自所述网络中的一个或多个源的记录包括在输入缓冲器中存储所述接收到的记录。
从所述数据结构中检索存储的键以在后续的时间间隔期间对相应的记录尝试所述匹配过程包括:从所述数据结构中移除键,以及将所述移除的键或对应于所述移除的键的记录添加到所述输入缓冲器。
与记录的集合相关联的所述键包括与所述记录的集合相关联的所述标识符。
所述时间间隔基于在所述节点处的计时器被确定。
所述时间间隔基于接收到的记录的数量被确定。
一个或多个所述时间间隔被包括在检查点间隔内,在该检查点间隔中自前一检查点间隔以来已经被接收或生成的与所述匹配过程相关联的数据被永久地存储。
所述数据存储部使得能够随机访问在所述数据存储部中存储的记录。
处理记录集合包括:将该集合的所述记录中的信息发送到所述网络中的另一个节点。
在另一个方案中,通常,一种计算机可读存储介质,存储用于处理在网络中的节点处接收到的数据的计算机程序。所述计算机程序包括用于使计算机系统执行以下操作的指令:接收来自所述网络中的一个或多个源的记录,所述记录中的至少一些记录每个与一标识符相关联;对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准;对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
在另一个方案中,通常,网络节点包括:网络接口,配置为接收来自所述网络中的一个或多个源的记录,所述记录中的至少一些记录每个与一标识符相关联;以及至少一个处理器,配置为处理记录的集合。所述处理包括:对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准;对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
在另一个方案中,通常,网络节点包括:用于接收来自所述网络中的一个或多个源的记录的装置,所述记录中的至少一些记录每个与一标识符相关联;以及用于处理记录的集合的装置。所述处理包括:对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准;对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
这些方案可包括一个或多个以下优点。
本文所描述的技术能够高效地聚合从网络中的一个或多个上游节点到达网络中的节点的数据。例如,所述数据可包括记录的多个流,所述记录的多个流包含待传递到下游系统的信息。匹配过程能够将一个流的记录与其他流的记录聚合,或者聚合不同时间到达的相同流的多个记录。根据一些完整性标准而言是完整的记录集合可以被处理(例如,用所述记录本身或者与被传递到所述下游系统的所述记录相关联的信息)。可能期望以提供不同标准之间的权衡的方式将信息传递到所述下游系统。例如,在一些实施方式中,信息应当用低延迟被传递,并且被传递的信息应当尽可能完整。为了使信息尽可能完整,所述匹配过程应当延迟一些记录的传递,直到其可以与时间上稍后到达的其他记录聚合。然而,不完整的信息(其为一些预期的记录中缺失的信息)可能仍然需要在一些时间限制之后被传递以满足延迟准则。
存储不完整的记录集合的所述数据存储部和存储针对不完整的记录集合的键的所述数据结构实现一种高效技术能够重复所述匹配过程以确定在稍后的时间是否满足所述完整性标准。由于稍后尝试匹配特定的不完整的集合是基于所述键的异步检索,因此,在每次尝试期间不需要对整个数据存储部进行扫描,这减少了每次尝试的延迟。延迟也可以保持较低,由于更新所述数据存储部内的不完整的集合不一定需要对表格或者与一些数据库事务(诸如锁定、格式版本或元数据活动)相关联的开销进行大量耗费计算的数据库操作(例如,插入、更新、查找、删除操作)。例如,更新的记录的集合可以被附加到所述数据存储部的文件,并且所述索引被更新以定位记录的所述集合的最近更新的版本,而无需在更新时删除旧版本。
所述数据存储部的结构和所述数据结构(称为“保持队列”)可以基于大小和访问速度要求进行优化。在所述数据存储部中存储的不完整的记录集合可能需要在大容量存储设备(例如,非易失性存储)中相对大量的存储空间。替代需要在待添加到所述保持队列的不完整的集合中的所述记录的全部内容,包括识别不完整的集合的键的潜在的小得多的信息量被添加到所述保持队列。如果所述不完整的集合的内容稍后在所述数据存储部中被更新,在所述保持队列中的相同的键仍然可以用于处理更新的版本。在一些情况下,所述保持队列足够小以适应相对较快的存储器(例如,易失性存储器)。所述保持队列基于过期标准(这可能取决于所述集合的完整性或不完整性)确保在合理的时间内与期望的记录不匹配的一个或多个记录的集合可以“超时”。键可以与所述匹配过程尝试异步地和/或以更低频率从所述保持队列中被检索。来自所述保持队列中的键的检索频率可以基于延迟与完整性之间的期望权衡来进行调整。
通过以下说明书和权利要求书,本发明的其它特征和优点将变得显而易见。
附图说明
图1是中介系统的框图。
图2是匹配过程的示例的流程图。
具体实施方式
图1显示可以使用聚合技术的中介系统100的示例。系统100包括连接到网络104的节点102A。该节点102A包括网络接口106,节点102A与网络104中的其他节点102B-102D在网络接口106上通信。节点102A还提供执行环境,其中节点102A聚合来自网络的数据并提供处理后的结果数据,接着,该结果数据可以被发送到与节点102A通信的下游系统或者被用于发起在节点102A处的后续动作。执行环境可以在适当的操作系统(诸如UNIX操作系统)的控制下寄主于一个或多个通用计算机上。例如,执行环境可包括并行计算机环境,该并行计算机环境包括使用多个中央处理单元(CPU)的计算机系统的配置,所述多个中央处理单元或者为本地的(例如,诸如SMP计算机的多处理器系统)、或者为本地分布的(例如,被连接为簇(cluster)或MPP的多个处理器)、或者为远程的、或者为远程分布的(例如,经由局域网(LAN)和/或广域网(WAN)连接的多个处理器)、或者为上述任意组合的。
节点102A包括输入缓冲区106,该输入缓冲区106接收来自网络中的一个或多个源(例如,其他节点)的输入数据。该输入数据可包括个人记录。可以接收来自相应的数据流(stream)或订阅源(feed)的不同类型的记录,或者可以接收来自单个数据流或订阅源的记录。输入缓冲区106可以使用包括诸如在存储器(例如,易失性存储器)中存储的队列之类的文件或数据结构,或者诸如命名管道(named pipe)或套接字之类的进程间通信机制的任何各种数据存储技术。例如,输入缓冲区106可包括一个或多个输入队列,并且可以被组织,使得不同类型的记录被添加到各个不同的队列,或者使得记录被添加到单个队列。记录可以在其被接收之后或者在其已经从输入缓冲区106中被读取之后被处理(例如,重新格式化)。该处理可包括将时间戳添加到记录,这可以被用于测试过期标准,在下文中将进行更详细的描述。记录也可以被验证以检测错误或丢失的数据(例如,验证包含用于匹配的标识符的字段存在且非空)。
在一些实施方式中,接收到的记录被分成对应于在各个时间间隔期间接收到的记录的工作单元。间隔可以是可配置的,例如,在预定记录量或基于在节点102A处的计时器的预定时间量(例如,每2分钟)方面。在通过引用合并于此的、名称为“Continuous Flow Compute Pont Based Data Processing(基于连续流计算桥的数据处理)”的美国专利号6,654,907中描述了一种用于将记录流分成工作单元的技术。其他各种活动也可以在每个时间间隔或者在预定多个时间间隔之后被执行。例如,检查点间隔可以被指定,其中与自前一检查点间隔以来已被接收或者生成的中介活动相关联的数据被永久地存储(例如,用于在发生故障的情况下恢复)。
聚合器108接收来自输入缓冲区106的记录并对工作单元中的记录尝试匹配过程。聚合器108比较与不同记录相关联的标识符,以收集与特定事件(例如,电话呼叫)相关联的记录的集合。例如,在某些情况下,标识符为全球呼叫ID,该全球呼叫ID可以被包括在记录中,或者可以基于能够被映射到特定全球呼叫ID的记录中的其他信息被分配给记录。聚合器108将工作单元中的记录的标识符彼此进行比较以找到匹配,并确定是否有先前在数据存储部110中存储的任何记录与工作单元中的任何记录具有相同的标识符。数据存储部110提供在非易失性存储装置中的永久存储,该非易失性存储装置可以使用索引112来访问,如下文更详细的描述。索引112或其他查找技术(例如,基于哈希的查找)的使用使聚合器108能够搜索特定的标识符而无需针对匹配过程的每次尝试扫描整个数据存储部110(即,随机访问)。对于在工作单元的记录中表示的每个不同的标识符,聚合器108针对与该标识符相关联的记录的集合确定是否满足完整性标准。在聚合后的集合满足特定的完整性标准之后,或者在一段时间(根据过期标准)之后,节点102A处理聚合后的集合并提供处理后的结果数据,例如,通过将聚合后的记录的集合发送到下游系统。节点102A还在数据存储部110中存储信息,该信息将与聚合后的集合的标识符相关联的任何存储的记录识别为已处理。
如果在尝试匹配过程期间存在不满足完整性标准的任何不完整的一个或多个记录的集合,节点102A在数据存储部110中存储根据相关联的标识符被索引的不完整的集合(或者包含在不完整的集合的记录中的信息)。节点102A还存储与保持队列114(例如,先进先出(FIFO)队列)中的不完整的记录的集合对应的键(key),该保持队列114与数据存储部110是分离的。键唯一地标识不完整的集合。保持队列114中被称为“键记录”的条目简单地可以是键本身或者包括键和少量其他相关信息的压缩记录。在一些实施方式中,键与用于聚合记录的集合的标识符相同,或者与标识符一一对应。在一些实施方式中,替代使用FIFO队列,键记录中的信息被记录在与数据存储部110相同的存储介质(例如,硬盘驱动器)或者相同的存储系统(例如,数据库)所存储的数据结构中,该数据结构中的条目(例如,索引条目)指示每个记录或记录的集合的状态。
完整性标准的示例如下。在该示例中,记录的源包括网络中的各个节点。网关节点发送包括与开始电话呼叫相关联的启动CDR和与终止电话呼叫相关联的停止CDR的CDR的流。路由节点还发送包括与相同的电话呼叫相关联的启动CDR和停止CDR的流。质量监控节点发送与相同的电话呼叫相关联的呼叫质量度量记录的流。完整性标准将用于特定呼叫的完整的记录的集合指定为包括:一对启动和停止路由CDR,一对启动和停止网关CDR,以及呼叫质量度量记录。这些记录中的每个与对应于特定电话呼叫的相同的标识符相关联。可能存在从节点发送的不是完整性标准的一部分的其他记录(例如,当连接未完成时与所尝试的电话呼叫相关联的尝试CDR)。这样的记录可以被发送到下游系统而无需被延迟用于潜在匹配。
不匹配记录管理器116管理存储的键记录的检索,将它们从保持队列114中移除并将它们添加到输入缓冲区106,使聚合器108能够尝试对数据存储部110中的相应记录连同在相同的工作单元中接收到的其他记录一起的匹配过程。虽然当缺失的期望记录到达时确实已经对不完整的记录的集合尝试匹配过程,由不匹配记录管理器116管理的该检索过程使不完整的集合能够针对过期标准被反复地测试。例如,过期标准可以指定只要不完整的集合包括配对的启动和停止CDR这两者并且仅缺少了呼叫质量度量记录,不完整的记录的集合可以被发送到下游系统并在第一预定时间限制(例如,10分钟)之后被指示为在数据存储部110中已处理。过期标准还可以指定不完整的记录的集合可以被发送到下游系统并且在第二预定时间限制(例如,30分钟)之后无论缺少什么样的期望记录都被指示为在数据存储部110中已处理。因此,在该示例中,过期标准取决于不完整的记录的集合的不完整程度。当将不完整的记录的集合与这些时间限制进行比较时,管理器116可以使用该集合中的第一记录从输入缓冲区106中被读取的、相对于当前时间(例如,基于本地计时器)的时间(例如,基于记录中的时间戳)。如果预期记录在不完整的集合已经被发送之后被接收,预期记录可以被丢弃或者可以被发送到下游系统,总之作为后期更新。
通过调整来自保持队列114的键记录的检索频率(其独立于限定工作单元的时间间隔的频率),可以实现延迟与完整性之间的期望权衡。例如,聚合器108和管理器116可以由独立操作的两个单独的过程来控制。在某些情况下,在处理不完整的记录的集合中的相对大的延迟可以是可接受的,在这种情况下,管理器116可以在与限定工作单元的时间间隔(例如,每100个工作单元)相比相对低的频率下,或者在与所述时间间隔(例如,每10分钟)是异步的特定频率下检索键记录。每次从保持队列114中检索到的键记录的数量也可以被调整,从单个(至少最新存储的)键记录到所有存储的键记录均可。在一些实施方式中,从保持队列114中检索到的任何重复的键记录被识别和消除。如果检索少于所有键记录,那么可能有键记录的一个实例从保持队列114中被移除,而该键记录的另一个实例仍然留在保持队列114中。在这种情况下,键记录的这两个实例可以由聚合器108(在不同的各个时间间隔)来检查。如果第一键记录导致相应的记录的集合被发送到下游(例如,由于满足过期标准),那么当对第二键记录尝试匹配过程时,该集合将被表示为在数据存储部110中已处理。
图2显示由聚合器108执行的匹配过程200的示例的流程图。聚合器108对在最新的时间间隔(当前工作单元)内接收到的来自输入缓冲区106的记录进行分类(sort)202。该记录通过将被用于匹配过程200的标识符被分类。聚合器108通过聚合204分类后的记录来确定与接收到的记录相关联的不同的标识符,使得对于每个不同的标识符都存在一个聚合后的记录的集合。共享相同的独特标识符的聚合的记录集合可以被组合为单个记录(例如,包括其他记录的矢量(vector)的一个记录,或者包括拥有来自多个记录的信息的另一种类型的数据结构的一个记录)。来自输入缓冲区106的一些记录可以是通过不匹配的记录管理器116被添加的键记录(并且在某些情况下可能被标记为具有与在工作单元中新接收到的完整记录不同的格式)。这些键记录连同完整记录一起被分类和聚合以找到独特的标识符,该标识符将被用在匹配过程200的下一个阶段。在一些实施方式中,分类202和聚合204一起以内存哈希(in-memory hashing)技术来执行。
对于在最新的工作单元的记录中找到的每个独特的标识符,聚合器108通过在索引112中查找标识符并检索数据存储部110中存储的由该标识符索引的任何记录来执行数据存储部110的查询206。如果存在具有相同标识符且没有被指示为已处理的存储的任意记录的集合,那么聚合器108对这些记录集合进行检索并将其与对应于该标识符的接收到的聚合的记录的集合联接(join)208。可选地,在其他示例中,分类202和聚合204可以在数据存储部110的查询206之后被执行,然而,对于其中带有相同标识符的记录到达时间相近的输入数据流,该示例可以通过减少对数据存储部110执行的查询次数来提高性能。
聚合器108通过针对记录的集合确定210是否满足完整性标准来针对每个聚合的/联接的记录的集合确定尝试匹配过程200是否已经成功。如果满足完整性标准,聚合器108处理212记录的完整的集合并更新数据存储部110以将记录的集合指示为已处理。如果对于记录的集合不满足完整性标准,聚合器108检查214过期标准。如果不完整的记录的集合已经过期,那么聚合器108处理216记录的集合并更新数据存储部110以将该记录的集合指示为已处理。如果不完整的记录的集合没有过期,那么聚合器108将用于不完整的记录的集合的键记录添加218到保持队列114,并且如果需要,存储220由该标识符(其可以与键是相同的或者基于键被唯一地确定)索引的数据存储部110中的不完整的记录的集合的初始或更新版本。在数据存储部110的一些实施方式中,没有必要移除相同的不完整的记录的集合的任何旧版本,因为当索引112被检查时,最新的版本将会被访问。在一些实施方式中,聚合器108还存储220在数据存储部110中的完整或过期数据集合的初始或更新版本,使得存在处理过的记录的集合的最新历史记录。在一些实施方式中,不存在过期标准且对于任何不满足完整性标准的记录集合,聚合器108都将键记录添加218到保持队列114。
数据存储部110可以使用任何各种技术来实施,该技术用于将数据快速地写入可以使用索引来高效地访问的位置。例如,记录可以用将一指示器存储到带有特定标识符的记录被写入的位置的索引来被连续地写入一文件。为了允许快速更新,不完整的记录的集合的新版本可以被附加到文件的末尾,而无需立即移除旧版本。为了管理数据存储部110的大小,多个文件可以被写入而那些仅存储已处理的记录的旧文件可以在一些时间限制(例如,一小时,或一天)之后被删除。数据存储部110也可以使用压缩来减少空间使用量。移除旧文件还可以确保标识符可以被回收而不会不一致。具有这些特性的技术的一个示例为在通过引用合并于此的、美国专利号7,885,932中描述的复合压缩记录文件。复合压缩记录中的每个压缩记录文件包括多个压缩块,其中每个块存储具有落入特定范围内的标识符的记录。每个块的位置被索引,并且当具有特定标识的记录集合被检索时,只有单个块需要被解压缩且只有有限数量的记录需要被搜索。另外,一起压缩多个记录提供了比压缩单个记录更大的压缩比。
在一些实施方式中,某些记录可以被存储在替代数据存储部110的保持队列114中,而不会显著地影响访问保持队列114的大小和效率。例如,可能存在这样一些记录,它们直到已经与另一个记录聚合才能与特定标识符相关联。在这种情况下,完整的记录可以被添加到保持队列114而不会被添加到数据存储部110。在完整的记录已经被聚合并分配标识符之后,接着,其可能需要被存储在数据存储部110中,直到其聚合的集合完整并被处理。如果该初始聚合发生在短时间帧内,完整的记录不可能留在保持队列114中很长时间。
在一些实施方式中,多个聚合器108可以被级联以对使用不同类型的标识符的输入记录执行不同的匹配过程。每个聚合器可以使用其自身的数据存储部110和其自身的保持队列114,或者它们可以共享单个数据存储部110和保持队列114,只要用于两个聚合器的标识符和键能够被区分。例如,数据存储部110可以基于来自记录的不同字段的多种类型的标识符被索引,并且标识符的任一类型可以在索引112中被查询,以定位数据存储部110中的记录的集合。
上述聚合方法可以使用用于在计算机上执行的软件来实现。例如,软件形成在一个或多个已编程或可编程计算机系统(可以具有各种架构,诸如分布式、客户端/服务器、或网格式)上执行的一个或多个计算机程序中的过程,每个计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元素)、至少一个输入设备或端口、以及至少一个输出设备或端口。该软件可形成大型程序的一个或多个模块,例如,该大型程序提供与数据流图的设计和配置相关的其它服务。图表的节点和元素可以被实施为在计算机可读介质中存储的数据结构或者符合在数据库中存储的数据模型的其它组织的数据。
该软件可以被提供在诸如CD-ROM之类的存储介质上,其可以被通用或专用可编程计算机读取或者通过网络的通信介质递送(编码成传播信号)到执行该软件的计算机。所有功能可以在专用计算机上执行,或者使用诸如协处理器之类的专用硬件来执行。该软件可以以分布方式实施,在该分布方式中,由该软件指定的不同的计算部分由不同的计算机执行。每个这样的计算机程序被优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如,固态存储器或介质、或者磁或光介质),用于在计算机系统读取该存储介质或设备时配置和操作该计算机,以执行此处所描述的过程。也可以考虑将本发明的系统实施为计算机可读存储介质,其配置有计算机程序,其中,如此配置的存储介质使得计算机系统以特定和预定义的方式操作以执行此处所描述的功能。
已经对本发明的多个实施例进行了描述。然而,应当理解,在不脱离本发明的精神和范围的情况下可进行各种修改。例如,上述的一些步骤可以是顺序独立的,因此可以以不同于所述的顺序来执行。
应当理解,前面的描述旨在说明而非限制本发明的范围,本发明的范围由所附的权利要求书的范围来限定。例如,可以以不同的顺序来执行上述的多个功能步骤,而不会在实质上影响整个处理。其它实施例也落在所附权利要求书的范围内。
权利要求书(按照条约第19条的修改)
1.一种用于处理在网络中的节点处接收到的数据的方法,所述方法包括:
接收来自所述网络中的一个或多个源的记录,所述记录中的至少一些记录每个与一标识符相关联;
对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准,其中针对特定的一个或多个记录的所述集合的所述完整性标准至少部分基于聚合在所述特定的集合中的至少一些记录的结果;
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
2.根据权利要求1所述的方法,还包括:
在所述匹配过程的至少一些尝试之后,在所述数据存储部中存储在所述尝试期间不满足所述完整性标准的至少一些不完整的记录集合,以及在与所述数据存储部分开的数据结构中存储对应于所述不完整的记录集合的键;以及
从所述数据结构中检索存储的键以在后续的时间间隔期间对相应的记录尝试所述匹配过程。
3.根据权利要求2所述的方法,其中从与所述时间间隔异步的所述数据结构中检索存储的键。
4.根据权利要求1所述的方法,还包括:对于所述时间间隔中的至少一些时间间隔,处理至少一个完整的记录集合,并在所述数据存储部中存储将所述处理的完整的记录集合识别为已处理的信息。
5.根据权利要求1所述的方法,还包括:对于所述时间间隔中的至少一些时间间隔,处理至少一个不完整的记录集合,并在所述数据存储部中存储将所述处理的不完整的记录集合识别为已处理的信息。
6.根据权利要求1所述的方法,其中响应于将与不完整的记录集合中的至少一个记录相关联的时间与过期标准进行的比较,所述不完整的记录集合在至少两次尝试所述匹配过程之后被处理。
7.根据权利要求6所述的方法,其中所述过期标准取决于所述不完整的记录集合的不完整程度。
8.根据权利要求2所述的方法,其中比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述记录集合确定是否满足完整性标准包括:
确定与所述接收到的记录相关联的独特标识符,
对于每个独特标识符,检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录,以及聚合与该标识符相关联的记录集合,该记录集合包括一个或多个所述接收到的记录以及任何检索到的记录,以及
针对每个聚合的记录集合确定是否满足所述完整性标准。
9.根据权利要求8所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:在与所述数据存储部相关联的索引中查找所述独特标识符。
10.根据权利要求9所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:解压缩包括与所述独特标识符相关联的任何记录的所述数据存储部的一部分。
11.根据权利要求10所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:扫描所述数据存储部的所述解压缩的部分以定位与所述独特标识符相关联的任何记录。
12.根据权利要求8所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:确定与所述独特标识符相关联的存储的记录集合是否已经被识别为已处理。
13.根据权利要求8所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:基于所述独特标识符来确定哈希值。
14.根据权利要求2所述的方法,其中接收来自所述网络中的一个或多个源的记录包括在输入缓冲器中存储所述接收到的记录。
15.根据权利要求14所述的方法,其中从所述数据结构中检索存储的键以在后续的时间间隔期间对相应的记录尝试所述匹配过程包括:从所述数据结构中移除键,以及将所述移除的键或对应于所述移除的键的记录添加到所述输入缓冲器。
16.根据权利要求1所述的方法,其中与记录的集合相关联的所述键包括与所述记录的集合相关联的所述标识符。
17.根据权利要求1所述的方法,其中所述时间间隔基于在所述节点处的计时器被确定。
18.根据权利要求1所述的方法,其中所述时间间隔基于接收到的记录的数量被确定。
19.根据权利要求1所述的方法,其中一个或多个所述时间间隔被包括在检查点间隔内,在该检查点间隔中自前一检查点间隔以来已经被接收或生成的、与所述匹配过程相关联的数据被永久地存储。
20.根据权利要求1所述的方法,其中所述数据存储部使得能够随机访问在所述数据存储部中存储的记录。
21.根据权利要求1所述的方法,其中处理记录集合包括:将该集合的所述记录中的信息发送到所述网络中的另一个节点。
22.一种计算机可读存储介质,存储用于处理在网络中的节点处接收到的数据的计算机程序,所述计算机程序包括指令用于使计算机系统执行:
接收来自所述网络中的一个或多个源的记录,所述记录中的至少一些记录每个与一标识符相关联;
对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准,其中针对特定的一个或多个记录的所述集合的所述完整性标准至少部分基于聚合在所述特定的集合中的至少一些记录的结果;
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
23.一种网络节点,包括:
网络接口,配置为接收来自所述网络中的一个或多个源的记录,所述记录中的至少一些记录每个与一标识符相关联;以及
至少一个处理器,配置为处理记录的集合,所述处理包括:
对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准,其中针对特定的一个或多个记录的所述集合的所述完整性标准至少部分基于聚合在所述特定的集合中的至少一些记录的结果;
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
24.一种网络节点,包括:
用于接收来自所述网络中的一个或多个源的记录的装置,所述记录中的至少一些记录每个与一标识符相关联;以及
用于处理记录的集合的装置,所述处理包括:
对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准,其中针对特定的一个或多个记录的所述集合的所述完整性标准至少部分基于聚合在所述特定的集合中的至少一些记录的结果;
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。

Claims (24)

1.一种用于处理在网络中的节点处接收到的数据的方法,所述方法包括:
接收来自所述网络中的一个或多个源的记录,所述记录中的至少一些记录每个与一标识符相关联;
对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准;
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
2.根据权利要求1所述的方法,还包括:
在所述匹配过程的至少一些尝试之后,在所述数据存储部中存储在所述尝试期间不满足所述完整性标准的至少一些不完整的记录集合,以及在与所述数据存储部分开的数据结构中存储对应于所述不完整的记录集合的键;以及
从所述数据结构中检索存储的键以在后续的时间间隔期间对相应的记录尝试所述匹配过程。
3.根据权利要求2所述的方法,其中从与所述时间间隔异步的所述数据结构中检索存储的键。
4.根据权利要求1所述的方法,还包括:对于所述时间间隔中的至少一些时间间隔,处理至少一个完整的记录集合,并在所述数据存储部中存储将所述处理的完整的记录集合识别为已处理的信息。
5.根据权利要求1所述的方法,还包括:对于所述时间间隔中的至少一些时间间隔,处理至少一个不完整的记录集合,并在所述数据存储部中存储将所述处理的不完整的记录集合识别为已处理的信息。
6.根据权利要求1所述的方法,其中响应于将与不完整的记录集合中的至少一个记录相关联的时间与过期标准进行的比较,所述不完整的记录集合在至少两次尝试所述匹配过程之后被处理。
7.根据权利要求6所述的方法,其中所述过期标准取决于所述不完整的记录集合的不完整程度。
8.根据权利要求2所述的方法,其中比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述记录集合确定是否满足完整性标准包括:
确定与所述接收到的记录相关联的独特标识符,
对于每个独特标识符,检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录,以及聚合与该标识符相关联的记录集合,该记录集合包括一个或多个所述接收到的记录以及任何检索到的记录,以及
针对每个聚合的记录集合确定是否满足所述完整性标准。
9.根据权利要求8所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:在与所述数据存储部相关联的索引中查找所述独特标识符。
10.根据权利要求9所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:解压缩包括与所述独特标识符相关联的任何记录的所述数据存储部的一部分。
11.根据权利要求10所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:扫描所述数据存储部的所述解压缩的部分以定位与所述独特标识符相关联的任何记录。
12.根据权利要求8所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:确定与所述独特标识符相关联的存储的记录集合是否已经被识别为已处理。
13.根据权利要求8所述的方法,其中检索在所述数据存储部中存储的、与所述独特标识符相关联的任何记录包括:基于所述独特标识符来确定哈希值。
14.根据权利要求2所述的方法,其中接收来自所述网络中的一个或多个源的记录包括在输入缓冲器中存储所述接收到的记录。
15.根据权利要求14所述的方法,其中从所述数据结构中检索存储的键以在后续的时间间隔期间对相应的记录尝试所述匹配过程包括:从所述数据结构中移除键,以及将所述移除的键或对应于所述移除的键的记录添加到所述输入缓冲器。
16.根据权利要求1所述的方法,其中与记录的集合相关联的所述键包括与所述记录的集合相关联的所述标识符。
17.根据权利要求1所述的方法,其中所述时间间隔基于在所述节点处的计时器被确定。
18.根据权利要求1所述的方法,其中所述时间间隔基于接收到的记录的数量被确定。
19.根据权利要求1所述的方法,其中一个或多个所述时间间隔被包括在检查点间隔内,在该检查点间隔中自前一检查点间隔以来已经被接收或生成的、与所述匹配过程相关联的数据被永久地存储。
20.根据权利要求1所述的方法,其中所述数据存储部使得能够随机访问在所述数据存储部中存储的记录。
21.根据权利要求1所述的方法,其中处理记录集合包括:将该集合的所述记录中的信息发送到所述网络中的另一个节点。
22.一种计算机可读存储介质,存储用于处理在网络中的节点处接收到的数据的计算机程序,所述计算机程序包括指令用于使计算机系统执行:
接收来自所述网络中的一个或多个源的记录,所述记录中的至少一些记录每个与一标识符相关联;
对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准;
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
23.一种网络节点,包括:
网络接口,配置为接收来自所述网络中的一个或多个源的记录,所述记录中的至少一些记录每个与一标识符相关联;以及
至少一个处理器,配置为处理记录的集合,所述处理包括:
对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准;
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
24.一种网络节点,包括:
用于接收来自所述网络中的一个或多个源的记录的装置,所述记录中的至少一些记录每个与一标识符相关联;以及
用于处理记录的集合的装置,所述处理包括:
对于多个时间间隔中的每个,对一个或多个记录的集合尝试匹配过程,所述匹配过程包括比较与不同的记录相关联的标识符以生成所述集合以及针对一个或多个所述集合确定是否满足完整性标准;
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间满足所述完整性标准的至少一个完整的记录集合,所述至少一个完整的记录集合由在该时间间隔期间首次尝试匹配过程的所述接收到的记录中的一个或多个以及在该时间间隔之前在数据存储部中存储的一个或多个记录构成;以及
对于所述时间间隔中的至少一些时间间隔,处理在所述尝试期间不满足所述完整性标准的至少一个不完整的记录集合,所述至少一个不完整的记录集合由在该时间间隔之前在所述数据存储部中存储的一个或多个记录构成。
CN201380040956.8A 2012-08-02 2013-05-28 聚合中介系统中的数据 Active CN104584524B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/565,321 2012-08-02
US13/565,321 US9185235B2 (en) 2012-08-02 2012-08-02 Aggregating data in a mediation system
PCT/US2013/042820 WO2014021978A1 (en) 2012-08-02 2013-05-28 Aggregating data in a mediation system

Publications (2)

Publication Number Publication Date
CN104584524A true CN104584524A (zh) 2015-04-29
CN104584524B CN104584524B (zh) 2017-07-18

Family

ID=48626136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380040956.8A Active CN104584524B (zh) 2012-08-02 2013-05-28 聚合中介系统中的数据

Country Status (10)

Country Link
US (2) US9185235B2 (zh)
EP (1) EP2880848B1 (zh)
JP (1) JP6225184B2 (zh)
KR (1) KR102160318B1 (zh)
CN (1) CN104584524B (zh)
AU (3) AU2013297031A1 (zh)
CA (1) CA2880349C (zh)
HK (1) HK1210887A1 (zh)
IN (1) IN2015DN01596A (zh)
WO (1) WO2014021978A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10599620B2 (en) * 2011-09-01 2020-03-24 Full Circle Insights, Inc. Method and system for object synchronization in CRM systems
CA2926935C (en) 2013-10-21 2022-05-31 Ab Initio Technology Llc Checkpointing a collection of data units
US9715520B1 (en) 2013-12-20 2017-07-25 Amazon Technologies, Inc. Validity map-based tracking of user data updates
US9846632B2 (en) 2014-10-08 2017-12-19 Signalfx, Inc. Real-time reporting based on instrumentation of software
US9804830B2 (en) 2014-12-19 2017-10-31 Signalfx, Inc. Anomaly detection using a data stream processing language for analyzing instrumented software
US10394692B2 (en) * 2015-01-29 2019-08-27 Signalfx, Inc. Real-time processing of data streams received from instrumented software
MX2017012161A (es) * 2015-03-20 2018-07-06 D&B Business Information Solutions Sistema y procedimiento para preservar la coherencia interdependiente de datos corporativos en un entorno distribuido globalmente.
US20170177446A1 (en) * 2015-12-21 2017-06-22 Ab Initio Technology Llc Search and retrieval data processing system for computing near real-time data aggregations
US10831509B2 (en) 2017-02-23 2020-11-10 Ab Initio Technology Llc Dynamic execution of parameterized applications for the processing of keyed network data streams
US11947978B2 (en) 2017-02-23 2024-04-02 Ab Initio Technology Llc Dynamic execution of parameterized applications for the processing of keyed network data streams
JP2020535128A (ja) 2017-09-19 2020-12-03 マサチューセッツ インスティテュート オブ テクノロジー キメラ抗原受容体t細胞治療のための組成物およびその使用
US11468097B2 (en) 2018-11-26 2022-10-11 IntellixAI, Inc. Virtual research platform
JP2023517889A (ja) 2020-03-10 2023-04-27 マサチューセッツ インスティテュート オブ テクノロジー NPM1c陽性がんの免疫療法のための組成物および方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1131859A (zh) * 1994-11-21 1996-09-25 株式会社日立制作所 用户信息服务系统
CN1428985A (zh) * 2001-11-21 2003-07-09 阿尔卡塔尔公司 对ip多媒体通信会话收费的方法、电信系统及网络元件
US20050069109A1 (en) * 2003-09-26 2005-03-31 Comverse, Ltd. Incomplete call notification
CN1682520A (zh) * 2002-09-19 2005-10-12 捷讯研究有限公司 访问通信设备上的联系信息的系统和方法
CN1811774A (zh) * 2005-01-28 2006-08-02 捷讯研究有限公司 利用移动通信设备自动集成来自多信息存储单元的内容
US7761084B2 (en) * 2007-02-21 2010-07-20 Bridgewater Systems Corp. Systems and methods for session records correlation

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5511190A (en) * 1995-01-20 1996-04-23 Tandem Computers, Inc. Hash-based database grouping system and method
US6584581B1 (en) 1999-12-06 2003-06-24 Ab Initio Software Corporation Continuous flow checkpointing data processing
US7215637B1 (en) * 2000-04-17 2007-05-08 Juniper Networks, Inc. Systems and methods for processing packets
US8463781B1 (en) * 2002-06-25 2013-06-11 Emc Corporation Pre-fetch of records identified by an index record
US20060240850A1 (en) * 2005-04-22 2006-10-26 Diego Kaplan Method and system for sending binary messages
EP1737180B1 (en) * 2005-06-06 2018-12-26 Comptel Corporation System and method for processing data records in a mediation system
US7860897B2 (en) * 2005-09-30 2010-12-28 International Business Machines Corporation Optimized method of locating complete aggregation of patient health records in a global domain
US7831778B2 (en) * 2006-03-30 2010-11-09 Silicon Image, Inc. Shared nonvolatile memory architecture
US7885932B2 (en) 2006-11-01 2011-02-08 Ab Initio Technology Llc Managing storage of individually accessible data units
US8078651B2 (en) * 2008-01-24 2011-12-13 Oracle International Corporation Match rules to identify duplicate records in inbound data
US8326605B2 (en) * 2008-04-24 2012-12-04 International Business Machines Incorporation Dictionary for textual data compression and decompression
US8548428B2 (en) 2009-01-28 2013-10-01 Headwater Partners I Llc Device group partitions and settlement platform
US8406748B2 (en) 2009-01-28 2013-03-26 Headwater Partners I Llc Adaptive ambient services
US8275830B2 (en) 2009-01-28 2012-09-25 Headwater Partners I Llc Device assisted CDR creation, aggregation, mediation and billing
US8832777B2 (en) 2009-03-02 2014-09-09 Headwater Partners I Llc Adapting network policies based on device service processor configuration
US9848091B2 (en) 2009-04-03 2017-12-19 Alcatel-Lucent Usa Inc. Interim billing for sessions in IMS networks
US8737953B2 (en) * 2009-05-27 2014-05-27 Alcatel Lucent Fault-resilient method of generating complete correlated IMS charging data records
CN102238002A (zh) * 2010-04-30 2011-11-09 国际商业机器公司 用于网络通信的动态加密和解密的方法和设备
US8290936B2 (en) * 2010-08-17 2012-10-16 International Business Machines Corporation Executing a query plan with display of intermediate results
US8595267B2 (en) * 2011-06-27 2013-11-26 Amazon Technologies, Inc. System and method for implementing a scalable data storage service
US9043310B2 (en) * 2011-11-08 2015-05-26 International Business Machines Corporation Accessing a dimensional data model when processing a query

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1131859A (zh) * 1994-11-21 1996-09-25 株式会社日立制作所 用户信息服务系统
CN1428985A (zh) * 2001-11-21 2003-07-09 阿尔卡塔尔公司 对ip多媒体通信会话收费的方法、电信系统及网络元件
CN1682520A (zh) * 2002-09-19 2005-10-12 捷讯研究有限公司 访问通信设备上的联系信息的系统和方法
US20050069109A1 (en) * 2003-09-26 2005-03-31 Comverse, Ltd. Incomplete call notification
CN1811774A (zh) * 2005-01-28 2006-08-02 捷讯研究有限公司 利用移动通信设备自动集成来自多信息存储单元的内容
US7761084B2 (en) * 2007-02-21 2010-07-20 Bridgewater Systems Corp. Systems and methods for session records correlation

Also Published As

Publication number Publication date
CA2880349C (en) 2023-08-01
EP2880848A1 (en) 2015-06-10
JP2015528967A (ja) 2015-10-01
WO2014021978A1 (en) 2014-02-06
US9185235B2 (en) 2015-11-10
WO2014021978A4 (en) 2014-03-27
CN104584524B (zh) 2017-07-18
EP2880848B1 (en) 2019-03-27
HK1210887A1 (zh) 2016-05-06
US11138183B2 (en) 2021-10-05
KR20150040980A (ko) 2015-04-15
KR102160318B1 (ko) 2020-09-25
US20140040213A1 (en) 2014-02-06
AU2013297031A1 (en) 2015-02-19
AU2019232789A1 (en) 2019-10-10
IN2015DN01596A (zh) 2015-07-03
US20160034522A1 (en) 2016-02-04
AU2019232789B2 (en) 2021-06-10
JP6225184B2 (ja) 2017-11-01
AU2018214000A1 (en) 2018-08-23
CA2880349A1 (en) 2014-02-06

Similar Documents

Publication Publication Date Title
CN104584524A (zh) 聚合中介系统中的数据
CN111723160B (zh) 一种多源异构增量数据同步方法及系统
US7849227B2 (en) Stream data processing method and computer systems
CN107818120A (zh) 基于大数据的数据处理方法和装置
CN111339078A (zh) 数据实时存储方法、数据查询方法、装置、设备、介质
CN113067883A (zh) 数据传输方法、装置、计算机设备及存储介质
US11249975B2 (en) Data archiving method and system using hybrid storage of data
CN109947729B (zh) 一种实时数据分析方法及装置
US20180052858A1 (en) Methods and procedures for timestamp-based indexing of items in real-time storage
CN109947730B (zh) 元数据恢复方法、装置、分布式文件系统及可读存储介质
CN108090186A (zh) 一种大数据平台上的电力数据去重方法
CN112395281B (zh) 一种异构多源数据融合系统
CN110309206B (zh) 订单信息采集方法及系统
CN115269519A (zh) 一种日志检测方法、装置及电子设备
CN116186082A (zh) 基于分布式的数据汇总方法、第一服务器和电子设备
CN115695587A (zh) 一种业务数据处理系统、方法、装置和存储介质
CN112685557A (zh) 可视化信息资源管理方法及装置
CN112597119A (zh) 一种处理日志的生成方法、装置及存储介质
CN111104558A (zh) 一种分布式的多源数据处理方法及系统
US8244746B2 (en) Parallel linking system and parallel linking method
CN106227791B (zh) 一种数据存储架构
CN116126209A (zh) 数据存储方法、系统、装置、存储介质及程序产品
CN115408363A (zh) 数据处理方法、可读介质和电子设备
CN117332009A (zh) 一种数据处理方法及相关设备
CN114625729A (zh) 一种业务数据的存储方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant