CN105229597A - 分布式特征收集与关联引擎 - Google Patents
分布式特征收集与关联引擎 Download PDFInfo
- Publication number
- CN105229597A CN105229597A CN201480029306.8A CN201480029306A CN105229597A CN 105229597 A CN105229597 A CN 105229597A CN 201480029306 A CN201480029306 A CN 201480029306A CN 105229597 A CN105229597 A CN 105229597A
- Authority
- CN
- China
- Prior art keywords
- key
- value
- feature
- characteristic storage
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 230000008878 coupling Effects 0.000 claims abstract description 6
- 238000010168 coupling process Methods 0.000 claims abstract description 6
- 238000005859 coupling reaction Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 105
- 230000008569 process Effects 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 36
- 238000004458 analytical method Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 239000000203 mixture Substances 0.000 description 9
- 239000000284 extract Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 101100152304 Caenorhabditis elegans tap-1 gene Proteins 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000019552 anatomical structure morphogenesis Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
提供了分布式的特征收集和关联引擎。特征收集包括:获取一个或多个数据记录;基于领域知识从所述一个或多个数据记录抽取信息;将所述抽取的信息转换为包括键K和值V的键/值对,其中所述键包括特征标识符;以及如果所述键/值对尚未存在于使用去重机制的特征存储数据库中,则在所述特征存储数据库中存储所述键/值对。从数据记录中抽取的特征能够通过获取包括所述抽取的特征的特征存储数据库来查询,所述抽取的特征存储为包括键K和值V的键/值对,其中所述键包括特征标识符;接收包括至少一个查询键的查询;从所述特征存储数据库中检索匹配所述查询键的值;返回一个或多个检索到的键/值对。
Description
技术领域
本发明一般性地涉及了电气、电子及计算机技术,更为特别的是涉及了获取以及处理数据的技术。
背景技术
很多企业面临着转向复杂和演变中的网络安全威胁的挑战。攻击者越来越多的使用秘密的攻击技术来帮助隐藏它们的外表,或至少减少被检测到的可能性,例如,通过跨多个机器隐藏他们的攻击步骤,以及使用不同的应用协议,或者在长时间期间分布他们的行为。许多这样的威胁被称为高级持续性威胁(APT)。
检测和调查这样的复杂攻击模式需要收集、存储、以及分析来自各种薄弱点、不同数据源和多个抽象层的事件。经常以每秒数千事件的速率输出的监测数据,需要被收集、存储以及可提供用于实时分析和历史分析。由于这样的负担以及各种各样的相关数据类型和不同的收集延迟,网络安全调查已经成为重要的数据问题。许多收集的事件只有当他们被放入到经过可能的大时间窗口(例如几个星期或几个月)的跨不同数据源的上下文中,以形成网络中正在进行的和过去行为的全貌(bigpicture)并过滤掉错误警报或具有很小或没有影响的异常时,才会变得有意义。
对这种安全事件的及时响应,需要近乎实时的数据分析,而调查则需要访问跨大时间窗口的历史数据。然而,现有的方案用相对小的时间窗口实时处理数据或者历史数据并且需要顺序访问所存储的数据。输入/输出(IO)的限制变成了主要因素,现有方案通过在大的机器集群上分散IO来解决此问题,而这会增加建立和重组合数据的成本。
存在对用来获取和处理原始数据的技术改进的需求。对于数据处理系统,还存进一步需求从而允许:(i)基本上实时的数据分析以提供对事件的及时响应;以及(ii)访问跨大的时间窗口的历史数据以允许调查。
发明内容
一般的,提供了用于分布式特征收集和关联的方法及装置。根据该发明的一个方面,特征抽取数据处理方法包括步骤:获取一个或多个数据记录;基于领域知识从所述一个或多个数据记录抽取信息;将所述抽取的信息转换为包括键K和值V的键/值对,其中所述键包括特征标识符;以及如果所述键/值对尚未存在于使用去重机制的特征存储数据库中,则在所述特征存储数据库中存储所述键/值对。
.根据本发明的一个方面,用于查询从一个或多个数据记录中抽取的一个或多个特征的方法包括步骤:获取包括所述抽取的特征的特征存储数据库,所述抽取的特征存储为包括键K和值V的键/值对,其中所述键包括特征标识符;接收包括至少一个查询键的查询;从所述特征存储数据库中检索匹配所述查询键的值;返回一个或多个检索到的键/值对。
通过参考下列详细的描述以及附图,将会获得对本发明、以及进一步的特征和本发明的优势的更为全面的理解。
附图说明
图1是示例性的采用了本发明各个方面的特征收集和关联引擎(FCCE)系统100的框图;
图2是描述了采用本发明各个方面的特征抽取器的示范性实现的流程图;
图3A和图3B是描述了采用本发明各个方面的特征收集器的示范性实施方式的流程图;
图4A示出了采用本发明各个方面的示范性的特征存储器;
图4B是描述了采用本发明各个方面的写过程示范性实现的流程图;
图4C描述了采用本发明各个方面的读过程的示范性实现的流程图;
图5A和图5B分别是描述了查询服务器注册过程以及客户机查询服务器发现过程的示范性实现的流程图;
图6是描述了采用本发明各个方面的查询服务器过程的示范性实现的流程图;
图7A和图7B分别是描述了通过示范性的订阅服务器提供的新的客户机/模式订阅过程以及新的匹配特征流过程的示范性实现的流程图;
图8示出了根据本发明的各个方面的安全威胁的示范性分析。
具体实施方式
本发明的各个方面提供了特征收集和关联引擎(FCCE)。根据本发明的一个方面,该示例性公开的FCCE系统包括抽取、正规化、存储、获取以及关联来自多种数据源的特征(features)的分布式数据管理系统。该示例性FCCE系统支持地理上分布的数据源,不需要源之间的持续的连接,并且在分布式的引擎架构中提供对个别节点故障的恢复。
根据本发明的另一方面,能够在数据摄取点应用领域知识来抽取核心特征,应用去重复机制从而能够大大地减少数据量,用层级结构的收集系统,使得去重的跨所有数据集的核心特征到达概念上的中心地点,在那里,他们或者近乎实时地可用,或能以历史方式得到访问,从而能够探测或调查网络威胁。
根据本发明的另一方面,为每个抽取的特征定义键和值。所述键被用于识别被作为数学集合的值的特定桶(bucket)。所述数学集合允许不考虑时序地来采集数据。按照这种方式,旧的历史数据能连同实时数据一起被摄入系统中。
图1是示例性的采用了本发明的方面的特征收集和关联引擎(FCCE)系统100的框图。如图1所示,FCCE系统100的示例性实施例包括特征抽取120的数据摄取框架105(摄取并处理来自数据源110的原始数据以抽象抽取的特征125);特征聚合130(收集和合并来自不同数据源110的所抽取的特征125);以及特征存储器140(存储该聚合的以及去重复的结果135)。此外,FCCE系统100的该示例性的实施例包括数据获取框架150,其包括特征获取层160,为数据消费者170有效地查询感兴趣的特征提供接口。
如图1所示,示范性的FCCE系统100包括:至少一个特征抽取器200,会在下面结合图2进一步讨论;至少一个特征收集器300,会在下面结合图3进一步讨论;至少一个特征库400,会在下面结合图4进一步讨论;可选的一个或更多个注册服务器(RS)500,会在下面结合图5进一步讨论;可选的一个或更多个查询服务器(QS)600,会在下面结合图6进一步讨论;以及可选的一个或更多个订阅服务器(SS)700,会在下面结合图7进一步讨论。
一般的,如下文所讨论的,示范性的特征库(FS)400以键-值库为基础,存储与原始数据相关的特征,用于以后以高伸缩性(highlyscalable)的方式获取相关的特征。通常,该示范性特征抽取器200连接至原始数据源110(现场或批次/存储的)(liveorbatch/stored)并且抽取被转发至至少一个特征收集器300的特征。在一个示范性实施例中,该数据源110包括域名服务器(DNS)数据110-1,入侵防护系统(IPS)警报110-2以及网络流数据(netflowdata)110-N。该示范性特征收集器300进而验证该特征并将它们存储在至少一个特征库400中。
FCCE系统100的数据获取框架150支持关联特征的获取。客户机(例如分析应用180以及可视化工具)能够查询所选择的特征库400或让一个或多个查询服务器600从该特征库400返回与所提供的键匹配的特征。查询服务器600将会返回在其特征存储器中的与所提供的键相匹配的当前可用的任意特征。客户机还能够从一个或多个订阅服务器700请求特征,订阅服务器700会连续返回与该键匹配的进入该特征存储器的任何新的特征。查询提供者/订阅提供者165为客户机提供前端或中间层以与特征库400、注册服务器500、查询服务器600以及订阅服务器700通信。
注册服务器500能够在任何组件之间代理连接(brokerconnections)。组件向注册服务器500注册,并且将它们的能力通知给注册服务器500。其它组件或客户机从而能够基于所提供的能力在该注册服务器500中查询任何注册的组件。
能够提供一个或多个分析应用从而有效率的访问该特征。
特征抽取
图2是描述了采用本发明方面的特征抽取器200的示范性实现的流程图。通常,如在下面进一步讨论的,在特征抽取阶段120中,对于每个输入数据源110,领域专家使用特征抽取器200指定从原始数据抽象特征的方法。每个单个数据输入与一个或多个抽取器200相关联。从每个单个数据输入抽取的特征能被直接转发至下一阶段或去重复并被缓存至本地的、暂时性的特征库400中。这些暂时性的特征库400组成了本地的从该相关联的数据输入110得到的知识。
特征抽取器200从相关联的数据输入115抽取特征并且将该特征编码为预定义的格式。更具体的,通过数据类型特定的组件解码被摄取的数据,以及从数据记录中抽取期望的信息。每条信息都被转换(基于领域知识)为键-值对(key-valuepair)。此外,时间戳(TS)能被附加至每个键-值对,特征标识符包含在该键内。每个键-值对进而被编码进该实现所定义的格式中,用该编码的键作为K,用该编码的值作为V。
如图2所示,特征抽取器200被初始化并且从本地文件和/或从注册服务器读取配置信息,并获取数据源110和收集器300的位置信息。在步骤205中,该特征抽取器200连接至配置的收集器300,然后在步骤210中连接至配置的数据源110。
在步骤215中,该特征抽取器200倾听和接收来自数据源110的记录。在步骤220中解析和验证接收到的记录。在步骤230中,向该配置的和连接的收集器300提交该抽取的特征,然后返回倾听步骤215。
特征聚合
在特征抽取后,使用一个或多个特征收集器300,在不同的抽取器中聚合本地知识以形成全局观点(globalview)。每个收集器300将多个抽取器200抽取的特征作为输入并且通过去重任何冗余特征而聚合该结果。在每个收集器300维持一个本地特征库400,以存储该从所有输入源得到的、去重的知识。以与抽取器200同样的方式,收集器300能够可选的将新值转发至一个或多个其他收集器300,为了可伸缩性的目的允许层级结构(例如树)。
图3A是描述了采用本发明各个方面的特征收集器300的示范性实施方式流程图。通常的,如下面所讨论的,收集器300负责聚合通过多个收集器200(或对等的收集器300)所供给的特征并对该输入中的任何冗余进行去重。
如图3A所示,在步骤305中初始化特征收集器300,其中通过读配置的特征库400和/或从这个收集器300接收的其它收集器300来初始化该特征收集器300。在步骤310中,用注册服务器500注册该特征收集器300的收集器实例,使得客户机能够找到它
在步骤315中,该特征收集器300进入倾听模式以从客户机接收新的特征。在步骤320中,该特征收集器300同时接收并且正规化(normalize)来自多个客户机的特征,并在步骤325中解析和验证接收到的特征。
在步骤330中,该特征收集器300转发特征至所有配置的特征库400(对每个特征库400使用写操作)以及所有配置的收集器300。在步骤335中,该特征收集器300清除并返回至步骤315以倾听新的客户请求。
对于新到达的特征值对K-V(通过时间戳TS关联的),收集器300实现了图3B所示的步骤。值得注意的是每个写入至本地特征库400的元组{K;(TS;V)}还被转发至该层级中的指定收集器300。如图3B所示,键K被用于在键/值类型数据库中查找记录。如果查找失败,则该键K和值V就是新的。在数据库中写入一条键为K、值为{TS,V}的新记录。否则,查找该记录以确定该记录中是否已经存在V。如果该记录中不存在V,就将{TS,V}添加至该记录并存储在该数据库中,并且转发K+{TS,V}至该定义的收集器300。
此外,将时间戳TS与已经与V相关联的时间戳相比较。如果该新的时间戳TS早于该先前的时间戳,就将该新的时间戳TS放置在该带有V的记录中,并且在数据库中更新该记录以及转发K+{TS,V}至该定义的收集器300。
在特征存储器层140的层级底部,一个或多个收集器300被指定为根收集器300,其为所收集的特征提供永久存储,以及为了访问该信息提供查询服务(QS)600。
特征库
每个桶(bucket)中的特征值被当作数学集合。所有这样的集合在一起形成特征库(FS)400。使用数学集合聚合特征允许摄取数据而不考虑它们的时间顺序,这有利于分布式环境。进而,该数学集合能够在不同点及时的进行不同数据输入的合并。
在示范性实施中,特征库400实现在C中并利用定制的键/值库作为基础的存储机制。用键/值对其自身来表示特征。键和值两者能以特定于实现的编码方式(encoding)被编码。通过在整个系统100中使用该编码方式,键和值能被不同组件处理,而无需理解编码数据的细节。
特征库管理器为向库添加新特征以及从该库查询信息提供API。这些操作都是异步的(也就是工作被排队)。此外,该特征库管理器为特征订阅服务(SS)700提供框架。
图4A示出了采用本发明各个方面的示范性的特征库400。如图4A所示,该示范性的特征库400包括分别存储一组值Va1,Va2,…,以及Vb1,Vb2,…,的多数个桶410-A,410-B。每个桶410-A,410-B通过对应的键420-A,420-B分别被唯一的识别。如下面结合图4B所进一步讨论的,使用写过程450向特征库400写入值,并且,如下面结合图4C所进一步讨论的,使用读过程480从该特征库400中读取值。
图4B是描述了采用本发明方面的写过程450的示范性实现的流程图。总的来说,写过程向特征库400写入键-值对(k,v)。如图4B所示,在步骤460中,写过程450首先获取与键K相关联的值的桶。此后,在步骤465中实施测试以确定‘V’是否已经存在于桶中。如果在步骤465中确定‘V’未存在于桶中,就在步骤470中将V附加至桶,移除客户机信息并在步骤475中返回。但是,如果在步骤465中确定‘V’已经存在于桶中,则在步骤475中返回。
图4C描述了采用本发明方面的读过程480的示范性实现的流程图。总的来说,读过程从特征库400读键值(K)。如图4C所示,在步骤490中,获取与键K相关联的值的桶(BV)并在步骤495中返回值。
通过示范性的特征库400写入值的顺序不会有影响(从而适应现场的和历史的数据)。此外,该示范性的特征库400实施数据去重和流动(streaming)并提供分布式的I/O-存储和计算。
注册服务器
如在下面分别结合图5A和图5B所进一步讨论的,该示范性的注册服务器500包括查询服务器注册过程510以及客户机查询服务器发现过程550。总的来说,注册服务器500提供用于定位服务的注册服务(RS)。在一个示范性的实现中,在系统100的每个节点中具有注册服务器500。该本地注册服务器500只包含关于只在本地节点上可用的服务的信息。这使得即使在该节点临时变得隔离或脱离时,本地包含的操作也能运行。全局信息被转发至一组全局注册服务器500。实际的转发可交给本地注册服务器500,该本地注册服务器负责确保该信息最终到达全局服务器500。
注册信息包括一组键/值对。下面的例子示出了区域rcx中存在的用于数据类型DNS的(具有标识符tap1的)窃听服务(tapservice),其服务接口倾听10.10.0.5:55000:
’class=tap,type=dns,zone=rcx,tapid=tap1,
address=10.10.0.5,port=55000’
对注册服务器500的查询提供键/值的一些子集,并返回所有匹配的条目。因此,对
’class=tap,type=dns,zone=rcx,tapid=tap1’
的查询会匹配上面的内容并返回所有值。这种功能还用于定位特征可能位于哪里。
图5A是描述了采用本发明方面的查询服务器注册过程510的示范性实现的流程图。在步骤515中,查询服务器注册过程510首先从查询服务器听取注册请求。此后,在步骤520中,查询服务器注册过程510接收一组标识注册查询服务器600能力的标签(键/值对)。
在步骤525中,查询服务器注册过程510为注册创建标识符并将标签映射至这个新的标识符。在步骤530中,在哈希表中用标签作为键存储关联的信息。在步骤535中,实施测试以确定到注册的查询服务器的连接是否关闭。如果在步骤535中确定到注册的查询服务器的联机关闭,就在步骤540中移除标识信息并返回在步骤515中的倾听状态。
但是,如果在步骤535中到注册的查询服务器的连接没有关闭,就前往步骤515中的倾听状态。
图5B是描述了采用本发明方面的查询服务器发现过程510的示范性实现的流程图。如图5B中所示的,在步骤560中,客户机查询服务器发现过程550首先等候客户机请求。在步骤565中,客户机查询服务器发现过程550从客户机接收标签(键/值对)然后在步骤570中使用所提供的键在哈希表中查找所有查询服务器标识符。
然后在步骤575中,该客户机查询服务器发现过程550确定满足所有标签的所有查询服务器标识符的交集I,并在步骤580中返回标识符的集合I至客户机。程序控制然后返回至倾听步骤560。
查询服务器
该示范性的FCCE提供支持多种方式访问该所得到知识的查询接口。该注册服务(RS)500能被用于查找存储感兴趣的特征的根收集器300。此外,查询服务器600能被用于查询相应的特征库400,使用具体特征类型和关键词作为查询谓词;进而,用户能使用订阅服务器700向特定的抽取器/收集器(如通过注册服务所路由的)订阅兴趣的相关特征类型。
查询服务器600提供对特征库400中特征的访问,这允许分析人员使用特征类型(特征识别符)和查询键作为查询谓词(querypredicates)来查找该特征存储库400。该查询服务器600能提供指示感兴趣的特征的类型的特征标识符,以及一个或多个查询键。每个查询键与特征识别符相合并,并使用与在创建已编码的键的组[K]抽取步骤中所用的相同的编码格式来编码。对于[K]中的每个已编码的键,使用查找来查询该键/值数据库。如果查找失败,就或者什么都不做,或者将该失败的键与查找失败的指示一起发出。否则,对于所获取的记录中的每个值,解码编码的{TS,V}并发出K+{TS,V}。
图6是描述了采用本发明方面的查询服务器过程600的示范性实现的流程图。如图6所示,当查询服务器600开始时,在步骤605中,用该注册服务器500注册支持的键/值对。然后在步骤610中,该查询服务器600等待客户机请求并接收键。
然后,在步骤615中,查询服务器600使用读过程480(图4C)从特征库400获取所有匹配该接收到的键的值,并且在步骤620中,发送该获取的键/值对至该客户机。然后,该查询服务器600返回至等待状态610。
同位于根收集器节点300的查询服务器600,维护提供关于什么数据位于它们的特征库400的更高级的键控(keying)信息的注册。例如,查询服务器600可能注册为特征存储等级(fs),为2012/04/01至2012/04/02之间的数据范围提供特征IPByNameDate,其中两个不同的查询服务器600(位于节点10.10.0.6和10.10.0.7)为相同的日期提供特征。
’class=fs,feature=IPByNameDate,date=20120401,
address=10.10.0.6,port=12345’
’class=fs,feature=IPByNameDate,date=20120401,
address=10.10.0.7,port=12345’
’class=fs,feature=IPByNameDate,date=20120402,
address=10.10.0.7,port=12345’
查询接口通过在该注册服务器500请求’class=fs,feature=IPByNameDate’,能够定位所有提供具有名字IPByNameDate的特征的查询服务器600。这个查询会返回两个注册的查询服务器600。如果只期望来自日期2012/04/02的信息,该查询服务器会请求
’class=fs,feature=IPByNameDate,date=20120402’
然后,该查询接口把该查询直接发送到由IP地址和端口号标识的结果查询服务器600的集合。当该注册服务器500提供非常高性能的服务时,在实践中,该查询服务会缓存查找并且不必为每个将被执行的查询实施注册查找。
订阅服务器
该示范性注册服务器700包括新的客户机/模式订阅过程710以及新的匹配特征流过程750,下面将结合图7A和7B来讨论。
图7A是描述了采用本发明方面的新的客户机/模式订阅过程710的示范性实现的流程图。如图7A所示,该示范性的新的客户机/模式订阅过程710一开始在步骤715从客户机倾听和接收键匹配模式(KMP)。
然后,该新的客户机/模式订阅过程710在步骤720中用特征库400注册键匹配模式,以及在步骤725中,在订阅者列表中存储该客户机/匹配模式。
在步骤730中,当该新的客户机/模式订阅过程710探测客户机断开,就在步骤735中从该订阅列表中移除该客户机。
如果在步骤740中,该新的客户机/模式订阅过程710探测没有其它具有KMP的客户机连接,该新的客户机/模式订阅过程710就在步骤745中从该特征库400中注销该KMP。然后,程序控制返回至倾听步骤715。
图7B是描述了采用本发明方面的新的匹配特征流处理过程750的示范性实现的流程图。如图7B所示,该示范性的新的匹配特征流处理过程750一开始在步骤760为注册的匹配模式从特征库400中接收新的特征。然后该新的匹配特征流处理过程710在步骤765中查找其匹配模式符合该新的特征的客户机,并且在步骤770中转发该新特征至为新接收到的特征提交匹配模式的客户机。然后程序控制返回至步骤755。
图8示出了根据本发明的方面的安全威胁的示范性分析800。该示范性分析800从不同位置、数据源以及时间期间自动的抽取相关事件。
网络安全攻击正变得更加的复杂,为了检测或调查他们,需要分析大量各种不同的数据。对事件及时响应需要几乎实时的数据分析,而调查研究则需要访问跨越大时间窗口的历史数据。
在10-1至810-5五个阶段8,该示范性分析800分析已知的恶意或可疑的外部机器(假设其完全合格域名(FullyQualifiedDomainName)为805)的影响范围,由此将一个相关阶段810-i的输出作为输入输送给下一阶段810-i+1。在阶段810-1,示范性分析800查找所有与所调查的外部机器的外部域名805相关的IP地址。此后,该分析800扩展与可疑外部基础设施相关的知识。
在阶段810-2,该示范性分析800查找对任何这些IP地址的所有其它历史的或实时的名字解析。这会将我们的知识从已经被汇报为托管恶意行为(例如,通过黑名单或外部调查报告)的单个系统或在本地检测到是恶意行为源(例如,通过僵尸网络分析)的单个系统扩展至与该系统有关的更大的网络基础设施。
在阶段810-3,该示范性分析800在该调查时间期间(例如一个月)查找对于任何这些名字已返回的IP地址。此时,该分析已经扩展了可能与该事件相关的外部基础设施的知识,并已经看了以变化的输入在这个时间期间收集的DNS数据三遍;这是一个难以并行化的操作。
该分析800然后分析受影响的内部装置的范围。在阶段810-4,该示范性分析800从受监控网络的“外部”向“内部”转移分析,并且确定查出任何该外部域名(DNS消息)和/或连接(网路流)至任何外部IP地址的所有内部装置。流(Flows)和查找(lookups)传送(deliver)内部IP地址,他们在阶段810-4被自动翻译为MAC地址(使用历史DHCP/ARP信息)的,然后被收缩至(collapsedto)不同装置(例如,将无线和有线MAC地址统一至单一机器)。
然后,该分析800实施原因/影响分析以及风险评分。在阶段810-5,从这些装置开始,该示范性分析800查找在这些装置上使用了哪些认证(SSO,认证记录)并且可能已经暴露在这些可疑装置上,或者从这些装备上访问了哪些高价值资产(网络流,高价值资产信息)。
通过按照用户证书或被接入的托管有价值资产的服务器的特权进行排序,可以进一步降低被调查的设备的数目。
示范性系统和制造物的细节
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
本发明的一个或多个实施例,或其单元,能以包括内存和至少一个处理器的设备的形式实现,该至少一个处理器耦合至内存并可操作为实施示例性的方法步骤。
一个或多个实施例可以利用软件运行在通用计算机或工作站,例如其包含,处理器,存储器,以及例如以现有方式通过显示器和键盘形成的输入/输出接口。存储器可以存储例如实现本文描述的各种过程的代码。
如本文所用的术语“处理器”旨在包括任意处理设备,例如包括CPU(中央处理单元)和/或其他形式的处理电路。此外,术语“处理器”可指多于一个的单独处理器。术语“存储器”意在包括与处理器或CPU相关联的存储器,例如,RAM(随机存取存储器)、ROM(只读存储器)、固定的存储装置(例如,硬盘驱动器)、可移动存储装置(例如,软盘)、闪速存储器等。
此外,如本文所用的术语“输入/输出接口”,意在包括,例如,一个或多个用于输入数据到处理单元的机构(例如,鼠标),以及一个或多个用于提供与所述处理单元相关联的结果的机构(例如,打印机)。处理器、存储器、以及输入/输出接口(例如显示器和键盘)可以通过例如作为数据处理单元的一部分的总线相互连接。合适的互连也可提供给诸如网络卡的网络接口,它可提供与计算机网络之间的接口,也可提供给诸如软盘或CD-ROM驱动器的媒体接口,它可以提供与媒体之间的接口。
因此,包括用于执行如本文所描述的本发明的方法的指令或代码的计算机软件可以存储在相关联的存储器设备(例如,ROM、固定或可移动存储器)中的一个或多个之中,并且,当准备好要利用时,部分或全部的载入(例如,到RAM中),并通过CPU来实施。这样的软件可以包括,但不限于固件、驻留软件、微码等。
适合于存储和/或执行程序代码的数据处理系统将包括至少一个通过系统总线直接或间接耦合到存储器元件的处理器。所述存储器元件可以包括在实际执行程序代码期间使用的本地存储器、大容量存储装置,和高速缓存存储器,其提供至少一些程序代码的临时存储,以便在实施期间减少必须从大容量存储器获取代码的次数。
输入/输出或I/O设备(包括但不限于键盘、显示器、指向设备等)可以被直接的(例如经由总线)耦合到系统,或通过中间I/O控制器(为清晰起见省略了)耦合到系统。
网络适配器例如网络接口还可以耦合到系统以使数据处理系统通过居间的私有或公共网络与其他数据处理系统或远程打印机或存储设备相耦合。调制解调器、电缆调制解调器和以太网卡只是当前可用的几个网络适配器的类型。
如本文所用的,包括权利要求中所用的,“服务器”包括运行服务器程序的物理数据处理系统。应当理解的是,这样的物理服务器可以包括或不包括显示器和键盘。
正如指出的,本发明的各方面可以采取计算机程序产品的形式,其具体体现在一个或多个具有计算机可读程序代码的计算机可读介质中。可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(articleofmanufacture)。
该计算机程序指令还可以被加载到计算机、其它可编程数据处理装置、或其他装置中,以致使要在该计算机、其它可编程设备或其他装置上执行的一系列操作步骤产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供用于实现在流程图和/或框图的块或多个块中指定的功能/动作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文所述的方法步骤例如可以被绑定到编程为执行这些步骤的通用计算机,或绑定至用于执行本文所描述的这样的步骤的硬件。另外,在此描述的例如包括获取数据流和编码该数据流的方法步骤,也可连接到例如照相机或麦克风的物理传感器,并从那里获取数据流。
应当指出的是,任何本文描述的方法可以包括提供系统的附件步骤,该所提供的系统包括体现在计算机可读存储介质上的独特软件模块。该方法步骤可以通过在一个或多个硬件处理器502上执行如上所述的独特的软件模块和/或系统的子模块来实施。有时候,可用专用硬件实现此处所描述的一个或多个功能。此外,计算机程序产品可包括具有适于实现执行本文所述的一个或多个方法步骤的代码的计算机可读存储介质,包括提供具有独特软件模块的系统。
在任何情况下,应该理解的是,在此示出的组件可以以各种形式的硬件,软件,或其组合来实现;例如,专用集成电路(ASICS)、功能电路、一个或多个具有相关存储器的适当编程的通用数字计算机,等等。考虑到本文所提供的发明的教导,相关领域的普通技术人员将能够想到本发明组件的其他实现。
在此使用的术语仅是为了描述特定实施例,且不旨在限制本发明。如在此使用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另外清楚地指明。还将理解,当在说明书中使用时,术语“包括”和/或“包含”指明存在所述的特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其分组。
下面权利要求中的所有装置或步骤加功能元件的相应结构、材料、操作以及等价物旨在包括用于结合如特别要求保护的其他所要求保护的元件来执行所述功能的任何结构、材料或操作。呈现本发明的说明是为了示出和描述的作用,但不是穷尽性的或将本发明限制于所公开的形式。许多修改和变化对本领域普通技术人员来说是明显的,且不脱离本发明的范围与精神。选择和描述实施例是为了最佳地解释本发明的原理和实际应用,并使得本领域其他普通技术人员能理解针对适于考虑的特定用途的具有各种修改的各种实施例。
Claims (25)
1.一种数据处理方法,包括:
获取一个或多个数据记录;
基于领域知识从所述一个或多个数据记录抽取信息;
将所述抽取的信息转换为包括键K和值V的键/值对,其中所述键包括特征标识符;以及
如果所述键/值对尚未存在于使用去重机制的特征存储数据库中,则在所述特征存储数据库中存储所述键/值对。
2.按照权利要求1所述的方法,其中所述存储步骤还包括以下步骤:使用所述键K查找所述特征存储数据库中的记录;以及,如果所述查找失败,则确定所述键K和所述值V是新的并向所述特征存储数据库写入具有键K和值V的新纪录。
3.按照权利要求1的方法,其中所述存储步骤还包括在所述特征存储数据库中查找记录以确定V是否已经存在所述记录中的步骤。
4.按照权利要求3的方法,其中所述值V并未存在于所述记录中,以及所述方法还包括向所述记录附加所述值V以及在所述特征存储数据库中存储所述记录的步骤。
5.按照权利要求4的方法,还包括向一个或多个定义的收集器转发所述键/值的步骤。
6.按照权利要求3的方法,其中所述值V存在于所述记录中,以及所述方法还包括将与所述抽取的键/值对相关联的新时间戳TS与已经与所述值V相关联的现有的时间戳相比较的步骤,如果所述新时间戳TS早于所述现有的时间戳,就将该新的时间戳TS放置在该具有V的记录中,并且在所述特征存储数据库中更新所述记录。
7.按照权利要求6的方法,还包括向一个或多个定义的收集器转发所述键/值对以及时间标签TS的步骤。
8.按照权利要求1的方法,还包括将时间标签与所述键/值对相关联的步骤。
9.按照权利要求1的方法,其中所述识别的特征识别位于所述特征存储数据库中的特定桶的值。
10.按照权利要求9的方法,所述桶的值包括不考虑时序排列的存储数据的数学集合。
11.按照权利要求1的方法,其中所述抽取的特征中的一个或多个以实时和历史的方式处理。
12.按照权利要求1的方法,其中所述数据记录按地理分布。
13.按照权利要求1的方法,其中所述获取和抽取步骤使用层级结构的收集系统。
14.一种用于处理数据的有形的机器可读的可记录的存储媒介,其中的一个或多个程序通过一个或多个处理装置执行时实施所述权利要求1的方法中的步骤。
15.一种数据处理设备,该设备包括:
存储器;以及
至少一个硬件装置,耦合至所述存储器,可操作用于:
获取一个或多个数据记录;
基于领域知识从所述一个或多个数据记录抽取信息;
将所述抽取的信息转换为包括键K和值V的键/值对,其中所述键包括特征标识符;以及
如果所述键/值对尚未存在于使用去重机制的特征存储数据库中,则在所述特征存储数据库中存储所述键/值对。
16.一种用于查询从一个或多个数据记录中抽取的一个或多个特征的方法,包括:
获取包括所述抽取的特征的特征存储数据库,所述抽取的特征存储为包括键K和值V的键/值对,其中所述键包括特征标识符;
接收包括至少一个查询键的查询;
从所述特征存储数据库中检索匹配所述查询键的值;
返回一个或多个检索到的键/值对。
17.按照权利要求16的方法,还包括用注册表注册支持的键/值对的步骤。
18.按照权利要求16的方法,还包括识别提供具有给定名字的特征的查询服务器的步骤。
19.按照权利要求18的方法,还包括向所述识别的查询服务器发送包括所述给定名字的给定查询的步骤。
20.按照权利要求16的方法,其中所述检索采用通过检索与所述键值(K)相关联的值的桶(BV)从特征库读取键值(K)的读过程。
21.一种用于查询从一个或多个数据记录中抽取的一个或多个特征的的有形的机器可读的可记录的存储媒介,其中的一个或多个软件程序通过一个或多个处理装置执行时实施所述权利要求1的方法中的步骤。
22.一种用于查询从一个或多个数据记录中抽取的一个或多个特征的设备,所述设备包括:
存储器;以及
至少一个硬件装置,耦合至所述存储器,可操作用于:
获取包括所述抽取的特征的特征存储数据库,所述抽取的特征存储为包括键K和值V的键/值对,其中所述键包括特征标识符;
接收包括至少一个查询键的查询;
从所述特征存储数据库中检索匹配所述查询键的值;
返回一个或多个检索到的键/值对。
23.按照权利要求22的设备,还包括用注册表注册支持的键/值对的步骤。
24.按照权利要求22的方法,还包括识别提供具有给定名字的特征的查询服务器的步骤。
25.按照权利要求22的方法,其中所述检索采用通过检索与所述键值(K)相关联的值的桶(BV)从特征库读取键值(K)的读过程。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/899,784 | 2013-05-22 | ||
US13/899,784 US9495420B2 (en) | 2013-05-22 | 2013-05-22 | Distributed feature collection and correlation engine |
PCT/US2014/017947 WO2014189575A1 (en) | 2013-05-22 | 2014-02-24 | Distributed feature collection and correlation engine |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105229597A true CN105229597A (zh) | 2016-01-06 |
CN105229597B CN105229597B (zh) | 2018-09-25 |
Family
ID=51933933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480029306.8A Expired - Fee Related CN105229597B (zh) | 2013-05-22 | 2014-02-24 | 分布式特征收集与关联引擎的方法与系统 |
Country Status (5)
Country | Link |
---|---|
US (2) | US9495420B2 (zh) |
JP (1) | JP6490059B2 (zh) |
CN (1) | CN105229597B (zh) |
GB (1) | GB2529122A (zh) |
WO (1) | WO2014189575A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726315A (zh) * | 2018-10-24 | 2019-05-07 | 阿里巴巴集团控股有限公司 | 数据查询方法、装置、计算设备及存储介质 |
CN111694801A (zh) * | 2019-03-14 | 2020-09-22 | 北京沃东天骏信息技术有限公司 | 一种应用于故障恢复的数据去重方法和装置 |
CN113032621A (zh) * | 2021-03-11 | 2021-06-25 | 超参数科技(深圳)有限公司 | 数据采样方法、装置、计算机设备和存储介质 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9104710B2 (en) * | 2013-03-15 | 2015-08-11 | Src, Inc. | Method for cross-domain feature correlation |
US20150312154A1 (en) * | 2014-04-25 | 2015-10-29 | NSONE Inc. | Systems and methods comprising one or more data feed mechanisms for improving domain name system traffic management |
US10601698B2 (en) * | 2015-02-06 | 2020-03-24 | International Business Machines Corporation | Techniques for managing telemetry data for content delivery and/or data transfer networks |
US11283697B1 (en) | 2015-03-24 | 2022-03-22 | Vmware, Inc. | Scalable real time metrics management |
US11010341B2 (en) * | 2015-04-30 | 2021-05-18 | Netflix, Inc. | Tiered cache filling |
US10594562B1 (en) | 2015-08-25 | 2020-03-17 | Vmware, Inc. | Intelligent autoscale of services |
DK3297834T3 (da) * | 2016-06-17 | 2019-10-21 | Hewlett Packard Development Co | Autentificering af udskifteligt element |
TWI645303B (zh) * | 2016-12-21 | 2018-12-21 | 財團法人工業技術研究院 | 字串驗證方法、字串擴充方法與驗證模型訓練方法 |
US20190114323A1 (en) * | 2017-10-13 | 2019-04-18 | DataJaguar, Inc. | System And Method For Storing Data Records In Key-Value Database |
CN109284833B (zh) * | 2018-08-22 | 2023-07-18 | 中国平安人寿保险股份有限公司 | 为机器学习模型获取特征数据的方法、设备和存储介质 |
CN109299164B (zh) * | 2018-09-03 | 2024-05-17 | 中国平安人寿保险股份有限公司 | 一种数据查询方法、计算机可读存储介质及终端设备 |
EP3857381B1 (en) | 2018-10-26 | 2023-07-12 | VMware, Inc. | Collecting samples hierarchically in a datacenter |
CN111459980A (zh) * | 2019-01-21 | 2020-07-28 | 北京京东尚科信息技术有限公司 | 监控数据的存储和查询方法及装置 |
US11582120B2 (en) | 2019-05-30 | 2023-02-14 | Vmware, Inc. | Partitioning health monitoring in a global server load balancing system |
US10917766B1 (en) * | 2020-03-10 | 2021-02-09 | Sprint Communications Company L.P. | System and methods for bring your own device eligibility platform |
US11747996B2 (en) * | 2020-08-05 | 2023-09-05 | Dropbox, Inc. | System and methods for implementing a key-value data store |
US11811861B2 (en) | 2021-05-17 | 2023-11-07 | Vmware, Inc. | Dynamically updating load balancing criteria |
US11799824B2 (en) | 2021-06-14 | 2023-10-24 | Vmware, Inc. | Method and apparatus for enhanced client persistence in multi-site GSLB deployments |
CN113923176B (zh) * | 2021-09-30 | 2023-05-23 | 完美世界(北京)软件科技发展有限公司 | 即时通讯的消息撤回方法、装置、设备及计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334785A (zh) * | 2008-07-30 | 2008-12-31 | 浙江大学 | 分布式文件系统虚拟目录组织及命名空间管理的方法 |
US20100223244A1 (en) * | 2009-02-13 | 2010-09-02 | Ayon Sinha | Targeted multi-dimension data extraction for real-time analysis |
CN101902458A (zh) * | 2010-02-21 | 2010-12-01 | 中国联合网络通信集团有限公司 | 跨主机进程间通信的方法、装置及系统 |
CN102033748A (zh) * | 2010-12-03 | 2011-04-27 | 中国科学院软件研究所 | 一种数据处理流程代码的生成方法 |
CN102129469A (zh) * | 2011-03-23 | 2011-07-20 | 华中科技大学 | 一种面向虚拟实验的非结构化数据访问方法 |
US20110276744A1 (en) * | 2010-05-05 | 2011-11-10 | Microsoft Corporation | Flash memory cache including for use with persistent key-value store |
US20120310882A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Key value data storage |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6978275B2 (en) | 2001-08-31 | 2005-12-20 | Hewlett-Packard Development Company, L.P. | Method and system for mining a document containing dirty text |
US7894677B2 (en) | 2006-02-09 | 2011-02-22 | Microsoft Corporation | Reducing human overhead in text categorization |
WO2007147166A2 (en) | 2006-06-16 | 2007-12-21 | Quantum Leap Research, Inc. | Consilence of data-mining |
US9176964B1 (en) * | 2008-08-18 | 2015-11-03 | Guidance Software, Inc. | Scalable deduplication system and method |
JP5336827B2 (ja) * | 2008-11-28 | 2013-11-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、データベース・システム、情報処理方法およびプログラム |
US8972484B2 (en) | 2011-02-17 | 2015-03-03 | International Business Machines Corporation | Method and apparatus for efficient and accurate analytics with cross-domain correlation |
US9075710B2 (en) * | 2012-04-17 | 2015-07-07 | SanDisk Technologies, Inc. | Non-volatile key-value store |
US9378263B2 (en) * | 2012-06-19 | 2016-06-28 | Salesforce.Com, Inc. | Method and system for creating indices and loading key-value pairs for NoSQL databases |
US8949180B1 (en) * | 2012-06-28 | 2015-02-03 | Emc International Company | Replicating key-value pairs in a continuous data protection system |
US8904047B1 (en) * | 2012-06-29 | 2014-12-02 | Emc Corporation | Cloud capable storage system with high perormance nosql key-value pair operating environment |
-
2013
- 2013-05-22 US US13/899,784 patent/US9495420B2/en not_active Expired - Fee Related
- 2013-08-15 US US13/967,730 patent/US9489426B2/en not_active Expired - Fee Related
-
2014
- 2014-02-24 CN CN201480029306.8A patent/CN105229597B/zh not_active Expired - Fee Related
- 2014-02-24 GB GB1521731.8A patent/GB2529122A/en not_active Withdrawn
- 2014-02-24 JP JP2016515326A patent/JP6490059B2/ja not_active Expired - Fee Related
- 2014-02-24 WO PCT/US2014/017947 patent/WO2014189575A1/en active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334785A (zh) * | 2008-07-30 | 2008-12-31 | 浙江大学 | 分布式文件系统虚拟目录组织及命名空间管理的方法 |
US20100223244A1 (en) * | 2009-02-13 | 2010-09-02 | Ayon Sinha | Targeted multi-dimension data extraction for real-time analysis |
CN101902458A (zh) * | 2010-02-21 | 2010-12-01 | 中国联合网络通信集团有限公司 | 跨主机进程间通信的方法、装置及系统 |
US20110276744A1 (en) * | 2010-05-05 | 2011-11-10 | Microsoft Corporation | Flash memory cache including for use with persistent key-value store |
CN102033748A (zh) * | 2010-12-03 | 2011-04-27 | 中国科学院软件研究所 | 一种数据处理流程代码的生成方法 |
CN102129469A (zh) * | 2011-03-23 | 2011-07-20 | 华中科技大学 | 一种面向虚拟实验的非结构化数据访问方法 |
US20120310882A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Key value data storage |
Non-Patent Citations (1)
Title |
---|
THOMAS BUCHMANN,ET AL: "《Mapping Features to Domain Models in Fujaba》", 《PROCEEDINGS OF THE 7TH INTERNATIONAL FUJABA DAYS》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726315A (zh) * | 2018-10-24 | 2019-05-07 | 阿里巴巴集团控股有限公司 | 数据查询方法、装置、计算设备及存储介质 |
CN111694801A (zh) * | 2019-03-14 | 2020-09-22 | 北京沃东天骏信息技术有限公司 | 一种应用于故障恢复的数据去重方法和装置 |
CN113032621A (zh) * | 2021-03-11 | 2021-06-25 | 超参数科技(深圳)有限公司 | 数据采样方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105229597B (zh) | 2018-09-25 |
JP2016519384A (ja) | 2016-06-30 |
GB201521731D0 (en) | 2016-01-27 |
US20140351227A1 (en) | 2014-11-27 |
WO2014189575A1 (en) | 2014-11-27 |
US9495420B2 (en) | 2016-11-15 |
GB2529122A (en) | 2016-02-10 |
JP6490059B2 (ja) | 2019-03-27 |
US20140351226A1 (en) | 2014-11-27 |
US9489426B2 (en) | 2016-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105229597A (zh) | 分布式特征收集与关联引擎 | |
AU2019203412B2 (en) | Cybersecurity system | |
Khare et al. | Big data in IoT | |
US20210241926A1 (en) | Sensor data device | |
US8010689B2 (en) | Locational tagging in a capture system | |
US9094338B2 (en) | Attributes of captured objects in a capture system | |
US20130067582A1 (en) | Systems, methods and devices for providing device authentication, mitigation and risk analysis in the internet and cloud | |
US20070226504A1 (en) | Signature match processing in a document registration system | |
US20140337336A1 (en) | Method, system, and apparatus for enterprise wide storage and retrieval of large amounts of data | |
US20120215758A1 (en) | System and methods for identifying compromised personally identifiable information on the internet | |
CN105321108A (zh) | 一种用于在对等网络上创建共享信息列表的系统和方法 | |
US10659486B2 (en) | Universal link to extract and classify log data | |
CN106453229B (zh) | 用于检测对域名系统记录系统的更新的方法、系统和介质 | |
US20180316702A1 (en) | Detecting and mitigating leaked cloud authorization keys | |
US11792157B1 (en) | Detection of DNS beaconing through time-to-live and transmission analyses | |
CN104253875B (zh) | 一种dns流量分析方法 | |
CN114666157B (zh) | 一种区块链跨链威胁情报的共享系统及其方法 | |
Sharma et al. | A Graph Database-Based Method for Network Log File Analysis | |
US11936545B1 (en) | Systems and methods for detecting beaconing communications in aggregated traffic data | |
CN103078771A (zh) | 基于p2p的僵尸网络分布式协作检测系统和方法 | |
CN101021928A (zh) | 反盗版监控与取证装置和方法 | |
Alghfeli et al. | Bayyinah, A Log Analysis Forensics Tool | |
US12056169B1 (en) | Systems and methods for DNS text classification | |
CN104079606A (zh) | 基于gis超级云计算的网络对象与事件一体化监控方法 | |
CN118656402A (zh) | 一种基于用户标签的链式追踪审计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180925 |