CN102073809A - 用于为数据项的流生成处理规范的方法 - Google Patents

用于为数据项的流生成处理规范的方法 Download PDF

Info

Publication number
CN102073809A
CN102073809A CN2010105702500A CN201010570250A CN102073809A CN 102073809 A CN102073809 A CN 102073809A CN 2010105702500 A CN2010105702500 A CN 2010105702500A CN 201010570250 A CN201010570250 A CN 201010570250A CN 102073809 A CN102073809 A CN 102073809A
Authority
CN
China
Prior art keywords
data item
stream
window
similarity
processing specification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105702500A
Other languages
English (en)
Inventor
哈拉德·斯隆宁
雨朵·哈非曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Software AG
Original Assignee
Software AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Software AG filed Critical Software AG
Publication of CN102073809A publication Critical patent/CN102073809A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了用于为数据项的流生成处理规范的方法。本发明涉及一种为传感器(5)所捕获的数据项(100a,100b,...,100n)的流(10)生成至少一个处理规范(30)的方法,其中该方法包括以下步骤:a.生成多个提议窗口规范(20)并且基于所述提议窗口规范(20)中的至少一个生成所述至少一个处理规范(30);b.其中所述多个提议窗口规范(20)是基于相似性量度生成的,所述相似性量度适于在数据项的流(10)中识别相似的成对数据项(100a,100b,...,100n)。

Description

用于为数据项的流生成处理规范的方法
技术领域
本发明涉及用于为数据项的流生成处理规范的方法。
背景技术
现代计算机系统经常对流传输数据进行操作,即对传感器所捕获的数据项的连续序列进行操作,其中在传感器仍在捕获另外的数据项的同时对已经接收到的数据项进行处理。通常的应用情形是安全系统,例如设施监视系统,其中读卡器所捕获的数据项的流被处理以识别对设施内的机密区域的未授权访问或者进入和离开建筑物的人的其他异常行为。
为了处理这种在理论上无限的数据项(亦称作事件)的流,已知将事件的流划分为有限的可处理部分(所谓的窗口),并且对这些窗口应用计算,以或许生成从对计算结果的串接得到的另一可能无限的事件流。窗口规范通常包含开始条件(start condition)和结束条件(end condition),因此窗口(即,给定流中的具体事件子序列)各自包括在匹配开始条件的开始事件与匹配结束条件的结束事件之间的所有连续事件。
虽然对与单个数据项/事件有关的异常行为的检测相当直截了当(例如,当读卡器读卡时判定一个人的ID卡已经过期),但是多数真实生活情形需要检测与流内的多个数据项有关的更复杂情况(例如,有人进入某一房间,但是在预定量时间之后未离开该房间)。该处理范例通常被称为复杂事件处理。
复杂事件处理中的一个关键且困难的任务是定义用于以合理方式将输入流划分为窗口以检测期望的异常条件的适当标准。例如,如果读卡器所捕获的数据项的流(其表示进入和离开建筑物的人)被错误地划分(例如,如果“进入”事件和“离开”事件被划分在不同的窗口当中),那么对得到的各个窗口的处理将使得难以乃至不可能揭示有人已经在某一房间内过长时间这一事实。因此,提供允许以正确方式处理各个数据项的窗口规范是至关重要的。
这种窗口的定义通常是处理规范的一部分,该处理规范通常遵循“连续查询”方法,即对数据项的查询处理在给定输入流上永远运行。适于描述这种处理规范的计算机语言通常提供用于定义窗口的复杂句法表示法,例如作为SQL的扩展或者如在XQuery 1.1建议中规定的。例如,窗口可以简单地基于计数(例如,每个窗口包含三个相邻事件)、基于定时(例如,在一小时内发生的所有事件)或者基于事件相关性(例如,窗口覆盖人在建筑物中期间的时段,即在事件“人进入建筑物”与“人离开建筑物”之间的所有事件)。另外,窗口可以是重叠的(所谓的滑动窗口)或是不重叠的(所谓的滚动窗口)。
图1示出了XQuery中的窗口规范的简单示例。由图可见,窗口规范包括确定在哪里划分数据项(事件)的流的开始和结束条件。更详细地察看该示例中的开始条件,每当数据项的“方向(direction)”属性具有值“进(in)”时(例如,每当有人进入建筑物时),新窗口就开始。结束条件决定相应窗口何时结束,即每当连续数据项的“方向(direction)”属性具有值“出(out)”并且该连续数据项的“人(person)”属性的值等于开始条件所涉及的数据项的“人(person)”属性的值时(例如,每当同一人离开建筑物时)。
虽然根据以上句法表示法的窗口定义非常强大和灵活,但是在句法层面(例如,如何以特定语言正确地制定处理规范)和语义层面(即,如何保证所制定的处理规范表示以合理方式划分数据项的流的窗口定义)两者上,查询设计者要定义这些窗口定义变得非常复杂和困难。结果,手动定义的处理规范非常易于出错并且因而可能导致底层处理逻辑中的严重安全漏洞。
在现有技术中,已知旨在帮助查询设计者定义窗口规范的若干方法。例如,US 2009/0106701涉及交互式复杂事件式样(pattern)构建器以及涉及图形用户界面的可视化器,以帮助开发者定义句法正确的事件-条件-动作规则。2005/0222996和2006/0224542集中研究对数据库系统中的事件-条件-动作规则的评估和管理。另外,例如在US 7,499,900、US7,468,662、US 6,496,831、US 6,601,193和US 2008/0120283中公开了在手动预先定义的规则集上工作的用于情况监视和事件处理的系统和方法。关于复杂事件处理的另外背景信息例如可以在US 6,681,230、US 6,502,133、US 6,449,618、US 2006/0229923、US 2009/0006320、US 2009/0171999、US 7,275,250、US 7,398,530、US 7,444,395和US 7,502,845中找到。
然而,所有已知的系统和方法要么需要已经手动预先定义的规则集,要么仅辅助开发者以给定的流处理语言定义句法正确的规则。
因此,所有已知系统没有达到帮助开发者决定如何以正确和准确的方式(在语义层面上)划分数据项的给定流,以允许对该流内的复杂事件的可靠检测。
因此本发明的技术问题是提供用于为数据项的流生成更准确的处理规范的方法,从而提高底层计算机系统的安全性和可靠性并且至少部分地克服现有技术的上述缺点。
发明内容
根据本发明的一个方面,该问题由用于为传感器所捕获的数据项的流生成至少一个处理规范的方法解决。在权利要求1的实施例中,该方法包括以下步骤:
a.生成多个提议窗口规范(proposed window specification)并且基于所述提议窗口规范中的至少一个生成所述至少一个处理规范;
b.其中所述多个提议窗口规范是基于相似性量度(similarity metric)生成的,所述相似性量度适于在数据项的流中识别相似的成对数据项。
因此,该实施例定义了为数据项的给定流提议多个窗口规范的方法,而不是为数据项的给定流手动地定义处理规范。所述多个提议窗口规范是基于相似性量度从数据项的输入流得出的。数据项的流是由传感器捕获的,传感器例如是硬件传感器(例如读卡器或温度传感器)或软件传感器(例如输出事件的流的计算机程序、服务或者其他应用)。然后基于所述提议窗口规范中的至少一个生成所述至少一个处理规范,所述至少一个处理规范可包括诸如XQuery之类的流处理语言的处理指令。
因为所述多个提议窗口规范是基于适于在数据项的流中识别相似的成对数据项的相似性量度来生成的,因此识别出的相似成对数据项可被用于定义相应提议窗口规范的开始和结束条件。结果,所获得的提议窗口规范较之现有技术更准确,这是因为本发明的方法(优选地自动)在流中检测相似数据项,即相关数据项的式样。
在本发明的另一方面,所述相似性量度可适于计算数据项的流中的至少一对数据项的两两相似性值,如将在以下详细描述中进一步说明的。另外,该方法还可包括以下步骤:计算所述多个提议窗口规范的累积相似性值,并且基于具有最高累积相似性值的提议窗口规范生成所述至少一个处理规范。
在本发明的另一方面,该方法还可包括以下步骤:向用户显示所述多个提议窗口规范,由所述用户选择所述提议窗口规范中的至少一个,并且基于所选择的至少一个提议窗口规范生成所述至少一个处理规范。因此,生成处理规范的过程可以是交互式的,即,用户被呈现以多个提议窗口规范并且然后可以根据用户的要求选择最适当的窗口规范。对可能的相关窗口规范的自动提议极大地提高了所生成的处理规范的准确性。
在另一方面,该方法可包括以下步骤:在所述流中选择第一数据项,并且基于所述相似性量度在所述流中识别第二数据项。因此,在用户对提议窗口规范不满意的情况下,可以(优选由用户)选择流中的第一数据项,并且该方法可以基于相似性量度识别第二数据项。基于新一组的第一和第二数据项,该方法然后可以生成另外的(一个或多个)提议窗口规范。优选地,在该阶段中排除已经提议过的窗口规范。本发明的该方面进一步提高了所获得的处理规范的准确性,这是因为用户可以对提议窗口规范进行微调。
另外,该方法还可包括以下步骤:在所述流中选择与识别出的第二数据项不同的第三数据项,并且基于由所选择的第一和第三数据项构成的成对数据项生成提议窗口规范。因此,第二数据项也可(优选由用户)通过选择流中的第三数据项来编辑,使得该方法基于所选择的第一和第三数据项生成一个或多个提议窗口规范,以对(一个或多个)提议窗口规范进行进一步微调,如将在以下详细描述中说明的。
在另一方面,所述数据项可包括至少一种属性,并且其中所述相似性量度适于基于至少一对数据项中的至少一种属性的值来计算两两相似性值。另外,如果所述至少一对数据项的至少一种属性的值相等,则可使所述两两相似性值增大。另外或者作为替代,如果所述至少一种属性是二进制属性并且如果所述至少一对数据项的至少一种二进制属性的值是互补的,则可使所述两两相似性值增大。在该上下文中,二进制属性可被理解为具有两种可能值的属性(例如,具有可能值“进”和“出”的“方向”属性)。在以下详细描述中说了另外的示例。
另外,相似性量度可以对关于数据项的元数据进行操作。优选地,元数据是从本体(ontology)获得的,如将在以下详细描述中进一步说明的。
在本发明的另一方面,该方法还可包括以下步骤:接收至少一个处理规范,基于所述至少一个处理规范得出数据项的至少一个流并且/或者显示数据项的流中的至少一个提议窗口规范。因此,该方法可被用于使给定的处理规范(例如XQuery窗口定义)可视化,如将在以下详细描述中进一步说明的。将会认识到,本发明的该方面可以结合或者独立于这里描述的其他方面实现。
本发明还涉及一种计算机程序,其包括适于实现以上方法中的任一种的指令。
另外,本发明针对于一种用于为传感器所捕获的数据项的流生成至少一个处理规范的系统,其中该系统包括适于生成多个提议窗口规范的窗口规范发生器以及适于基于所述提议窗口规范中的至少一个生成所述至少一个处理规范的处理规范发生器,其中所述窗口规范发生器适于基于相似性量度生成所述多个提议窗口规范,所述相似性量度适于在数据项的流中识别相似的成对数据项。
另外,所述窗口规范发生器还可适于计算所述多个提议窗口规范的累积相似性值,并且所述处理规范发生器还可适于基于具有最高累积相似性值的提议窗口规范生成所述至少一个处理规范。
在另一方面,该系统还可包括图形用户界面(graphical user interface),其适于向用户显示所述多个提议窗口规范并且适于使所述用户可以选择所述提议窗口规范中的至少一个,其中所述处理规范发生器适于基于所选择的至少一个提议窗口规范生成所述至少一个处理规范。
附图说明
在以下详细描述中,参考以下附图进一步描述了本发明的当前优选实施例:
图1:根据现有技术的XQuery中的示例性处理规范;
图2:根据本发明实施例的方法所执行的处理步骤的流程图;
图3:根据本发明实施例的数据项的示例性流;
图4:根据本发明实施例的示例性提议窗口规范;
图5:根据本发明实施例的示例性处理规范;以及
图6:示出根据本发明实施例的系统的框图。
具体实施方式
下面针对如图3示意性示出的数据项(事件)100a,...,100n的流10的示例性摘录(excerpt)描述本发明的当前优选实施例。可以看到,数据项100a,...,100n中的每一个包括时间戳、属性“人”(分别具有值“Ann”、“Bob”、“Carie”、“Dan”和“Rob”)以及属性“方向”(分别具有值“进”和“出”)。将会认识到图3示出了极简化的示例并且流可以包括具有任何数目和数量的属性的任何类型的数据项。一般而言,流10可被理解为连续数据项(事件)的有序序列。
图2示出了具有根据本发明实施例的方法所执行的处理步骤的流程图。将会认识到,下面描述的处理步骤中的一些在其他实施例中可被省略或者以不同顺序执行。如图2中可见,用户在步骤200中可以例如从给定的一组流(例如,在注册表中注册/存储的)中选择事件流10,或者通过指定适当的传感器5(见下文)来选择事件流10。
在步骤205中,从事件流10(参见图3)中获得足够大的事件(数据项)样本。虽然流的样本将被理解为摘录,即流的数据项的(可能无限的序列)的子序列,但是术语“样本流”和“流”在下文中可以互换使用。样本是否足够大可以由用户来验证,例如通过在图形用户界面60(见下文)中将流样本显示给用户并且向其询问该样本是否足够。如果答案是“否”,那么样本可被扩充(即,可以从流中获得具有更多数据项的样本)直到用户满意为止。
在步骤210中,基于流10(即基于在步骤205中获得的流样本)(例如通过窗口规范发生器40;见下文)生成多个提议的窗口规范20。更具体地说,基于以下启发法和量度(乃至其组合)中的至少一种通过算法从流10得出可能的窗口定义20:
-相似性量度(见下文)可被应用于成对事件100a,...,100n并且结果可基于事件相关性而被组合以得出一定数量(例如,2到3)的可能窗口规范20(参见在图4中示出并且在下面得到更详细说明的下面两个窗口规范20)。例如,如果根据第一事件属性的两两相似性(pair-wise similarity)之和显著高于根据第二事件属性的两两相似性之和,那么基于第一相似性(与第一事件属性有关)的窗口定义20是更可能的。
-窗口定义可以基于事件100a,...,100n的计数(例如,每个窗口可以具有相同的大小,例如三个连续事件)。在这种情况下,窗口定义20可以基于启发法,例如基于样本10的大小(例如,样本大小/100)。
-窗口定义可以是基于时间的。除了固定的时间间隔(例如5分钟)之外,流10内的时间分布可以给出另外的暗示,例如,如果事件100a,...,100n仅在工作时间期间发生,那么工作日将是合理的窗口大小。
-最后,窗口定义可以基于事件同质性。如果多个后续事件100a,...,100n非常类似(例如,一系列温度测量,其中各个数据项在一定时段内几乎恒定然后流示出一峰值,即异常高的测量值),那么窗口定义可以基于该相似性的变化。在这种情况下,诸如标准差或其他统计函数之类的测度可被应用(例如参见http://www.dcs.shef.ac.uk/~sam/stringmetrics.html处的计算语言学和字符串处理的情境中的量度概要)。基于字符串的算法的应用可以直接基于串值属性,或者可以通过将其看作对应于字母串的符号序列而基于属性值的序列。
在步骤215中,例如通过累积在流10中识别出的成对数据项的各个两两相似性值,似然性值(likelihood value)可被指派给在步骤210中得出的每个提议窗口规范20。基于所指派的似然性值,最有可能的提议窗口规范20可被选择。
在步骤220中,所生成的提议窗口规范20可被逐一应用于流10并且结果可被以图形方式显示给用户(参见图4中的下面两个提议窗口规范),以让用户选择最准确的提议窗口规范20。可以看到,在图4的第三行中示出的提议窗口规范20根据条件“‘X进’到‘X出’”来划分流10(注意跨越事件“Ann进”...“Ann出”,“Bob进”...“Bob出”(两次),“Carie进”...“Carie出”和“Dan进”...的粗矩形所示的窗口,其中没有对应于“Dan进”的结束事件)。类似地,在图4的最后一行中示出的提议窗口规范20根据条件“‘X进’到‘X进’”来划分流10。另外,可以向用户提供使窗口定义改为基于时间或计数(参见图4中的上面两个提议窗口规范)的选择。如果用户未找到与其要求相匹配的窗口定义20,那么方法可以执行交互式微调循环(参见图2中从步骤220指回步骤210的箭头),例如如下:
-用户可以在流10中选择样本开始事件(即第一数据项100a,...,100n)。基于相似性量度和/或统计方法,可能的结束事件(即第二数据项100a,...,100n)可被检测(优选排除曾在步骤210中用于提议窗口规范20的那些事件)并且所检测到的结束事件可被呈现给用户。
-用户可以确认结束事件或者从流10中选择另一结束事件(即,第三数据项100a,...,100n)。在后一种情况下,所选择的开始和结束事件的相似性可被计算,并且基于由此得到的相似性值,流10中的至少一个另外的提议窗口规范20可被生成并呈现给用户。用户然后可以确认或校正新的提议窗口规范20。在后一种情况下,可以针对(一个或多个)新窗口计算相似性,并且可以将结果用于执行进一步的微调循环(每当用户需要时,该处理可被重复)。
在步骤225中,用户可以通过例如以文本形式编辑窗口定义来精炼(refine)迄今为止找到的提议窗口定义20。优选地,步骤225在步骤230之后被执行(见下文),并且用户可以通过编辑所生成的提议窗口规范20来精炼所提议的窗口定义20。
一旦用户确认了所提议的窗口定义20,方法就前进到步骤230,并且基于经确认的提议窗口规范20(例如通过处理规范发生器50;见下文)生成例如是XQuery或者另一合适流处理语言形式的相应句法30。图5示出了根据在图4的第三行中示出的提议窗口规范20“‘X进’到‘X出’”生成的示例性处理规范30,其中(优选由用户)选择了窗口可以重叠。更具体地说,图5的处理规范30中的第二行表示用户所指定的用来从中采集流样本的流10。第4行中的关键字“sliding(滑动)”定义了窗口可以重叠(否则,关键字“tumbling(滚动)”可被使用)。第6-7行定义了(一个或多个)窗口的开始条件,即相应事件的“direction(方向)”属性必须具有值“in(进)”。第8-14行定义了窗口以具有值为“out(出)”的“direction”属性的事件结束(参见第9-10行),并且如果该事件具有“name(名称)”属性,那么其值等于相应开始事件的“name”属性的值。
另外或者作为替代,所生成的句法30可被传递给查询构建工具,该查询构建工具允许事件处理的图形规范。
在一些实施例中,本发明可被用于使给定XQuery所表示的窗口定义20可视化并且根据基于窗口定义20的相似性分析来提议窗口精炼(即,分析在给定窗口中是否出现可能提议不同窗口定义的有关相似性)。该方面表示对本发明的重要扩展。因此,该方法将以给定的XQuery(或者优选由用户接收和/或选择的任何其他格式的处理规范30)开始。将从XQuery得出流,而非由用户选择流。另外,将在流样本上对XQuery求值(evaluate)以显示窗口,而非(如上面已经描述)基于相似性进行窗口计算。
总之,该方面用于XQuery窗口定义的可视化。用户然后要么可以操纵给定的XQuery并使结果得到显示,要么可以(例如经由合适图形用户界面的元素)选择被呈现以经精炼的窗口规范,经精炼的窗口规范然后可以将已经用XQuery定义的(一个或多个)窗口定义用作另外和/或类似的相似性的基础。这样,如果(使用现有处理规范30)的运行中系统已经存在,但是如果查询30不再是适当的(例如,要么因为要求已经改变,要么因为流的特性已经随时间而改变),那么本发明可被使用。
在下文中,说明相似性量度的示例使用。例如,基于所选择的开始事件100a,...,100n,可如下在流样本10中识别出最相似的(一个或多个)后续事件100a,...,100n。相似性量度可以例如基于如下规则系统对成对事件/数据项的事件属性进行操作:
-针对两个事件中具有相同值的每个属性,向相似性值加1。
-如果属性是二进制属性(即仅可具有两种不同值的属性),那么针对这对事件中具有互补值的每个属性(参见图3中的值为“进”和“出”的属性“位置”),向相似性值加0.5。
将会认识到,以上规则系统只是用于展示的一个很简单的示例,并且本发明能够支持任意的复杂规则系统。在下文中,以上规则系统被应用于图3所示的示例性流10以计算提议窗口规范20:
从图3中的数据项100b(其属性“人”具有值“Bob”并且其属性“方向”具有值“进”;在下文中被表示为“Bob进”)开始,流10中的下一数据项100c是“Bob出”。因此,根据以上规则系统的成对数据项100b和100c的两两相似性值是1.5(因为“人”属性具有相同值并且二进制“方向”属性具有互补值)。具有开始条件“X进”和结束条件“X出”的相应提议窗口规范20在图4的第三行中示出。在生成(一个或多个)提议窗口规范20期间,优选假定所有的事件/数据项100a,...,100n是相似的,即它们具有相同的类型(在该示例中为一个“人”属性和一个“方向”属性)。由于在该示例中,两个相似事件的“人”属性具有相同的值,因此“人”属性被归纳为提议窗口规范20中的“X”。由于两个相似事件的“方向”属性具有相反的值(“进”和“出”),因此该信息也被包括在提议窗口规范20中。确定“进”和“出”是互补的属性值可以通过检查相应属性的值范围来实现,该值范围在这种情况下可能实际仅包括一组两个元素,并且将这两个元素看作二进制属性值。
另外,成对数据项100b(“Bob进”)和100d(“Bob进”)的两两相似性值是2.0(因为“人”属性和“方向”属性都具有相同的值)。因此,具有开始条件“X进”和结束条件“X进”的提议窗口规范20被生成,如图4中最后一行所示。
另外,成对数据项100b(“Bob进”)和100e(“Carie进”)的两两相似性值是1.0,并且成对数据项100b(“Bob进”)和100f(“Ann出”)的两两相似性值是0.5。相应的窗口规范“‘X进’到‘Y进’”和“‘X进’到‘Y出’”分别未在图4中示出,这是因为在该示例中,只有前两个提议窗口规范20被选择并呈现给用户。
另外,基于相似性量度,具有最高累积相似性值的窗口式样(即特定属性的相等值,等等)然后可被选择并呈现给用户。累积相似性值可例如通过计算流10中的所有成对数据项100a,...,100n的所有两两相似性值之和来计算。例如,对于提议窗口规范20“‘X进’到‘X出’”,在图3所示的示例流10中存在五个相应的窗口(见图4中的粗矩形),因此累积相似性值将是7.5(=5×1.5)。对于“‘X进’到‘X进’”,存在四个相应的窗口,从而产生累积相似性值8(=4×2.0)。“‘X进’到‘Y进’”的提议窗口规范20将产生五个具有相似性1.0的窗口,因而产生累积相似性值5(=5×1.0)。结果,后面一个窗口规范20可被认为不如另两个窗口规范20那么相关。因此,与在流10中仅具有例如一个窗口(即一个与窗口规范相匹配的具体事件子序列)的提议窗口规范20相比,向具体窗口更经常出现在流10中的提议窗口规范20指派更高的累积相似性值。
另外或者作为替代,关于事件/数据项的元数据、事件/数据项的类型和/或事件/数据项的属性的值可被包括在相似性量度中。例如,将“Ann”定义为女名并将“Bob”定义为男名的本体可被使用以应用类似性量度,或者本体可被用来确定值“进”是“出”的对立物。
总之,在一些实施例中,本发明基于以下概念:使用数据项的流的样本来提议窗口划分(即,提议的窗口规范),并且就最终窗口定义与用户交互以针对所选择的窗口规范20生成句法(即处理规范30)。该方法相对于现有技术(例如,如在图1中手动地用XQuery编写处理规范30)是有利的,因为对不那么面向技术的人而言,定义这种处理规范是非常困难的,这导致错误和易于出错的窗口定义。
图6示出了根据本发明实施例的示例性系统1。可以看到,系统1与传感器5通信以获得所捕获的事件流10。系统还包括适于生成提议窗口规范20的窗口规范发生器40,以及适于基于提议窗口规范20生成至少一个处理规范30的处理规范发生器50。在图6所示的实施例中,系统1还包括用于向用户显示所生成的提议窗口规范20的图形用户界面60。例如,图形用户界面60可以显示图4所示的提议窗口规范20。另外,图形用户界面60可以包括图形交互元素(例如图4所示的复选框和下拉菜单)以使得用户能够与系统1交互以对处理规范生成进行微调,如上所述。系统1及其组件还可适于执行上述方法中的任何其他步骤。将会认识到,图6所示的系统1是中央处理组件。然而,例如通过将提议窗口发生器40和处理规范发生器50分布到通过网络连接互相通信的不同计算机系统上,系统1也可被实现为分布式系统。

Claims (15)

1.一种为传感器(5)所捕获的数据项(100a,100b,...,100n)的流(10)生成至少一个处理规范(30)的方法,其中所述方法包括以下步骤:
a.生成多个提议窗口规范(20)并且基于所述提议窗口规范(20)中的至少一个生成所述至少一个处理规范(30);
b.其中所述多个提议窗口规范(20)是基于相似性量度生成的,所述相似性量度适于在数据项的流(10)中识别相似的成对数据项(100a,100b,...,100n)。
2.如权利要求1所述的方法,其中所述相似性量度适于计算所述数据项的流(10)中的至少一对数据项(100a,100b,...,100n)的两两相似性值。
3.如权利要求1或2所述的方法,还包括以下步骤:计算所述多个提议窗口规范(20)的累积相似性值,并且基于具有最高累积相似性值的提议窗口规范(20)生成所述至少一个处理规范(30)。
4.如在先权利要求中任一项所述的方法,还包括以下步骤:向用户显示所述多个提议窗口规范(20),由所述用户选择所述提议窗口规范(20)中的至少一个,并且基于所选择的至少一个提议窗口规范(20)生成所述至少一个处理规范(30)。
5.如在先权利要求中任一项所述的方法,还包括以下步骤:在所述流(10)中选择第一数据项(100a,100b,...,100n),并且基于所述相似性量度在所述流(10)中识别第二数据项(100a,100b,...,100n)。
6.如前一权利要求所述的方法,还包括以下步骤:在所述流(10)中选择与识别出的第二数据项不同的第三数据项(100a,100b,...,100n),并且基于由所选择的第一和第三数据项形成的成对数据项生成提议窗口规范(20)。
7.如在先权利要求中任一项所述的方法,其中,生成所述至少一个处理规范(30)的步骤包括以流处理语言生成处理指令,所述流处理语言优选是XQuery。
8.如在先权利要求中任一项所述的方法,其中,所述数据项(100a,100b,...,100n)包括至少一种属性,并且其中所述相似性量度适于基于至少一对数据项(100a,100b,...,100n)中的至少一种属性的值来计算两两相似性值。
9.如前一权利要求所述的方法,其中,如果所述至少一对数据项(100a,100b,...,100n)中的至少一种属性的值相等,则使所述两两相似性值增大。
10.如在先权利要求8或9所述的方法,其中,如果所述至少一种属性是二进制属性并且如果所述至少一对数据项(100a,100b,...,100n)的至少一种二进制属性的值是互补的,则使所述两两相似性值增大。
11.如在先权利要求中任一项所述的方法,还包括以下步骤:接收至少一个处理规范(30),基于所述至少一个处理规范(30)得出数据项(100a,100b,...,100n)的至少一个流(10)并且/或者在数据项的流中显示至少一个提议窗口规范(20)。
12.一种计算机程序,其包括用于实现如在先权利要求中任一项所述的方法的指令。
13.一种用于为传感器(5)所捕获的数据项(100a,100b,...,100n)的流(10)生成至少一个处理规范(30)的系统(1),其中所述系统(1)包括:
a.窗口规范发生器(40),适于生成多个提议窗口规范(20);
b.处理规范发生器(50),适于基于所述提议窗口规范(20)中的至少一个生成所述至少一个处理规范(30);
c.其中,所述窗口规范发生器(40)适于基于相似性量度生成所述多个提议窗口规范(20),所述相似性量度适于在数据项的流(10)中识别相似的成对数据项(100a,100b,...,100n)。
14.如前一权利要求所述的系统(1),其中,所述窗口规范发生器(40)还适于计算所述多个提议窗口规范(20)的累积相似性值,并且其中所述处理规范发生器(50)还适于基于具有最高累积相似性值的提议窗口规范(20)生成所述至少一个处理规范(30)。
15.如在先权利要求13或14中任一项所述的系统(1),还包括图形用户界面(60),其适于向用户显示所述多个提议窗口规范(20)并且适于允许所述用户选择所述提议窗口规范(20)中的至少一个,其中所述处理规范发生器(50)适于基于所选择的至少一个提议窗口规范(20)生成所述至少一个处理规范(30)。
CN2010105702500A 2009-11-24 2010-11-24 用于为数据项的流生成处理规范的方法 Pending CN102073809A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP09176936.4 2009-11-24
EP20090176936 EP2336907A1 (en) 2009-11-24 2009-11-24 Method for generating processing specifications for a stream of data items

Publications (1)

Publication Number Publication Date
CN102073809A true CN102073809A (zh) 2011-05-25

Family

ID=41852781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105702500A Pending CN102073809A (zh) 2009-11-24 2010-11-24 用于为数据项的流生成处理规范的方法

Country Status (3)

Country Link
US (1) US9286353B2 (zh)
EP (1) EP2336907A1 (zh)
CN (1) CN102073809A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9817911B2 (en) * 2013-05-10 2017-11-14 Excalibur Ip, Llc Method and system for displaying content relating to a subject matter of a displayed media program
US10089362B2 (en) 2014-08-13 2018-10-02 Software Ag Systems and/or methods for investigating event streams in complex event processing (CEP) applications

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734888A (en) * 1993-06-04 1998-03-31 International Business Machines Corporation Apparatus and method of modifying a database query
US7468662B2 (en) * 2006-06-16 2008-12-23 International Business Machines Corporation Method for spatio-temporal event detection using composite definitions for camera systems
US7499900B2 (en) * 2006-04-20 2009-03-03 International Business Machines Corporation Device, method and computer program product for situation monitoring

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681230B1 (en) 1999-03-25 2004-01-20 Lucent Technologies Inc. Real-time event processing system with service authoring environment
US6449618B1 (en) 1999-03-25 2002-09-10 Lucent Technologies Inc. Real-time event processing system with subscription model
US6496831B1 (en) 1999-03-25 2002-12-17 Lucent Technologies Inc. Real-time event processing system for telecommunications and other applications
US6502133B1 (en) 1999-03-25 2002-12-31 Lucent Technologies Inc. Real-time event processing system with analysis engine using recovery information
EP0997819B1 (en) 1999-08-06 2001-10-31 Agilent Technologies, Inc. (a Delaware corporation) Dynamic event recognition
US7412501B2 (en) 2000-06-07 2008-08-12 Microsoft Corporation Event consumers for an event management system
US7444395B2 (en) 2000-06-07 2008-10-28 Microsoft Corporation Method and apparatus for event handling in an enterprise
US6504479B1 (en) * 2000-09-07 2003-01-07 Comtrak Technologies Llc Integrated security system
US7275250B1 (en) 2001-05-01 2007-09-25 Microsoft Corporation Method and apparatus for correlating events
US7398530B1 (en) 2001-11-20 2008-07-08 Cisco Technology, Inc. Methods and apparatus for event handling
US20060229923A1 (en) 2005-03-30 2006-10-12 International Business Machines Corporation Definition of workflow patterns using complex event processing
US20080120283A1 (en) 2006-11-17 2008-05-22 Oracle International Corporation Processing XML data stream(s) using continuous queries in a data stream management system
US8065319B2 (en) 2007-04-01 2011-11-22 Nec Laboratories America, Inc. Runtime semantic query optimization for event stream processing
US9171282B2 (en) 2007-10-22 2015-10-27 Oracle International Corporation Interactive complex event pattern builder and visualizer
US8069190B2 (en) 2007-12-27 2011-11-29 Cloudscale, Inc. System and methodology for parallel stream processing
US20100023300A1 (en) * 2008-07-28 2010-01-28 Charles River Analytics, Inc. Sensor based monitoring of social networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734888A (en) * 1993-06-04 1998-03-31 International Business Machines Corporation Apparatus and method of modifying a database query
US7499900B2 (en) * 2006-04-20 2009-03-03 International Business Machines Corporation Device, method and computer program product for situation monitoring
US7468662B2 (en) * 2006-06-16 2008-12-23 International Business Machines Corporation Method for spatio-temporal event detection using composite definitions for camera systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
无: "Xqurey 1.1 Use Cases", 《HTTP://WWW.W3.ORG/TR/2008/WD-XQUERY-11-USE-CASES-20080711/》, 31 December 2008 (2008-12-31) *

Also Published As

Publication number Publication date
EP2336907A1 (en) 2011-06-22
US9286353B2 (en) 2016-03-15
US20110125762A1 (en) 2011-05-26

Similar Documents

Publication Publication Date Title
CA2940752C (en) Intelligent visualization munging
CN102282516B (zh) 异常检测方法及异常检测系统
JP5945350B2 (ja) 設備状態監視方法およびその装置
CN102135984A (zh) 用于分析对数据流的连续查询的分析系统和方法
JP2011070635A (ja) 設備状態監視方法およびその装置
KR101560456B1 (ko) 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법
Pit-Claudel et al. Outlier detection in heterogeneous datasets using automatic tuple expansion
US10678625B2 (en) Log-based computer system failure signature generation
US20070005520A1 (en) Systems and methods for visualizing arguments
WO2010097945A1 (ja) 情報処理装置及び情報処理方法及びプログラム
CN111183421A (zh) 服务提供系统、业务分析支援系统、方法以及程序
CN102365597A (zh) 用于创建过程模型的装置和方法
Santosh et al. Deconfounding legal judgment prediction for European court of human rights cases towards better alignment with experts
CN112631889A (zh) 针对应用系统的画像方法、装置、设备及可读存储介质
KR20150059208A (ko) 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
CN115391670A (zh) 一种基于知识图谱的互联网行为分析方法与系统
CN102073809A (zh) 用于为数据项的流生成处理规范的方法
CN107943966A (zh) 基于微博文本的异常个性判定方法及装置
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
Taylor Proximity coefficients as a measure of interrelationships in sequences of behavior
JP2013061733A (ja) 時系列データから興味深いパタンを発見する装置
Ghawi et al. Analysis of country mentions in the debates of the un security council
Alharbi et al. Demographic group prediction based on smart device user recognition gestures
Britt Stepwise segmented regression analysis: An iterative statistical algorithm to detect and quantify evolutionary and revolutionary transformations in longitudinal data
WO2016098739A1 (ja) 情報抽出装置、情報抽出方法、及び情報抽出プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110525