CN102597992A - 用于多维时态数据挖掘的系统、方法和计算机程序 - Google Patents

用于多维时态数据挖掘的系统、方法和计算机程序 Download PDF

Info

Publication number
CN102597992A
CN102597992A CN2010800395896A CN201080039589A CN102597992A CN 102597992 A CN102597992 A CN 102597992A CN 2010800395896 A CN2010800395896 A CN 2010800395896A CN 201080039589 A CN201080039589 A CN 201080039589A CN 102597992 A CN102597992 A CN 102597992A
Authority
CN
China
Prior art keywords
data
tense
extracts
time
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800395896A
Other languages
English (en)
Other versions
CN102597992B (zh
Inventor
卡罗林·帕特里希亚·麦格瑞戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Ontario Institute of Technology (UOIT)
Original Assignee
卡罗林·帕特里希亚·麦格瑞戈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 卡罗林·帕特里希亚·麦格瑞戈 filed Critical 卡罗林·帕特里希亚·麦格瑞戈
Publication of CN102597992A publication Critical patent/CN102597992A/zh
Application granted granted Critical
Publication of CN102597992B publication Critical patent/CN102597992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于多维时态抽取和数据挖掘的系统、方法和计算机程序。本发明包括采集并选择性清洗多维数据,所述多维数据包括多个数据流;时态抽取所述多维数据;以及基于感兴趣的共享时间点来相对校准经所述时态抽取的多维数据。

Description

用于多维时态数据挖掘的系统、方法和计算机程序
技术领域
本发明总体上涉及数据挖掘。本发明更具体地涉及实现多维、时间独立查询和分析的数据挖掘环境。
背景技术
存在多个其中多个设备生成多个数据流的领域,并且期望监控、分析和/或预测时间相关的行为。使用现有的数据挖掘环境,这种跨多个数据流的时间相关性尤其对于分析目的而言可能难于解决。
需要一种改进的数据挖掘环境,其支持跨例如多个流、多个实体、多个可能的实体属性、随时间变化的数据流的多个可能行为以及数据流中反映的多个事件进行的时间相关数据的数据分析(包括出于数据挖掘的目的),从而产生多维环境(即,实体、流、实体属性、流行为和流事件)。还需要如下数据挖掘环境,其足够灵活以允许相对开放式查询,由此实现例如对包括具有新维度的趋势或者基于相对小的数据集的趋势在内的趋势检测。
例如,各地的重症监护室使用一系列医疗监控设备,诸如用于生命保障和危急监控的医疗设备。这些设备已经投入使用了50年以上,并且使得垂危的内科患者和外科患者能够由在恢复和/或维持重要器官功能方面训练有素的医生和护士在复杂、专业环境中进行观察和监控。一系列不同的设备显示生理数据,并且许多设备具有经由串行、USB或其他端口输出此数据的能力。
除了采集此数据供医务人员实时使用外,还期望支持针对其他相关临床研究的数据的二次分析,例如以支持发现可以是某些状况发动的指示的预先未知的趋势和模式。诸如此类的针对健康数据的二次使用的潜力是显著的。在2007年美国医疗信息协会杂志中发布的、题为“Toward a National Framework for the Secondary Use ofHealth Data”的美国医疗信息协会白皮书中,支持当今数据密集型医疗环境中数据二次使用的基础设施的迫切性被视为美国健康系统的关键。
医疗监控设备产生大量数据,这使得不可能人工分析这些数据。增加了大数据集的复杂度是生理监控数据(该数据是多维的)的本性,其中值得注意的不仅是单个维度中的改变,而且有时是在若干维度中的同时改变。由于监控设备产生的时间序列是时态(temporal)的,因此需要如下临床研究框架,该框架使得维度和时态行为能够在数据挖掘期间被保留,以便不在挖掘过程期间丢失时间和上下文的信息。
在临床研究领域,为支持在患者的状况中特定事件的时机可能非常重要的情况下,发现可能是重症监护患者状况发作指示的新趋势和模式,需要包括如下方法的集成时态抽取数据挖掘系统,该方法支持关于与被研究的状况发动而对历史数据进行重新校准。
发明内容
本发明提供了一种用于多维时态数据挖掘的系统、方法和计算机程序。
本发明还提供了一种用于多维时态抽取和数据挖掘的方法,该方法包括:采集并选择性清洗多维数据,该多维数据包括多个数据流;时态抽取多维数据;以及基于至少一个感兴趣的时间点来相对校准经时态抽取的多维数据。
该系统包括计算机实现的数据挖掘系统,其特征在于:至少一个数据存储;以及与该至少一个数据存储通信的处理器,该处理器配置用于:使用用户设置的选择标准来从数据存储采集并构造至少一个时间相关的数据集;根据预定抽取规则来向至少一个时间相关的数据集应用时态抽取以产生至少一个经时间抽取的数据集;以及相对于至少一个感兴趣的时间点来重新校准至少一个经时间抽取的数据集以产生至少一个经相对校准的数据集。
本发明的计算机程序包括其上存储有用于数据挖掘的计算机程序的计算机可读介质,该计算机程序包括当与处理器一起使用时用于生成并存储多个可访问信息文件的指令集,该指令集包括特征在于以下的方法:使用用户设置的选择标准来构造至少一个时间相关的数据集;根据预定抽取规则来向至少一个时间相关的数据集应用时态抽取以产生至少一个经时态抽取的数据集;相对于感兴趣的时间点来相对地校准至少一个经时态抽取的数据集以创建至少一个经相对校准的数据集;以及存储每个至少一个数据集用于随后检索。
在此方面,在详细说明本发明的至少一个实施方式之前,应当理解本发明在其应用上不受限于以下描述或其中提供的示例中阐述的或附图中举例说明的构造细节和组成布置。本发明能具有其他实施方式并能以各种方式实施和实现本发明。同时,将理解在此使用的措词和术语是出于描述的目的而不应当被认为是限制。
附图说明
图1图示了现有技术的CRISP-DM模型。
图2图示了用于实现本发明的系统。
图3图示了可通过云计算架构访问的本发明。
图4图示了已知CRISP-DM与科学方法之间的并行。
图5图示了满足零(null)假设测试需求的扩展CRISP-DM模型。
图6图示了用于实现STDMn 0框架的数据存储模式。
图7图示了尤其用于实现针对临床研究的STDMn 0框架的图6的数据存储模式。
图8图示了用于使得临床医生能够实行本发明的方法的方案管理设备。
图9图示了作为示例的例如ECG不稳定流的相对校准。
具体实施方式
概述
本发明涉及对已知多维数据挖掘环境的改进。本发明包括对一系列时态和相对(relative)规则的数据挖掘环境的添加。本发明提供的特定优势在于时态规则支持如下多维环境,该多维环境借助于数据预备阶段,使得数据流能够用与特定兴趣点相关的时间戳进行编码。该环境提供了其中可能针对多个患者进行跨多个参数的多种研究的整体框架。
本发明的方法包括若干步骤。第一,多维数据被收集并被选择性地清洗(clean)。第二,多维数据被时态抽取(temporally abstracted),从而在多维中创建动态数据挖掘环境(如下文进一步描述)。第三,经时态抽取的数据被相对校准(relatively aligned)。
时态抽取过程将原始设备或预处理流数据作为输入,并且利用域知识(上下文)将原始数据转译成如下行为或事件信息,该行为或事件信息处于比输入数据的输入流更慢的时间频率,由此产生更高的层级、上下文敏感、定性、基于区间的表示。复杂时态抽取可以通过评估跨多个流的行为来创建。
可选择地,第四步骤为在所创建的多维数据挖掘环境中进行探索性和/或解释性数据挖掘。探索性数据挖掘是指通过支持对数据挖掘环境的查询进行数据挖掘而不强加规则或函数。解释性数据挖掘尝试通过对更多数据集执行进一步的数据挖掘来进一步验证规则。
备选的第四步骤,或者除了上文所述第四步骤的第五步骤为链接至一个或多个远程设备以使得一个或多个远程设备能够使用所产生的经时态抽取的并且经相对校准的数据。远程设备可以是链接到提供所述数据流的本发明或与之相关联的任意设备。远程设备可以位于同彼此、系统和实体物理上接近的位置。远程设备可以备选地位于与系统、彼此或实体附近的外部位置,例如位于国家或世界的遥远地区,通过因特网或其他网络与系统连接。远程设备可以无线地链接到系统或实体。
设备可以全部连接到一个实体,或者一系列设备子集可以连接到全集或样本集内现有的一系列实体。设备可以是例如医疗生理监控设备、智能仪表、汽车遥感监控设备、气象传感器、网络流量监控器、股票价格数据流或发电厂监控系统。全集内的匹配实体可以分别是医疗保险内的患者、电网中的住宅、汽车或气象站。
本发明的计算机程序最好理解为包括(1)时态效用(utility)或代理(agent),以及(2)相对效用或代理,均对应于上文的方法步骤。时态效用和相对效用是链接的。本发明的计算机程序至少支持对所产生经的时态抽取的和经相对校准的数据的查询。可选择地,计算机程序支持探索性和/或解释性数据挖掘,这在一个实现中采用已经描述过的功能代理的形式。
可选择地,提供了规则生成代理。该规则生成代理为用户提供了一种机制以用于通过提出规则并将规则存储到数据表中来生成规则,或者存储在探索性数据挖掘阶段由系统提出的规则。响应于关于所述规则的经时态抽取并经相对校准的数据可以发起警报、警告或消息。
该过程可以是用户驱动的。通常,用户愿意了解他们正在研究的内容以及期望的规则。查询可以是用户驱动的原因在于用户可以根据需要操纵、分析或监控数据。查询可以由用户使用用户接口提供。
用户接口可以提供用于输入研究选择标准的装置。用户接口的该部分是数据驱动的,并且使得用户能够选择标准来与符合研究的实体的其他选择标准一起来限定感兴趣的相对时间点。
用户接口还可以提供用于输入感兴趣的相对时间点的装置,其使得用户能够基于事件、实体属性、流行为、或者流事件(后两者由其自己的流的时态抽取来表示)来选择兴趣点。用户可以首先确定该感兴趣的时间点是来自事件、实体属性还是时态抽取。该感兴趣的时间点可以被限定为日期时间,该日期时间为可操作用作相对校准感兴趣的数据流的参考点的时间点。基于用户的选择,用户继而提供有由来自数据库的如下内容所直接填充的列表:可能事件的列表;具有日期时间的实体属性的列表;或者时态抽取的列表。在时态抽取的情况下,用户可以选择是时态抽取的首次发生还是最近发生是感兴趣的,并且还可以确定是起始时间还是结束时间是感兴趣的。
如果事件被选作相对兴趣点,则确定针对选定实体发生的事件是相对时间点。
如果为日期时间的实体属性被选作相对兴趣点(例如,与实体相关的在特定时间之后存在哪些常见行为),则该日期时间为针对选定实体的相关时间点,诸如完成制造的日期或者出生日期。
如果选择了时态抽取,则选择了与针对给定实体的时态抽取的选定标准相关联的日期时间。
该结果是满足选定标准的实体列表,并且针对每个实体还列出了表示针对相对校准过程的t0的日期时间点。该结果列表可以持久地存储在数据库内,但这不是强制的,这是由于该列表可以基于针对特定研究的研究表中的内容经由包含在其他表中的信息而重新生成。
除了限定相对感兴趣的时间点,用户还能够通过数据驱动列表填充的类似数据库来提供其他选择和/或排他标准以确定什么实体应当作为研究的一部分。这些标准可以来自实体属性、事件属性、时态抽取或相对时态抽取中的任意项或所有项。
查询可以在以任何期望的组合方式与时间和相对数据流一起的静态和/或原始数据流上进行。经时态抽取的并经相对校准的数据还可以被动态分析以确定具体信息。例如,可以容易地确定特定时间点处的平均性能,其很难于手动进行,尤其是在需要并发流评估的情况下。
本发明的系统可以被实现为已知数据库引擎或类似技术。本发明可以包括计算机系统,该计算机系统包括至少包含时态效用和相对效用的一个或多个计算机,所述计算机系统链接到一个或多个数据库引擎或者类似技术,数据库引擎包括静态数据、来自一个或多个远程设备或传感器的数据,或者直接或间接链接到一个或多个远程设备或传感器的计算机系统,以便用传感器数据来填充数据库引擎提供的一个或多个数据库。
可选择地,系统可以被实现为云计算实现,其中通过一系列的web服务来将此环境的使用提供作为外部服务。图3图示了可通过云计算架构访问的本发明。系统还可以实现为经由web服务集仍可访问的专有方案,其中来自一个源(以及有可能来自每个源的多个传感器等)的数据被提供到连接到因特网以及至少链接到时态效用和相对效用的web服务器,其中web服务器递送经时态抽取且经相对校准的数据,或者上文论述的探索性和/或解释性数据挖掘的输出。本发明提供的规则还可以通过使用web服务进行添加、改变或删除。应当注意,web服务模型的益处之一在于链接到web服务器的多个组织可以提供改进可由每个参与组织访问的数据的大量数据集。
本发明尤其可应用于各种领域,具体而言,在任何存在多个传感器或者与发生的事件或行为相关的多个数据流以及与感兴趣的“实体”的特定“终端状态”或“终端状况”有关的不同时间的场合。例如,“实体”例如可以是被监控的患者或装置。事件或行为可以引起或导致终端状态或终端状况,例如,一系列连续事件可以限定导向特定状态或状况的时间轴。
本环境包括用于数据挖掘的方法,该方法支持通过规定探索性和确定性数据挖掘函数进行零假设测试。本发明还包括用于支持时态、相对规则连同多维规则库的本体设计。环境支持静态数据(例如,临床数据)连同如下传感器数据,该传感器数据可以是数值数据(例如,温度或血压)流或者波形数据(例如,ECG和EEG)流,并且支持跨数据流之间的关联的数据挖掘连同静态数据。时态和相对时态数据的存储还支持针对其他相关临床研究的数据的二次分析。
根据应用的领域,理解本发明可以应用到任意其中可以存在用于监控与类似或相同行为有关的事件或参数的多个传感器的范围是重要的。该技术至少与患者看护、监控结构故障、气象事件、智能仪表等有关。只要在不同时间发生的多个事件上,从多个信息源进行推断是一种挑战,本发明就是有利的。
同样有利的还有,本发明的多维数据挖掘环境支持多个研究。这些可以是以实体为中心的、以实体属性为中心的、以流为中心或以事件为中心的,或者还可以从本体中的任何其他方面中抽取。例如,在患者看护方面,三个婴儿可能全发现感染,并且例如技术使得能够调查这三个案例之间的共同因素,例如对于心率、呼吸速率等。附加地,由于存在与这些事件相关联的实际时间,因此本发明使得能够追踪各种传感器生成的多个流上的多个行为,以及构建支持与诊断事件相关的重新校准的数据结构,以便在环境内进行更好的分析,例如在感染的传播期间基于在特定时间点处的平均因素(factor)更好地实时追踪每个婴儿的过程等。
本发明使得用户能够具有何时介入以防止状况或缓和状况的高级知识。存在感兴趣的事件状态,例如引擎故障或诊断事件。本发明提供了一个环境,其中用户可以看到走向事件状态的先前事件,并且探索该轨迹以根据事件状态来确定实体处于什么情况下(即,实体是否以及何时朝事件状态方向发展)。轨迹可以基于历史平均进行限定,而且支持用户或系统进行实时反应。
此外,本发明使得能够使用相对较小的数据集创建轨迹,并且基于附加的数据集优化轨迹。本发明还对新的状况做出反应。
在特定说明性示例中,数据可以与事件相关地时态抽取。例如,在发生状况或事件时,存在提供特定实体(例如,患者或汽车)的图片的多个传感器。这些多个传感器例如可以位于不同器官或组件上,由此提供多维数据流。数据可以在延长的时段上采集。来自发生状况或事件的类似实体的数据还可以随时间进行采集。状况或事件可以被设置为兴趣点,并且可以对多维数据进行挖掘以确定导向所述状况或事件的趋势。
题为“Multi-Dimensional Temporal Abstraction and Data mining ofmedical Time Series Data:Trends and Challenges”的论文(Catley,C,Stratti,H和McGregor,C,2008年8月,Multi-Dimensional TemporalAbstraction and Data Mining of Medical Time Series Data:Trends andChallenges,第30届国际IEEE医学与生物工程会议)的4322-5图示了对时间序列数据、一般时态抽取(对照于在此所述的特定时态抽取技术和系统)以及零假设测试的原理方面的一些当前研究。
本发明的一个方面是利用生理数据填充针对医疗保险应用的数据挖掘环境。这可以例如使用以下生理数据模型完成,该生理数据模型在“A Web Service Based Framework for the Transmission ofPhysiological Data for Local and Remote Neonatal Intensive Care”(McGregor,C.,Heath,J.,以及Wei,M.,2005年,IEEE电子技术、电子商务以及电子服务国际会议论文集,香港,IEEE)第496-501页中进行了描述。
数据挖掘框架
本发明提供了用于对时态数据进行多维数据挖掘的框架。本发明可以支持本地使用以及通过基于服务的模型进行使用。该框架这里被称为基于服务的多维时态数据挖掘(STDMn 0)。应用于支持对来自新生儿重症监护室(NICU)的患者的历史数据进行分析以及趋势检测的框架在“A Multidimensional Temporal Abstractive DataMining Framework”,(Bjering,H.和McGregor,C.,2010年,第4届澳大利亚健康信息与知识管理研讨会论文集,布里斯班)HIKM第29-38页中进行了描述,其通过引用并入于此。STDMn 0可操作用于发现指示状况发动的趋势和模式;包括用于跨多个实体的多个参数应用时态抽取以使得能够挖掘多维时态数据的方法;支持零假设测试;可以生成能够供分析实体当前状况的实时事件流处理器使用的假设;以及生成可以被转译成规则以供用于监控和警告的实时事件流处理器使用的假设。
STDMn 0提供了用于支持扩展CRISP-DM数据挖掘模型的功能的机制以助于零假设测试。CRISP-DM是如图1所示的6阶段分级处理模型。在最高级别,该六个阶段为:业务理解;数据理解;数据预备;建模;评估和部署。这些阶段的每一个均与如图7所示散布在该分级模型较低等级上的子任务集相关联。在图3的云计算模型中示出了用于扩展CRISP-DM的方法以支持并入本发明的基于科学方法的零假设测试。
STDMn 0包括桥接数据管理与数据挖掘研究之间距离的架构,从而支持由监控设备采集的某些大量数据的二次使用。采集的新数据被馈送到具有现有数据的框架中以帮助进一步细化STDMn 0框架中产生的假设。
STDMn 0模型由如下多个代理支持,所述多个代理促进用户与包含在活动规则本体和数据管理层中的数据之间的交互。多个代理包括处理代理、时态代理、相对代理、功能代理和规则生成代理,如下文及图3中所示。
多个数据存储还可以由STDMn 0框架提供,从而包括时态数据存储和相对时态数据存储。
图3中图示了STDMn 0框架的多代理数据挖掘系统。该框架图将所使用的代理映射到扩展的CRISP-DM模型适当部分,并且提出单独的STDMn 0任务。
参考图3中标记为STDMn 0代理的水平栏,STDMn 0框架中的第一代理是处理代理。该处理代理充当功能代理的预处理器,执行获取并准备数据以及将其存储到数据存储内的任务,以便为时态代理的进一步处理做好准备。如STDMn 0扩展至CRISP-DM栏下所示,处理代理用于支持并部分支持CRISP-DM模型中的数据理解和数据预备阶段。
在STDMn 0数据管理栏下,处理代理通常将针对静态数据从外部数据库获取数据以及针对流数据经由传感器设备获取数据。
处理代理使用静态和流web服务,使得数据能够被直接推送或拉送至处理代理。数据还可以经由直接连接向处理代理直接发送。
接下来参考图3的STDMn 0代理任务栏,存在一个由处理代理执行的名为本地采集和清洗的主要任务。当数据到达并且执行通用数据清洗(诸如针对误差值的检查)时,该任务涉及从外部数据库收集静态和流数据用于在STDMn 0框架内使用。这些误差值是例如由与实体相关的不相关因素引起的那些误差值,从而采用用于处理丢失值等的策略。
数据由处理代理从外部数据库提取,转变成需要的格式并且存储到STDMn 0框架中的数据存储,如在STDMn 0数据管理栏中所示。从实体获得的静态数据或者描述实体的静态数据被录入静态数据表,并且传感器数据被存储在传感器数据表中。该任务支持在STDMn 0内提出的扩展CRISP-DM模型的所有数据理解以及部分数据预备组件。
本地采集和清洗任务是作为STDMn 0内代理之一的处理代理的任务。接下来参考图3中所示的STDMn 0 Web服务接口栏,处理代理可以从源直接取得数据或者由流数据采集Web服务和静态数据采集Web服务提供数据。
在传统数据仓库设置(其中原始数据被拷贝至数据仓库并且经由跟随有批聚合的周期负载进行聚合)中,处理代理例如可以实现为容纳数据仓库的数据库管理系统(DBMS)中的代理。周期提取可以脱离接收传感器数据的可操作数据并且该提取经由实施处理代理的脚本被加载至STDMn 0环境。
在流计算范例(其中当数据实时到达时作为流操纵数据)中,处理代理可以是当数据实时到达时从传感器直接接收流、并且通过数据库输出算符输出数据以支持排插入的流计算程序。
在服务计算范例中,经由流数据采集Web服务或静态数据采集服务的实施可以实施数据库脚本和流计算程序。
再次参考STDMn 0代理栏,框架中下一个代理是时态代理。时态代理生成对处理代理预备和存储的数据的时态抽取。待执行的时态抽取由STDMn 0规则本体的时态规则限定。时态抽取代表在数据挖掘之前的预处理方法,该方法允许保留数据的时态方面和上下文。
例如,在临床研究设置中,针对给定患者集,每个相关生理流可以时态抽取成适当的抽取(abstraction),诸如趋势(增加、减少)和级别转变(高、低)。每个原始数据片可以属于若干抽取。例如,特定测量可以是“增加”抽取的一部分,并且同时处于“正常”的限制内。复杂抽取还可以跨多个所抽取的参数完成。
尽管单独数据值本身可能不提供有价值的信息,但是当随时间和上下文考虑时,这些值可以产生意义。在探索性数据挖掘之前,STDMn 0框架将使用时态抽取作为数据的预处理。根据STDMn 0代理任务栏下列出的任务,针对每个实体,每个传感器流时态抽取成适当的抽取,诸如趋势和等级转变。复杂抽取还可以跨多个所抽取的参数完成。包括特定抽取实例的实际开始时间和结束时间的每个抽取可以被存储为时态数据作为STDMn 0数据管理组件的一部分。
如图3中由数据预备步骤的重叠所描绘的那样,时态代理用于部分支持CRISP-DM模型中数据预备阶段。
接下来参考STDMn 0 Web服务接口栏,可以发现时态代理使用如下时态抽取web服务,该服务使得数据能够被直接推送或拉送至时态代理。数据还可以经由直接连接直接向时态代理发送。
时态代理具有作为时态抽取任务执行的五个主要功能:(1)从时态规则表获取相关时态规则;(2)向数据应用时态规则,从而创建针对单独实体的单独数据流的简单抽取;(3)将所创建的低频时态抽取流存储到时态数据存储中;(4)根据任意相关的时态规则,从步骤3中创建的简单抽取来创建复杂抽取;以及(5)将所创建的任意复杂时态抽取流存储到时态数据存储中。
时态抽取的示例可以包括如下:
(i)新生儿重症监护:
1)在平均动脉血压降到新生儿患者的当前胎龄以下时的开始时间和结束时间;
2)在新生儿患者的血氧量水平降到85%以下时的开始时间和结束时间;
3)在新生儿患者的血氧量水平以大于规定阈值的速率下降时的开始时间和结束时间;以及
4)在1)和2)同时发生超过20秒时的开始时间和结束时间的复杂抽取。
(ii)电网
1)当电力超过特定阈值时的开始时间和结束时间。
(iii)气象:
1)当气象站的温度超过35℃时的开始时间和结束时间。
再次参考图3,相关代理表示框架的下一阶段。当用户希望调查在某些事件之前或之后出现在实体的传感器数据中的某些模式或其他信号的可能性时,经常会需要校准例如与诊断时间相关的数据,包括静态数据和传感器数据的抽取。这将允许用户研究关于其他实体的特定结果和纠正方法。这些相关校准处理组成相对代理的STDMn 0代理任务。
相对地将数据校准至的兴趣点在临床上下文中可以是(但并不一定是)诊断时间。兴趣点可以基于任意事件或行为。
当研究特定事件时,将抽取与保持实体事件的时间和日期的事件表进行匹配。该信息通过转变算法进行馈送以支持针对与诊断时间点相关的抽取的时间上的测量。T0是事件点,并且T_1、T_2、T_3…T_n表明在事件时间之前的抽取与事件之间时间上的距离。该步骤使得与事件点的实体相关的数据能够“排队”,以使得能够检测在某些事件发动之前或之后处于特定时间点处的实体中常见的趋势和模式。在导致事件的时间中特定参数的显著变化可以被剥离,以使得能够找到用于确定特定参数的改变或行为何时与事件的发动相关地发生的任何显著指示符。
相对代理使用时态代理创建并存储在时态抽取表中的抽取,连同单独实体的静态信息一起来产生数据子集或数据集市以支持特定研究。可以存在任意数目的在时态抽取上执行的相对校准,如图3中相对代理1和相对代理n标记所示。特定校准由待从事的研究类型来确定,该类型在数据库中的研究表中指定。
相对代理设计用于基于待从事的研究来支持实体数据和时态抽取的相对校准。相对代理用于相对于在时态抽取的数据集内共享的某些感兴趣的时间点(例如针对事件何时对实体显现的相对时间点)来重新校准时态抽取。
多个研究可以在相同时态抽取上进行,并且相同时态抽取可以用于许多不同的研究并且可以要求以若干不同的方式进行重新校准。存储在在相对时态数据表中的每个经校准的时态抽取将属于特定研究。经重新校准的时态抽取将形成在后期处理阶段中执行的可选探索性和确认性数据挖掘的基础。
当作为相对校准的结果没有时间调整发生时,可以创建研究。在这种情况下,相对校准基于单独实体的静态信息执行感兴趣实体的子集选择。
相对代理用于部分支持CRISP-DM模型内的数据预备阶段,并且针对给定研究代表数据预备的最终步骤。
参考图3的顶部水平栏,相对代理使用如下相对校准web服务,该服务使得数据能够被直接推送或拉送至相对代理。数据还可以经由直接连接直接向相对代理发送。
相对代理具有三个主要功能:(1)基于用户给定的选择规范从时态数据存储获取相关数据和时态抽取;(2)向绝对时间的时态抽取应用针对待从事的研究规定的转变,以创建经校准的时态抽取集,该抽取集被称作相对抽取,因为时间(开始时间和结束时间)与校准点相关;以及(3)将经相对校准的抽取存储到相对时态数据存储中以允许功能代理的进一步处理。
相对校准任务的示例可以包括如下:
(i)新生儿重症监护:
1)选择被诊断为医院感染的所有新生儿患者,并基于疑似医院感染的数据相对地校准数据,并且计入疑似医院感染诊断之前四天的数据以及之后的所有数据。
2)选择23周妊娠出生的所有患者,并且针对这些患者创建相当于27-29妊娠的27-29周的患者的研究数据集。
(ii)电网:
2)校准其中温度大于40C超过4小时,随后日子的温度小于27C的周末的仪表数据,并且选择仪表数据的其后72小时(即,用于检测在非常热的日子之后可能不需要空调的实例中过度的空调使用的模式)。
再次参考图3,STDMn 0框架的下一个代理是功能代理。功能代理尝试检测并验证相对校准的时态数据中的新趋势和模式,并且包括探索性和确认性数据挖掘。初始分析使用探索性数据挖掘完成,以使得兴趣规则集的发现能够进一步调查。探索性数据挖掘用于跨多个实体的多个数据流分析由时态代理和相对代理所创建的重新校准的时态抽取,以在对可以通过规则集生成来表示、并且还被称作假设的新趋势和模式的搜索中探索数据。“进行观察”和“创立假设以解释观察”的科学方法阶段由探索性数据挖掘支持。如果发现数据中的关联,则该关联可以使用确认性数据挖掘进行验证。所述验证可以经由对进一步数据集的测试或者经由零假设测试或者这两者来进行。
分析的目的在于查找时态数据中的等级转变和趋势,以及交叉相关跨多个实体的多个数据流的数据挖掘结果,从而检测可能随特定事件在实体中存在的先前未知的模式,并由此创建有可能成为能够在实体监控中应用的新规则的新的假设。
在先前步骤中执行的时态抽取保留了数据的时态方面,使得当跨多个流以及针对多个实体任务执行探索性数据挖掘时包括此时态方面。
存在用户在该步骤中使用备选数据挖掘技术的能力;框架不限制对最佳匹配挖掘任务的数据挖掘技术的选择。选定的数据挖掘技术必须意识到时序数据。探索性数据挖掘的结果由用户检测,并且选择重要的规则集。
功能代理用于支持CRISP-DM模型内的建模阶段。STDMn 0框架扩展CRISP-DM以支持科学方法。图4中图示了已知CRISP-DM与科学方法之间的并行。
STDMn 0框架探索性数据挖掘任务是数据挖掘规则集生成的一部分,并且选择扩展CRISP-DM模型的重要规则集阶段。该任务将在多代理框架中由功能代理完成。
参考STDMn 0代理任务栏,在功能代理步骤下,基于给定假设针对给定研究选定的实体子集及其相关联的经相对校准的时态流可以被用作探索性数据挖掘的训练集。随后在解释性模式中,相同的假设(无需切换到零假设模式)可以在最初针对给定研究选定的实体的其他子集或者满足实体的研究选择标准的整个子集的更多数据上运行。
在STDMn 0内并入零假设测试使得能够通过确认性数据挖掘处理来验证假设,并且表示用于在如下域内使用的可选步骤,在该域中,需要对结果规则的进一步验证(诸如但不限于医疗保险)。这种具有零假设任务的确认性数据挖掘在制定的零假设和运行统计过程内执行以测试到CRISP-DM的假设扩展。该假设从一个假设转译到零假设,并且验证尝试反驳该零假设。如果反驳不成功,则假设保留。
零假设测试集成的示例如下:
零星临床证据指出以下两个事件的关联与导致不稳定心率的新生儿不稳定性直接相关联:“假设早产5周出生的新生婴儿(35周胎龄),平均血压降到小于35mm Hg(即,他们胎龄的数值)是临床相关的。在所有妊娠期,外围氧饱和度降到小于85%达超过20秒也是临床相关的。”
时态代理依照上文预备对平均血压和血氧含量的初始简单时态抽取,并且当同时发生时预备复杂的时态抽取以选择分段。这些被相对校准到心率不稳定事件。
在此示例中,在DM规则生成和选择重要规则集步骤期间由功能代理执行的探索性数据挖掘带来支持上文零星临床证据的关联。
制定零假设步骤使得规则集能够表示为零假设。
针对此示例使用为0.8的关联系数。因此该假设利用以下形式的关联系数表示:
H1:ρ(X,Y)>0.8
其中:X表示ECG不稳定以及;
Y表示ABP平均<胎龄达20秒;以及SaO2<85%同样达20秒。
有效零假设表示为:
H0:ρ(X,Y)=0.8
真零假设表示为:
H0:ρ(X,Y)<0.8
在运行统计过程以测试假设步骤期间,在STDMn 0扩展到CRISP-DM模型之下展开,针对测试集的其他混合测试零假设以尝试反驳该零假设。如果不能反驳该零假设,则认为证实该假设。
可选择地,探索性和确认性数据挖掘可以是自动的。探索性数据挖掘可以依次使用事件时间、表示日期时间点的实体属性、或者时态抽取开始时间而与系统自动执行,以确定将符合条件的实体的相对校准点。符合条件的实体可以基于以实体属性标准、事件属性标准时态抽取标准和/或相对时态抽取标准为基础的限制而迭代地选择。数据挖掘可以是自动的以尝试基于共同行为或经由其他数据挖掘方法返回存在强关联的结果来聚集实体。
例如,用户可以可选地选择某些数据流或者有意义的数据流,并继而使用这些数据流进行进一步的解释性数据挖掘。用户可以选择执行该步骤以例如输入基于域知识已知的结果,从而避免附加系统处理发现已知的趋势。
功能代理使用使得数据能够直接推送或拉送到功能代理的探索性数据挖掘和确认性数据挖掘web服务。数据还可以经由直接连接直接向功能代理发送。
接下来参考图3的规则生成代理垂直栏,规则生成代理执行如下任务,即通过功能代理内的探索性数据挖掘将创建作为规则集生成的一部分的规则添加至可以通过支持插入规则表的方式表示的规则格式。用户可以评估规则集,并且决定是否将要将其并入实时规则库作为针对智能实体监控的活动规则。
如图3中所示,该任务是扩展CRISP-DM模型中评估阶段的一部分。
这些规则可以供事件流处理器(诸如在图8中针对实时事件监控的方案管理器服务中详细所述的事件流处理器)利用。事件流处理器可以并入实时数据流上的时态抽取以允许利用用于警告的时态抽取规则。
规则生成代理使用使得数据能够直接推送或拉送到规则生成代理的规则管理web服务。数据还可以经由直接连接直接向规则生成代理发送。
图4中图示了满足零假设测试需求的扩展CRISP-DM模型。该扩展的CRISP-DM模型用于支持STDMn 0框架中的数据挖掘模型。这种对CRISP-DM模型的扩展图示了扩展CRISP-DM模型的确认性数据挖掘建模和评估组件中科学方法方式的零假设测试组件的合并。以下部分详细描述了STDMn 0框架内扩展的CRISP-DM实现。尤其是建模和评估组件内的扩展。
数据理解
数据理解阶段涉及与采集相关联并且熟悉所采集数据的各种任务。对所述数据进行描述和调查,并且标识出任何数据质量问题。数据理解阶段使用多代理系统中处理代理的服务来完成STDMn 0框架中本地采集和清洗任务的一部分。
数据预备
数据预备阶段包括在将最初未处理的数据转换成待馈送至数据挖掘工具的最终数据集过程中涉及的所有动作。所述动作包括以下活动,诸如选择和清洗数据、构造并集成数据集以及格式化数据以为数据挖掘做好准备。数据预备阶段使用多代理系统中的三个代理的服务。在相对代理根据实施的研究执行数据的相对重新校准之前,处理代理完成在数据理解阶段开始的最初准备,为时态代理做好准备以执行时态数据上的时态抽取。
建模和评估
建模阶段包括选择和应用建模技术。该阶段包括数据挖掘规则集生成,选择重要规则集,制定零假设以及运行统计过程以测试假设。制定零假设和运行统计过程以测试零假设表示建模和评估组件中CRISP-DM扩展的STDMn 0框架实现以支持科学方法中测试零假设和通过/失败测试。所有建模和评估阶段由多代理系统中的功能代理执行,并且映射到如下文所述的STDMn 0框架。
数据挖掘规则集生成和选择重要的规则集
数据挖掘规则集生成阶段是其中进行探索性数据挖掘的阶段。在STDMn 0框架中,探索性数据挖掘在相对校准的时态抽取上执行,包括多个实体的多个流。当移至选定的重要规则集阶段时,使用探索性数据挖掘的结果。
制定零假设
制定零假设阶段使用选择重要规则集阶段的输出,其中重要规则集选自探索性数据挖掘的结果。零假设针对任何表明兴趣和进一步调查的结果而创建。
运行统计过程以测试零假设
建模阶段的另一部分,运行统计过程以测试零假设阶段跟随制定零假设阶段。运行统计过程以测试零假设阶利用STDMn 0框架的零假设任务执行确认性数据挖掘,目的在于证实或反驳该零假设。
数据源部署
扩展的CRISP-DM模型的数据源部署组件通过规则生成代理的功能而实现。
数据存储
图6图示了用于实现STDMn 0框架的数据存储模式。图7中示出了用于支持新生儿重症监护的数据存储模式的另一示例。
框架中实体的静态实体数据可以记录在实体表中。实体表包含经标识的或者研究未标识的实体的历史临床静态数据。实体表的属性是用于将实体表的内容链接到实体事件、实体流、时态抽取、TA_相对时间和实体诊断表的内容的实体ID。实体表与实体流之间的关系是一对多,实体表与时态抽取表之间的关系是一对多,实体表与TA_相对时间表之间的关系是一对多,并且实体表与实体诊断表之间的关系是一对多。实体表继而可以包含图6中列出的任意数目的实体属性,如实体属性1到实体属性n
如图7中所示,可以实现这点以支持新生儿重症监护。在此上下文内,实体是患者。实体表被示为具有患者_ID而不是实体ID的患者表,以及一系列实体属性(出生时间和日期、出生胎龄、性别、出生体重、出生长度、出生头围)。
事件表存储关于可以在给定时间点对实体发生的事件类型的限定信息。事件表包含事件ID码,其是每个事件连同包含事件的人们可读名称的事件名称一起的唯一标识符。事件类型使得事件能够例如在事件可以与诊断、观察记录、实验室结果和增长纪录有关的情况下进行分组。事件描述包含描述事件的进一步文本细节。
实体事件表包含对已经过诊断的给定实体发生的事件表中列出的所有事件的记录。包括该表的主键的属性是其例如可以用于将诊断链接到特定实体的实体ID、例如可以用于将针对实体的记录链接到诊断的特定类型事件ID以及日期和时间。在数据采集过程期间,特定实体可以在相同状况下诊断若干次,因此有必要包括连结主键中的所有这些属性。在图7中,实体/事件表已经被填充为患者/诊断表,其中最后一个属性(严重性)在适当情况下用于记录状况的严重性。
返回参考图6,每个实体的各种传感器的经标识或研究未标识原始传感器数据存储在实体流表中。
包含在实体流表中的属性为实体ID、流_ID、阅读的日期和时间、值以及一系列其他属性,表示为所需的属性1至属性n,诸如但不限于方位和位置,如图7中临床研究模式所示。实体ID属性用于将传感器数据链接到实体表中的正确实体。实体流表与实体表之间存在多对一关系。流_ID用于标识哪个传感器以及该传感器中可能正在读取的哪个流链接到流定义表。实体流表与流定义表之间存在多对一关系。
实体已经读取的每个流必须被标识。流定义表包含作为属性的id、传感器ID和针对每个流实体可以具有读取值的名称,即,流名称。传感器ID在实体流表中被用作外键来链接到流定义表以支持由每个流的名称进行的标识。
针对如何抽取特定流的规则包含在图6的TA_规则表中。每个流可以被链接到不止一个规则以创建不止一个抽取。
TA_规则表中的属性是规则ID,其包含特定规则的id,传感器ID,其将TA_规则表链接到流定义表,并且用于标识特定规则被应用到的参数类型。规则属性包含特定规则的细节。TA_规则表具有对于流定义表的多对一关系,其表明特定流定义可以具有不止一个向其应用的时态抽取规则。
从实体的流中创建的时态抽取存储在时态抽取表中。该抽取可以通过向单独实体流的数据值(其可以在实体流表中找到)应用先前定义的抽取规则(存储在图6的TA_规则表中)来创建。每个实体的每个传感器数据流的原始数据从实体流表提取、抽取以及产生的抽取存储到时态抽取表中。
时态抽取表的属性为实体ID,用于将特定抽取链接到特定实体;传感器ID,用于将抽取与特定流关联;抽取值(TA值),示出了抽取的结果(值例如可以是高、低、正常、上升等);实际开始时间(TA开始时间),其为抽取成真的时间;以及实际结束时间(TA结束时间),其为特定抽取不再为真时、结束的时间。
存储在此表中的时态抽取通过向存储在实体流中实体的相关流应用包含在TA_规则表中的规则而产生。
时态抽取表以多对一关系链接到实体表,表明特定实体可以具有存储在该表中的多个抽取。时态抽取表与流限定表之间存在多对一关系,其表明流可以具有其上执行的若干抽取。
在传统数据仓库设置中,其中原始数据被拷贝至数据仓库并且经由批聚合之后的周期负载进行聚合,时态代理例如可以实现为容纳数据仓库的数据库管理系统(DBMS)中的代理。例如这可以利用DB2(商标)中的脚本。例如在此实例中,上文列出的五个功能可以实现为:
1)查询TA_规则表并且从活动的表中选定行的每行的规则栏中选择所有规则。
2)建立包含针对TA_规则表规则栏中列出的每个时态抽取的插入语句的DB2脚本。插入语句可以包含选择语句,其针对专用于将行插入时态抽取表的日期范围执行时态抽取功能。
3)存储可以通过运行脚本和启动插入语句来完成。
4)复杂抽取可以从在该复杂抽取之前执行的新近创建的简单抽取插入语句选择数据。
5)复杂抽取的存储可以通过运行脚本以及启动针对复杂抽取的插入语句来完成。
在流计算范例中,在当数据实时到达时数据被操作为流的情况下,时态代理可以是流计算程序,用于分析当数据实时到达时的数据流或者采用源自数据仓库表的数据以及创建作为简单或复杂抽取的一系列结果低频流,并继而将他们实时加载到数据库中。在此实现中,除了原始数据流向数据仓库环境的周期拷贝外,还需要时态抽取数据的周期拷贝。例如在此实例中,上文列出的五个功能在实时环境中实现如下:
1)使用包含在TA_规则表中的信息来驱动针对每个规则产生实时流模块。例如在IBM Infosphere流中,可以创建出现一系列SPADE图表。
2)代表简单抽取的每个流模块可以在源原始流和相关联所需静态数据中读取,并且写出该结果低频输出流。这些实时流模块可以针对正由实时流环境监控的每个实体进行部署。
3)存储可以通过将一个输出流或多个输出流写入数据库来完成。
4)类似于1),复杂抽取可以被实现为在来自2)的实时流中产生的输出流中创建的流模块,同时其通过一旦数据被写入数据库便从复杂抽取之前执行的新创建的简单抽取中选择数据来生成。
5)复杂抽取的存储可以通过将一个输出流或多个输出流写入数据库来完成。
图6的研究表,其规定了特定校准,持有与可能需要被应用于针对每个研究存储在时态抽取表中的抽取的任意相对规则有关的信息。如果在引起诊断的时间的某些参数的行为将被研究,则取决于从事的特定研究,时态抽取可能需要相对于特定时间点(诸如诊断点)重新校准。在该情况下,特定抽取为真时的绝对时间点并不重要,相反,每个实体关于相关的实体诊断时间的相对时间点才重要。
每个研究研究表中均存在条目。研究表的属性为研究_ID、每个研究的、以及用于链接到TA_相对时间表的唯一标识符。研究表可以具有零个到许多研究属性,诸如但不限于图6表中指出的研究名称和研究归属如研究属性1至研究属性n。研究_归属属性用于标识进行特定研究的用户。为了支持实体对这些兴趣的限制(如果需要),则研究表包含用于通过实体限制属性限定实体限制的本质的属性。为了支持对感兴趣事件的限制(如果需要),研究表包含用于通过事件限制属性限定事件限制的本质的属性。为了支持对感兴趣时态抽取的限制(如果需要),研究表包含用于通过TA限制限定时态抽取限制的本质的属性。为了支持对感兴趣相对校准的限制(如果需要),研究表包含用于通过TA相对属性限定相对校准限制的本质的属性。
用于支持新生儿危重监护的该表实现的示例在图7中为示出为研究表,其中实体已经由患者替代。
研究限定的示例如下:研究员期望选择不到30周胎龄出生的所有患者。在此示例中,感兴趣事件为新生儿心动过缓的事件,其针对该研究被限定为心率降到每分钟10跳以下。感兴趣时态抽取为1)平均血压的简单TA降到当前同等胎龄以下达超过20秒;2)血氧饱和度的简单TA降到百分之85以下达超过20秒;以及3)当1和2一同或重叠发生时的复杂抽取。相对校准限制用于只选择在前至新生儿心动过缓事件的日期和时间之前36小时发生的时态抽取。在此示例中应当注意,相同实体可以具有多个事件发生,从而导致针对该患者的多个相对校准的数据集。
如以SQL在数据库管理系统中实现的研究限制信息的示例可以是如下一系列选择语句,其中子句部分分别在实体限制、TA限制、针对来自实体行限制的事件限制和TA相对限制属性、时态属性、事件限制和TA_相对时间表的每一个中。这继而可以在复合插入语句中使用来将数据插入TA_相对时间表中。
再次参考图6,TA_相对时间表持有时间上相对于已经由如下用户视为感兴趣的时间点校准的抽取,该用户拥有表中相对校准抽取的研究。多个研究的数据可以存储在TA_相对时间表中。
TA_相对时间表的属性非常类似于时态抽取表中的属性,然而实际开始时间和实际结束时间已经由相对开始时间和相对结束时间替代,其将是相对于条目所属研究的归属视为感兴趣的时间点的时间。研究_ID属性已经被添加以将相对抽取链接到研究表中的特定研究。TA_相对时间表与研究表之间的关系是多对一关系,因为TA_相对时间表中可以存在属于特定研究的许多条目。
在此上下文中,相关代理例如可以实现为容纳数据仓库的数据库管理系统(DBMS)中的代理。这可以例如利用DB2中的脚本。例如在此实例中,上文所列三个功能可以实现为:
1)查询研究表并选择所有研究以及使用每个栏中包含的信息来填充结果插入语句中的信息,以在TA_相对时间表中创建行。
2)构建包含如从1)创建的每个相关校准规则的插入语句的DB2脚本。插入语句可以包含执行指定用于在TA_相对时间表中产生行的日期范围执行相对校准功能的选择语句。
3)存储可以通过运行脚本并且启动插入语句至TA_相对时间表来完成。
在流计算范例中,在当数据实时到达时数据被操作为流的情况下,相对校准代理可以是流计算程序,用于分析当数据实时到达时的时态数据流,或者采用源自数据仓库表的数据,并创建作为简单或复杂抽取的一系列结果低频流,继而将它们实时加载到数据库中。在此实现中,还需要相关数据的周期拷贝以创建用于数据挖掘的相关数据拷贝。例如在此实例中,上文列出的五个功能在实时环境中实现如下:
1)使用包含在研究表中的信息来驱动针对每个规则创建实时流模块。例如在IBM Infosphere(商标)流中,这将带来一系列SPADE图表的创建。
2)表示研究相对校准的每个流模块可以在时态抽取流和相关联所需静态数据中读取,并且写出该作为结果的经相对校准流。这些实时流模块可以针对特定研究范围中考虑的每个实体进行部署。
3)存储可以通过将一个输出流或多个输出流写入数据库来完成。
除了上文形成STDMn 0框架一部分的表,从作为STDMn 0框架处理结果的假设所创建的可能结果规则还可以存储在实时规则库表中(如图6所示),其可访问以供实时患者监控(诸如SMS内的事件流处理器)使用。该表可以位于STDMn 0数据存储外部。
图6说明了实时规则库表的示例,其中针对已经是研究主题的每个事件ID,关于特定流(流ID)的时态抽取(TA规则ID)可以基于它们与事件的相对距离以及需要相关联值的位置进行限定。针对流可以存在多个时态抽取规则,其中每个均有可能与事件处于不同的相对距离。针对每个事件可以存在跨多个流的多个时态抽取。
方案管理器服务
在本发明的一个实现中,方案管理器服务(SMS)是支持新生儿临床管理和研究的智能决策支持系统(IDSS)。与方案管理服务的交互经由一系列web服务。在本发明的特定代表性实现中,图9中所示的SMS包含六个组件:
方案构建器是捕获如下元数据的构建时间组件,所述元数据用于安装并初始化运行时组件和数据管理层。
医疗警告监控器是使得新生儿专家能够限定和改变复杂医疗警告规则的运行时组件。
事件流处理器提供连续集成并转换事件的可扩展数据分级环境以支持复杂医疗警告。
分析处理器提供用于获取接近实时的患者数据的运行时接口或者根据位于数据管理层内数据仓库或实时数据存储中的数据在患者或汇总级别执行临床试验分析。
数据管理提供构建时间元数据、医疗规则以及存储在数据仓库或者活动规则和连同时态抽取(TA)规则库在内数据存储中存储的运行时间生理和临床数据的永久存储。
Web服务接口经由web服务集提供对这些组件的访问。本文描述了与方案管理器服务和数据采集单元有关的研究。
SMS支持实时处理和数据挖掘,实时处理在新生儿示例实现的背景中表示实时智能患者监控。
图3中所示的STDMn 0框架组件如下映射到图8中的SMS组件:
SMS内的临床日志Web服务执行STDMn 0框架中静态数据采集Web服务的功能。
SMS内的生理日志Web服务执行STDMn 0框架中刘数据采集Web服务的功能。
SMS内的分析Web服务表示STDMn 0框架中的web服务集,即:时态抽取Web服务、相对校准Web服务、探索性数据挖掘Web服务、确认性数据挖掘Web服务和规则管理Web服务。
SMS事件流处理器功能的一部分在于实施处理代理以从SMS实时数据存储将数据移到SMS数据仓库。
SMS内的分析处理器通过STDMn 0框架中剩余四种类型的处理代理进行实施,即:时态代理、相对代理、功能代理和规则生成代理。
图6中以其一般形式以及图7中针对新生儿重症监护的示例形式示出的STDMn 0框架数据模型是SMS内数据仓库的表示。
SMS临床日志Web服务和生理日志Web服务将数据分别加载至STDMn 0框架数据模型实体和实体流表的实时数据存储拷贝,并且表示连续填充的表以支持实时患者监控。时态抽取表的拷贝还可以存在于以下实例中的实时数据存储中,其中该表的内容通过如下技术实时产生,所述技术包括但不限于流编程。STDMn 0框架处理代理作为SMS分析处理器的组件从SMS实时数据存储中的匹配表拷贝用于在STDMn 0框架数据模型实体、实体流以及可选的SMS数据仓库的时态抽取数据表中填充的数据作为周期性增加负载。
SMS医疗警告监控器及其支持的监控器Web服务支持实时智能患者监控所需的功能。
SMS方案构建器和定义Web服务可以用于首先限定SMS实时数据存储内实时智能患者监控所需的表以及SMS数据仓库内的STDMn 0框架数据模型表。
示例
I危重监护
本发明可以被实现为用于确定与诊断相关的模式以及可选地预测未来诊断的临床监控和数据挖掘环境。图8图示了用于使得临床医生能够执行上述方法的方案管理器服务。在危重监护背景中,临床数据以及生理数据与时态规则一起使用来创建原始生理数据流的时态数据汇总流。生理数据流由临床数据补充。这些汇总流可以基于多个原始流的交叉相关来表示汇总。
在对相对于兴趣点t0的时序时间戳进行编码的数据预备步骤期间,用户可以容易地在灵活的多维环境中生成基于单独研究的相对时态数据表。例如,t0可以指基于针对每个患者诊断的特定状况的时间,一组新生儿患者的新生儿患者流的校准,由此使得先前流行为的校准能够在t-1、t-2…t-n的连续体中,其中n是针对给定研究的回到感兴趣的时间的距离。
环境的用户可以创建表示面对患者、事件、生理和时态数据表的一系列功能和/或标准的相对规则。
处理代理
处理代理的角色在于获取和预备来自传感器的流数据以及静态数据,以用于分别存储在流数据表和静态数据表内。在危重监护环境中,静态数据可以由临床信息系统提供,例如出生日期或出生时的胎龄,以及从医疗传感器设备获取的流数据(例如,ECG信号),或者随时间手动重复采集的流数据,例如随时间手动重复采用的温度读数。
静态数据可以经由静态数据web服务提供,其在危重监护环境中例如可以是经由HL7消息格式。流数据可以经由流数据web服务提供。
时态代理
时态代理的角色在于通过抽取时间区间,在汇集时间区间期间表示流的趋势和/或行为以相对于正被编码的一个或多个数据流更低的频率创建新的时态编码流。每个数据流时态上抽取成适当抽取,诸如基于用于驱动时态规则表中包含的时态抽取的时态规则的趋势(增加,减少)和等级转变(高,低)。每个原始数据片可以属于若干抽取。例如,特定测量可以是“增加”抽取的一部分,并且同时处于“正常”的限制中。复杂抽取还可以跨多个抽取参数完成。每个抽取流存储在时态数据表中。
相对、功能和规则生成代理可以一起运行作为一组任意给定研究(从研究1到研究n)。还有可能运行利用针对特定研究所需的新的时态规则的时态代理。该原理经由以下示例研究示出。
(a)临床研究示例1:ECG不稳定
临床研究员例如可以通过平均血压降到小于同等胎龄(例如35周胎龄婴儿的35mm Hg)达超过20秒同时伴有外围氧饱和度小于85%达超过20秒来确定在过去24小时内ECG不稳定性是否领先(precede)。
在此示例中,生理数据流包括ECG、血压和外围氧饱和度。
首先,ECG、血压和外围氧饱和度的生理数据流数据经由流数据采集web服务通过处理代理加载至流数据表。类似地相关临床数据经由静态数据采集web服务加载至静态数据表。
通过使用时态代理,可以创建时态抽取规则以创建时态编码流来基于针对每个患者评估的ECG流检测ECG不稳定性。类似地,可以创建时态规则来确定平均血压何时降到基于患者同等胎龄的阈值以下达超过20秒的时间区间。可以创建时态规则来确定外围氧饱和度小于85%达超过20秒。可以创建复杂规则用于表示他们在何处重叠。这些规则可以使用时态抽取web服务进行创建。
相对代理选择已经被检测为具有ECG不稳定性的患者,并且针对此示例可以使用ECG不稳定的第一次出现来确定感兴趣的时间点。该感兴趣的时间点在图9中被示为诊断的圆点。其中复杂时态抽取可能已经出现的示例被示为流上位于诊断前面的矩形框。可以在图9的绝对时间表示中看出,复杂抽取和感兴趣诊断的实际时间点发生在每个患者的实际时间中的不同点。
如图9的相对时间部分中所示,针对每个选定患者,ECG不稳定的时间用于基于成为t0的感兴趣时间来将感兴趣的所有三个流中的实际时间复位成相对时间。图9中的示例示出了与针对此研究的感兴趣诊断点的复杂抽取情形类似的相对距离。
随着基于兴趣点的数据预备、时态抽取和校准,所述两步骤数据挖掘可以开始。该两步骤处理支持最初规则生成(探索性数据挖掘),然后通过确认性数据挖掘测试零假设。
在此示例中,已经提出在ECG行为与平均血压和外围氧饱和量的先前行为之间存在疑似关联的假设。因此,规则集可以基于已经提出的内容立即进行限定。然而,可以改变研究来在其他数据流上执行探索性数据挖掘以了解是否存在如下其它时态抽取,该时态抽取与在ECG不稳定之前导致需要执行探索性数据挖掘的发生高度相关。
针对此示例,可以使用为0.8的关联系数来对假设编码。因此该假设利用以下形式的关联系数进行表示:
H1:ρ(X,Y)>0.8
其中:X表示ECG不稳定性以及;
Y表示ABP平均<胎龄达20秒;并且SaO2<85%同样达20秒。
有效零假设表示为:
H0:ρ(X,Y)=0.8
真零假设表示为:
H0:ρ(X,Y)<0.8
在确认性数据挖掘阶段,确定具有先前ABP平均的ECG不稳定性与SaO2下降之间的关联。
如果H0不能被接受,则由上文H1表示的规则可以被接受,并且被创建作为规则库表中的规则。例如,规则可以是基于ABP平均的两个简单阈值分支的关联的复杂抽取,并且在规则作用时,SaO2下降同时具有对ECG稳定性的潜势的警告。规则管理web服务可以独立于规则生成过程来添加、改变或删除规则。规则可以存在作为产生规则、测试规则或开发规则。
(b)临床研究示例2:平均血压
临床研究员例如可以针对通常由于早产之前没有进行诊断的婴儿来确定平均血压与同等胎龄(例如35周妊娠婴儿的35mm Hg)之间是否存在关联。
在此示例中,生理数据流包括血压。
现有时态规则可以用于确定平均血压何时降到基于患者同等胎龄的阈值以下达超过20秒的时间区间。
相关代理可以选择满足由于其第35个等同妊娠周期间早产而没有针对诊断为异常进行治疗的标准的患者。针对每个选定患者,胎龄的第35周的开始时间可以用于将感兴趣流(平均血压)内的实际时间复位成基于成为t0并前进7天的兴趣时间的相对时间。
在此示例中,已经提出假设在平均血压行为与同等胎龄存在疑似关联。因此,规则集可以基于已经提出的内容立即进行限定。
如在先前示例中,零假设可以在确认性数据挖掘阶段进行测试。
(c)临床研究示例3:ECG不稳定性II
临床研究员例如可以通过生理流中出现1分钟或更长时间的常见行为来确定过去24小时内ECG不稳定性是否领先。
在此示例中,生理数据流包括ECG和其他生理流。
可以使用先前创建用于基于针对每个患者评估ECG流来检测ECG不稳定的时态抽取规则。在所述研究中包括在流上而非ECG上的所有时态流编码。
相对代理可以选择已经检测具有ECG不稳定性的患者,并且对于该示例使用ECG不稳定的第一次出现来确定感兴趣的时间点。针对每个选定患者,ECG不稳定的时间可以用于将所有感兴趣流中的实际时间复位到基于成为t0的感兴趣时间的相对时间。
随着数据预备、时态上抽取和基于兴趣点的校准,可以开始所述两步骤数据挖掘。该两步骤处理支持最初规则生成(探索性数据挖掘),然后通过确认性数据挖掘测试零假设。
在此示例中,假设还没有提出,因此探索性数据挖掘阶段针对ECG行为与所提供的其他流的先前行为之间可能存在关联的患者训练集来完成。
如果在训练集上检测为到联,则该关联被转换成零假设并且在测试数据集上进一步测试以确定关联因子。
如果成功,则由上文H1表示的规则可以被接受并且作为规则库数据库中的规则。
II其他示例
本发明可以在临床研究领域外实现数据挖掘。例如,用户可以确定如下之间的关系:针对两种不同类型的产品销售模式、在路由器发生故障之前的计算机网络流量特性、通过智能仪表数据的分析与特定天气和体育赛事相关的电力使用行为、在机动车内的特定形式的组件出现故障之前的汽车遥感系统信息、在特定里程或车龄之后特定品牌和型号的机动车的期望操作行为,、设备故障或即将出现故障之前核电站操作传感器读数、在特定股票价格变动行为之前股票价格购买趋势、或者公司之间从公司宣告到特定股票价格变动行为的时间距离。

Claims (21)

1.一种用于多维时态抽取和数据挖掘的方法,所述方法的特征在于:
采集并选择性清洗多维数据,所述多维数据包括多个数据流;
时态抽取所述多维数据;以及
基于至少一个感兴趣的时间点来相对校准经所述时态抽取的多维数据。
2.根据权利要求1所述的方法,其中经所述采集、时态抽取和相对校准的数据存储在数据存储中用于随后获取。
3.根据权利要求1所述的方法,进一步特征在于从事对经所述相对校准的经时态抽取的多维数据的探索性数据挖掘。
4.根据权利要求3所述的方法,其中所述探索性数据挖掘步骤包括用于使用户能够生成规则以供智能监控系统使用的机制。
5.根据权利要求1所述的方法,进一步特征在于将至少一个远程设备链接到经所述时态抽取的多维数据以支持由所述至少一个远程设备进行进一步的数据处理。
6.根据权利要求1所述的方法,其中所述时态抽取步骤包括以下步骤:获取至少一个时态规则,并且向所述多维数据应用所述至少一个规则来创建经时态抽取的多维数据。
7.根据权利要求1所述的方法,其中经所述时态抽取的多维数据特征在于多个数据值,所述多个数据值的每一个数据值均具有实际开始时间和实际结束时间。
8.根据权利要求7所述的方法,其中所述相对校准步骤包括以下步骤:针对所述多个数据值的每一个数据值,计算所述实际时间与所述至少一个感兴趣的时间点之间的差别。
9.根据权利要求1所述的方法,其中所述至少一个感兴趣的时间点为事件。
10.根据权利要求1所述的方法,其中所述相对校准步骤包括以下步骤:基于由用户提供的选择规范来从数据存储获取经所述时态抽取的多维数据,以及向经所述时态抽取的多维数据应用转换。
11.一种计算机实现的数据挖掘系统,其特征在于:
至少一个数据存储;
与所述至少一个数据存储通信的处理器,所述处理器配置用于:
使用由用户设置的选择标准来从所述数据存储中采集并构造至少一个时间相关的数据集;
根据预先限定的抽取规则来向所述至少一个时间相关的数据集应用时态抽取,以产生至少一个经时态抽取的数据集;以及
相对于至少一个感兴趣的时间点来重新校准所述至少一个经时态抽取的数据集,以产生至少一个经相对校准的数据集。
12.根据权利要求11所述的系统,其中所述至少一个时间相关的数据集、所述至少一个经时态抽取的数据集和所述至少一个经相对校准的数据集被存储用于随后获取。
13.根据权利要求11所述的系统,其中所述处理器进一步配置用于从事对所述至少一个经相对校准的数据集的探索性数据挖掘。
14.根据权利要求13所述的系统,其中所述探索性数据挖掘过程包括用于使用户能够生成规则以供智能监控系统使用的机制。
15.根据权利要求11所述的系统,其中所述过程进一步配置用于将至少一个远程设备链接到所述至少一个经时态抽取的数据集以支持由所述至少一个远程设备对所述数据集的进一步处理。
16.根据权利要求11所述的系统,其中所述时态抽取的应用包括以下步骤:获取至少一个时态规则,并且向所述至少一个时间相关的数据集应用所述至少一个规则,以产生至少一个经时态抽取的数据集。
17.根据权利要求11所述的系统,其中所述至少一个经时态抽取的数据集特征在于多个数据值,所述多个数据值的每一个均具有实际开始时间和实际结束时间。
18.根据权利要求17所述的系统,其中所述至少一个经时态抽取的数据集的重新校准特征在于,针对所述多个数据值的每一个来计算所述实际时间与所述至少一个感兴趣的时间点之间的差别。
19.根据权利要求11所述的系统,其中所述至少一个感兴趣的时间点为事件。
20.根据权利要求11所述的系统,其中所述至少一个经时态抽取的数据集的重新校准特征在于,基于由用户提供的选择规范来从数据存储中获取所述经时态抽取的多维数据,以及向所述经时态抽取的多维数据应用转换。
21.一种其上存储有用于数据挖掘的计算机程序的计算机可读介质,所述计算机程序包括用于生成并存储多个可访问信息文件的指令集,当与处理器一起使用时,所述指令集包括其特征在于如下的方法:
使用由用户设置的选择标准来构造至少一个时间相关的数据集;
根据预先限定的抽取规则来向所述至少一个时间相关的数据集应用时态抽取,以产生至少一个经时态抽取的数据集;
相对于感兴趣的时间点来相对地校准所述至少一个经时态抽取的数据集,以创建至少一个经相对校准的数据集;以及
存储每个至少一个数据集供随后获取。
CN201080039589.6A 2009-07-22 2010-07-22 用于多维时态数据挖掘的系统、方法和计算机程序 Active CN102597992B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22766009P 2009-07-22 2009-07-22
US61/227,660 2009-07-22
PCT/CA2010/001148 WO2011009211A1 (en) 2009-07-22 2010-07-22 System, method and computer program for multi-dimensional temporal data mining

Publications (2)

Publication Number Publication Date
CN102597992A true CN102597992A (zh) 2012-07-18
CN102597992B CN102597992B (zh) 2016-08-03

Family

ID=43498691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080039589.6A Active CN102597992B (zh) 2009-07-22 2010-07-22 用于多维时态数据挖掘的系统、方法和计算机程序

Country Status (5)

Country Link
US (1) US8583686B2 (zh)
CN (1) CN102597992B (zh)
AU (1) AU2010276051B2 (zh)
GB (1) GB2484644B (zh)
WO (1) WO2011009211A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106062737A (zh) * 2013-09-06 2016-10-26 道富公司 用于多维时态数据的交互式可视分析的系统和方法
CN107077477A (zh) * 2014-09-15 2017-08-18 微软技术许可有限责任公司 用于增强的事件处理的构造的数据流
CN107273867A (zh) * 2017-06-27 2017-10-20 航天星图科技(北京)有限公司 空天遥感数据处理一体机
CN107345860A (zh) * 2017-07-11 2017-11-14 南京康尼机电股份有限公司 基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法
CN109804362A (zh) * 2016-07-15 2019-05-24 伊欧-塔霍有限责任公司 通过机器学习确定主键-外键关系
US10409448B2 (en) 2013-09-06 2019-09-10 State Street Corporation System and method for interactive visual analytics of multi-dimensional temporal data
CN113076396A (zh) * 2021-03-29 2021-07-06 中国医学科学院医学信息研究所 一种面向人机协同的实体关系处理方法及系统
CN113127522A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法、设备、系统及存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011133017A2 (en) * 2010-04-20 2011-10-27 Clarence Augustine Teck Huo Dr Ir Tee Intelligent cancer prediction & prevention system (icp2s): e-oncologist
AU2012228898B2 (en) 2011-03-17 2016-05-12 Christina Anne Catley Method and system for determining HRV and RRV and use to identify potential condition onset
US8955151B2 (en) * 2011-04-30 2015-02-10 Vmware, Inc. Dynamic management of groups for entitlement and provisioning of computer resources
WO2013086610A1 (en) * 2011-12-12 2013-06-20 University Of Ontario Institute Of Technology System, method and computer program for multi-dimensional temporal and relative data mining framework, analysis & sub-grouping
US8965895B2 (en) * 2012-07-30 2015-02-24 International Business Machines Corporation Relationship discovery in business analytics
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法
CN103024027B (zh) * 2012-12-07 2016-08-03 中国电信股份有限公司 一种基于云计算的数据挖掘实现方法和系统
US9594849B1 (en) * 2013-06-21 2017-03-14 EMC IP Holding Company LLC Hypothesis-centric data preparation in data analytics
CN104252439B (zh) * 2013-06-26 2017-08-29 华为技术有限公司 日记生成方法及装置
CN104239100A (zh) * 2014-09-11 2014-12-24 浪潮软件集团有限公司 一种通用数据处理方法
US9720939B1 (en) 2014-09-26 2017-08-01 Jpmorgan Chase Bank, N.A. Method and system for implementing categorically organized relationship effects
US11282592B2 (en) 2015-03-31 2022-03-22 Change Healthcare Holdings, Llc Healthcare information system and method for controlling access to a data projection
US10311159B2 (en) 2015-08-18 2019-06-04 International Business Machines Corporation Mining of composite patterns across multiple multidimensional data sources
US10346446B2 (en) 2015-11-02 2019-07-09 Radiant Geospatial Solutions Llc System and method for aggregating multi-source data and identifying geographic areas for data acquisition
CN105955209B (zh) * 2016-04-26 2018-05-08 中南民族大学 一种基于数据挖掘制造业工厂设备布局方法
US10355798B2 (en) 2016-11-28 2019-07-16 Microsoft Technology Licensing, Llc Temporally correlating multiple device streams
US10977089B2 (en) * 2018-04-16 2021-04-13 International Business Machines Corporation Fusing and unfusing operators during a job overlay
CN109344249B (zh) * 2018-08-14 2023-02-17 创新先进技术有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN110320842B (zh) * 2019-07-16 2021-09-07 东北大学 用于氧化铝生产过程的多尺度数据采集与处理装置及方法
CN110879824A (zh) * 2019-10-23 2020-03-13 中广核工程有限公司 一种基于物理数据库的核电工程业务数据挖掘系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094051A1 (en) * 2002-04-29 2003-11-13 Laboratory For Computational Analytics And Semiotics, Llc Sequence miner
US20050210027A1 (en) * 2004-03-16 2005-09-22 International Business Machines Corporation Methods and apparatus for data stream clustering for abnormality monitoring
CN1713180A (zh) * 2004-06-22 2005-12-28 微软公司 结合多维表达式和数据挖掘扩展来挖掘olap立方体
US20070239753A1 (en) * 2006-04-06 2007-10-11 Leonard Michael J Systems And Methods For Mining Transactional And Time Series Data
US20080243742A1 (en) * 2006-06-14 2008-10-02 International Business Machines Corporation Method and Apparatus for Predicting Future Behavior of Data Streams

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1487320A4 (en) * 2001-10-12 2010-12-01 Univ Utah Res Found ANESTHESIANT DRUG MONITORING APPARATUS
US7844899B2 (en) * 2007-01-24 2010-11-30 Dakota Legal Software, Inc. Citation processing system with multiple rule set engine
US20100030418A1 (en) * 2008-07-31 2010-02-04 Gm Global Technology Operations, Inc. Online health monitoring via multidimensional temporal data mining
US20100076785A1 (en) * 2008-09-25 2010-03-25 Air Products And Chemicals, Inc. Predicting rare events using principal component analysis and partial least squares
US8280899B2 (en) * 2009-10-14 2012-10-02 Microsoft Corporation Abstracting events for data mining

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094051A1 (en) * 2002-04-29 2003-11-13 Laboratory For Computational Analytics And Semiotics, Llc Sequence miner
US20050210027A1 (en) * 2004-03-16 2005-09-22 International Business Machines Corporation Methods and apparatus for data stream clustering for abnormality monitoring
CN1713180A (zh) * 2004-06-22 2005-12-28 微软公司 结合多维表达式和数据挖掘扩展来挖掘olap立方体
US20070239753A1 (en) * 2006-04-06 2007-10-11 Leonard Michael J Systems And Methods For Mining Transactional And Time Series Data
US20080243742A1 (en) * 2006-06-14 2008-10-02 International Business Machines Corporation Method and Apparatus for Predicting Future Behavior of Data Streams

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106062737A (zh) * 2013-09-06 2016-10-26 道富公司 用于多维时态数据的交互式可视分析的系统和方法
CN106062737B (zh) * 2013-09-06 2019-08-06 道富公司 用于多维时态数据的交互式可视分析的系统和方法
US10409448B2 (en) 2013-09-06 2019-09-10 State Street Corporation System and method for interactive visual analytics of multi-dimensional temporal data
CN107077477A (zh) * 2014-09-15 2017-08-18 微软技术许可有限责任公司 用于增强的事件处理的构造的数据流
CN107077477B (zh) * 2014-09-15 2021-01-01 微软技术许可有限责任公司 用于增强的事件处理的构造的数据流
CN109804362B (zh) * 2016-07-15 2023-05-30 日立数据管理有限公司 通过机器学习确定主键-外键关系
CN109804362A (zh) * 2016-07-15 2019-05-24 伊欧-塔霍有限责任公司 通过机器学习确定主键-外键关系
CN107273867A (zh) * 2017-06-27 2017-10-20 航天星图科技(北京)有限公司 空天遥感数据处理一体机
CN107345860A (zh) * 2017-07-11 2017-11-14 南京康尼机电股份有限公司 基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法
CN113127522A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法、设备、系统及存储介质
CN113127522B (zh) * 2019-12-31 2024-05-10 阿里巴巴集团控股有限公司 数据处理方法、设备、系统及存储介质
CN113076396B (zh) * 2021-03-29 2023-05-16 中国医学科学院医学信息研究所 一种面向人机协同的实体关系处理方法及系统
CN113076396A (zh) * 2021-03-29 2021-07-06 中国医学科学院医学信息研究所 一种面向人机协同的实体关系处理方法及系统

Also Published As

Publication number Publication date
AU2010276051B2 (en) 2016-05-26
GB2484644B (en) 2016-05-18
AU2010276051A1 (en) 2012-03-15
US8583686B2 (en) 2013-11-12
WO2011009211A1 (en) 2011-01-27
GB201202528D0 (en) 2012-03-28
US20120166484A1 (en) 2012-06-28
GB2484644A (en) 2012-04-18
CN102597992B (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN102597992B (zh) 用于多维时态数据挖掘的系统、方法和计算机程序
US9898513B2 (en) System, method and computer program for multi-dimensional temporal and relative data mining framework, analysis and sub-grouping
JP5694178B2 (ja) 患者安全プロセッサ
CN111133526B (zh) 发掘可用于机器学习技术中的新颖特征,例如用于诊断医疗状况的机器学习技术
Lovell et al. Web-based acquisition, storage, and retrieval of biomedical signals
US9081883B2 (en) Dynamic decision sequencing method and apparatus for optimizing a diagnostic test plan
JP2011524037A (ja) 医療障害パターン検索エンジン
WO2014036173A1 (en) Methods and systems for calculating and using statistical models to predict medical events
US20210183487A1 (en) Cognitive patient care event reconstruction
Benabdelkader et al. A provenance approach to trace scientific experiments on a grid infrastructure
Nizami et al. CEA: Clinical event annotator mhealth application for real-time patient monitoring
Alamri Big data with integrated cloud computing for prediction of health conditions
Giorgio et al. FPGA-based decision support system for ECG analysis
CN107958710A (zh) 临床质量分析系统和为表示协议的进程图确定事件的最佳拟合的方法及计算机可读介质
Lofù et al. A situation awareness computational intelligent model for metabolic syndrome management
Batal et al. Temporal Data Mining for Healthcare Data.
Catley et al. Multi-dimensional temporal abstraction and data mining of medical time series data: Trends and challenges
Zhang et al. Data driven order set development using metaheuristic optimization
Tolls An event-based approach to modeling complex data in critical care
Cheng et al. Improving personalized clinical risk prediction based on causality-based association rules
Jovic et al. A web platform for analysis of multivariate heterogeneous biomedical time-series—A preliminary report
Kathiravelu et al. Visualizing Scanner Utilization From MRI Metadata and Clinical Data
Alghamdi Health data warehouses: reviewing advanced solutions for medical knowledge discovery
MEng Bio-Signal Data Gathering, Management and Analysis within a Patient-Centred Health Care Context
Egede Automatic pain assessment from face video (continuous pain intensity estimation in adults and newborns)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: UNIVERSITY OF ONTARIO INSTITUTE OF TECHNOLOGY

Free format text: FORMER OWNER: PATRICIA MCGREGOR CAROLYN

Effective date: 20140829

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20140829

Address after: Ontario

Applicant after: UNIVERSITY OF ONTARIO INSTITUTE OF TECHNOLOGY

Address before: Ontario

Applicant before: Mcgregor Carolyn Patricia

C14 Grant of patent or utility model
GR01 Patent grant