CN104115144A - 用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序 - Google Patents

用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序 Download PDF

Info

Publication number
CN104115144A
CN104115144A CN201280069496.7A CN201280069496A CN104115144A CN 104115144 A CN104115144 A CN 104115144A CN 201280069496 A CN201280069496 A CN 201280069496A CN 104115144 A CN104115144 A CN 104115144A
Authority
CN
China
Prior art keywords
data
time
rule
patient
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280069496.7A
Other languages
English (en)
Inventor
C·P·麦格雷戈
K·P·史密斯
A·德哈诺亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Ontario Institute of Technology (UOIT)
Original Assignee
University of Ontario Institute of Technology (UOIT)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Ontario Institute of Technology (UOIT) filed Critical University of Ontario Institute of Technology (UOIT)
Publication of CN104115144A publication Critical patent/CN104115144A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • G06F19/3418
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种系统、方法和计算机程序产品,其为多维数据挖掘环境,并且能够操作以应用一系列时域规则和相关规则(即,STDMn 0),并且另外能够以如下方式中的至少一种方式来操作:包括用于支持数据的依时抽取和相对对准的框架(即,STDMn 0);以及取得数据内的特征(STDMn+p 0)。本发明可以包括来自多个源的数据以及可能包括多个中心。数据的分析和对准可能涉及数据的时域维度和其他维度二者(或者相关方面)。本发明还可以是一种数据挖掘环境,其非常灵活足以允许实现相对开放的结束查询,从而使得例如能够检测趋势,包括具有新的维度的趋势、或者基于相对较小的数据集的趋势。

Description

用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序
技术领域
本发明总体上涉及数据挖掘。本发明更具体地涉及一种支持用于运行依时抽取和相对对准的框架的数据挖掘环境。
背景技术
许多领域存在多个设备生成多个数据流的发明,并且因此能够期望将这些数据流用于对依赖于时间的行为进行监测、分析和/或预测的目的。这一跨多个数据流的时间依赖性可能很难使用现有数据挖掘环境来解决,尤其是出于分析目的。
面对指数级的数据,很多组织正在将数据挖掘转向以将数据变换成可以用于生成后续知识的信息。具体地,将分布式数据挖掘(其指代分布式数据集的挖掘,分布式数据集通常存储在本地数据库中并且由通过网络连接的本地计算机来保存)用在现有技术中。注意,很多环境具有不同的分布式广阔数据源,其分析需要专用于分布式应用的数据挖掘技术。医疗数据由于关注患者信息的安全、保密和隐私因此通常是分布式的。出于这些原因,医疗数据未来很可能维持其分布式特征。在分布式数据挖掘中,数据挖掘在本地级和中央级二者出现。在总体级,对本地数据挖掘结果进行合并以发现数据中存在的总体模式或主旨。
作为其中使用多个数据源的情况的示例,在全世界范围内,重症监护室使用大量医疗监测仪器,比如用于生命支持和危急监测的医疗设备。这些设备中的很多已经运行超过50年了。虽然这些设备自身可能已经随着时间发展了,然而通常这些设备使得受过训练的医生和护士能够在复杂、专业的环境下对危重症内科和外科患者进行观察和救治,以恢复和/或维持生命器官的功能。各种这样的设备显示生理数据,并且很多具有经由串行端口、USB或其他端口输出该数据的能力。
除了采集该数据以由护理人员实时地使用,还能够期望针对其他相关临床研究实现数据的二次分析。例如,这样的二次分析可以实现可以表示某个情况的开始的事先未知的趋势和模式的发现。健康数据的这样的二次使用的潜力很明显。在2007年Journal ofAmerican Medical Informatics Association中出版的American MedicalInformatics Association White Paper中,题为“Toward a NationalFramework for the Secondary Use of Health Data”描述了先于美国健康系统的用于在当今的数据密集型保健环境下支持数据的二次使用的架构的紧迫性。
PCT申请NO.PCT/CA2010/001148公开了一种多维依时抽取和数据挖掘技术,该方法包括:采集并且可选地清除多维数据,该多维数据包括多个数据流;依时抽取该多维数据;以及基于至少一个感兴趣的时间点来使得依时抽取的多维数据相对对准。
Abdel-Rahman、Jeremic和Tan的工作(2009年)(以下引用)测试了两种类型的模型,即经验贝叶斯和自回归滑动平均,以确定同一流的未来状态。本发明提出了一种用于执行如下研究的方法:该研究用于确定与看上去独立于流和所分析的其他实体数据的事件的关联性。
Apiletti等人的工作(2009年)(以下引用)提出了一种用于时域分析的方法,该时域分析不支持比如保健情况下基于实体属性比如患者特性的分类的子分类。此外,这个研究不支持用于执行多个研究的平台。
比如Krueger等人(2010年)的研究(以下引用)对生理数据流使用传统的信号处理技术,以执行对从心电图(ECG)信号取得的心率变化时域特征的统计分析,以在按照年龄分组时确认不同模式的概念,然而,所得到的时域特征不是很明确,并且不能转译用于实时观察。
Lyman(2008年)(以下引用)提出了一种用于保健的数据栈模型以支持数据挖掘,然而,该模型不包括用于数据流比如保健中的生理数据流或其他数据流的数据建模或数据挖掘技术。
Okascharoen等人(2007年)(也在以下引用)提出了一种用于诊断晚发性新生儿败血症的床边预测评分,并且在其工作中用最新采集的使其生效。虽然该评分包含某些临床状况(窒息/心动过缓)的评估,然而,这些情况被视为通过传统的电子健康记录出现图表来呈现,而非用以更好地理解流中的时域行为的生理流的实时依时抽取曲线。
在Sharek(2006年)(以下引用)中,提出并且测试了用于有害事件检测的专注于NICU的工具。有害事件涉及药物剂量。然而,该事件检测不经由数据流的分析而是利用病例审查。本发明使得能够将药物信息集成为例如来自注射泵的数据流。
Verduijn等人(2007年)(以下引用)提出了用于从医疗数据流中抽取元特征的两个依时抽取过程,以使得能够发现新的抽取或从现有知识中使用抽取,然而,这个提取方法不是用于支持多个研究的整个架构的一部分,并且它们专注于提出两种形式的依时抽取的具体方法。在本发明中,依时抽取可以通过用于通过示例性挖掘来验证的示例性挖掘来研究,或者它们可以由领域专家来定义用于仅示例性挖掘测试。此外,在本发明中,抽取的数据表示直接与以下方式有关:通过该方式,这些抽取可以实时地观察,用于获取未来的实时情况/事件开始检测。
Zhang(2007年)以及Zhang和Szolovits(2008年)(以下引用)提出了一种用于重症监护中的患者特定的实时自适应监测的方法。在这个工作中,需要8小时的训练数据以训练可以从其检测偏差的患者的当前状态的模型。不存在用于数据采集的自动系统性方法。在研究窗口期间,受训的观察者注解的数据和笔记本电脑被连接以采集数据。该流数据没有基于与规则库有关的时域特征来评价。在本发明中,提出了一种用于纵向多维数据流捕获的系统性方法,并且数据的评价基于时域特征如简单的或者复杂的时域特征的构建。
Griffin和Moorman(2001年)(以下引用)提出了一种用于使用新的心率分析来诊断新生儿败血症和类似败血症的疾病的方法。这个方法仅使用ECG的分析,并且基于心率变化的存在来执行特征提取。提取的方法不是用于支持多个研究的整个架构的一部分。这个方法不支持多维数据分析。本发明还提出了一种用于执行研究比如详细说明的研究的方法。其提出了一种用于定义源于这个研究的依时抽取的方法。其使得能够完成这个研究连同其他研究。其支持用于采集数据流和其他静态数据的系统性方法以支持研究。
以下内容包括与本发明有关的参考文献,包括以上涉及的参考文献。
Abdel-Rahman,Y.,Jeremic,A.和Tan,K.(2009年).Neonata HeartRate Prediction.31st Annual International Conference of the IEEEEMBS(第4695-4698页).美国明尼苏达州明尼阿波里斯市:IEEE。
Apiletti,D.,Baralis,E.,Bruno,G.和Cerquitelli,T.(2009年5月).Real-Time Analysis of Physiological Data to Support MedicalApplications.Information Technology in Biomedicine,卷13,第3号,第313-321页。
Bjering,H.McGregor,C.(2010年).A Multi-dimensional TemporalAbstractive Data Mining Framework.Proc.4th Australasian Workshopon Health Informatics and Knowledge Management(pp.Conferences inResearch and Practice in Information Technology第108卷第29-38页).澳大利亚布里斯班:Copyright 2010,Australian Computer Society,Inc。
Blount,M.,Ebling,M.R.,Eklund,J.M.,James,A.G.,McGregor,C.,Percival,N.,et al.(2010年).Real-Time Analysis for Intensive Care-Development and Deployment of the Artemis Analytic System.IEEEEngineering in Medicine and Biology Magazine,第110-118页。
Catley,C.,Smith,K.,McGregor,C.和Tracy,M.(2009年).Extending CRISP-DM to incorporate temporal data mining ofmulti-dimensional medical data streams:A neonatal intensive care unitcase study.22nd IEEE International Symposium on Computer-BasedMedical Systems,2009年(第1-5页).新墨西哥州阿尔伯克基:IEEE。
Catley,C.,Smith,K.,McGregor,C.,James,A.和Eklund,J.M.(2010年).A Framework to Model and Translate Clinical Rules toSupport Complex Real-time Analysis of Physiological and Clinical Data.IHI’10.美国弗吉尼亚州阿林顿:2010 ACM。
Eklund,J.M.,McGregor,C.和Smith,K.(2008年).A Method forPhysiological Data Transmission and Archiving to Support the Serviceof Critical Care Using DICOM and HL7.IEEE EMBS conference.温哥华。
Griffin,P.和Moorman,R.(2001年).Toward the early diagnosis ofneanatal sepsis and sepsis-like illness using novel heart rate analysis.Pediatrics第107卷第1号第97-104页。
Heath,J.(2006年).A Framework for an Intellignent DecisionSupport System(IDSS)Including a Data Mining Methodology,forFetal-Maternal Clinical Practice and Research.School of Computing andMathematics.澳大利亚悉尼西悉尼大学。
Ho,T.,Kawaski,S.,Quang,L.,Takabayashi,K.和Yokoi,H.(2004年).Combining Temporal Abstraction and Data Mining to StudyHepatitis Data.SIG-KBS。
Holmes,H.J.(2007年).Intelligent data analysis in biomedicine.Journal of Biomedical Informatics,40:605-608。
Kamaleswaran,R.,McGregor,C.和Eklund,J.M.(2010年).AMethod for Clinical and Physiological Event Stream Processing.32ndAnnual International IEEE EMBS Conference(第4页).阿根廷布宜诺斯艾利斯:IEEE。
Krueger,C.,van Oostrom,J.H.和Shuster,J.(2010年).Alongitudinal Description of Heart Rate Variability in 28-34-Week-OldPreterm Infants.Biological Reseach for Nursing,11(3)261-268。
Lyman J.,S.K.(2008年).The Development of Health Care DataWarehouses to Support Data Mining.Clin Lab Med,28:55-71.
McGregor,C.P.(2010年7月).Patent No.089705-0009.加拿大魁北克省加蒂诺。
McGregor,C.,Purdy,M.和Kneale,B.(2005年).Compression ofXML Physiological Data Streams to Support Neonatl Intensive CareUnit Web Services.IEEE International Conference on e-Technology,e-Commerce,and e-Service(第486-489页).香港:IEEE。
Okascharoen,C.,Hui,C.,Cairnie,J.,Morris,A.M.和Kirpalani,H.(2007年).External validation of bedside prediction score for diagnosisof late-onset neonatal sepsis.Journal of Perinatology,496-501。
Sharek,P.J.,Horbar,J.D.,Mason,W.,Bisarya,H.,Thurm,C.W.,Suresh,G.,et al.(2006年).Adverse Events in the Neonatal IntensiveCare Unit:Development,Testing,and Findings of an NICU-FocusedTrigger Tool to Identify Harm in North American NICUs.PEDIATRICS-Official Journal of the American Academy of Pediatrics,1332-1340。
Stacey,M.,McGregor,C.和al.,e.(2007年).An Architecture forMulti-Dimensional Temporal Abstraction and its Application to SupportNeonatal Intensive Care.Engineering in Medicine and Biology Society.IEEE/EMB.
Tong,C.,Sharma,D.和Shadabi,F.(2008年).A Multi-AgentsApproach to Knowledge Discovery.IEEE/WIC/ACM conference。
Verduijin,M.,Sacchi,L.,Peek,N.,Bellazzi,R.,de Jonge,E.和deMol,B.(2007年).temporal abstraction for feature extraction:Acomparative case study in prediction from intensive care monitoring data.Artificial Intelligence in Medicine,41:1-12。
Zhang Y和Szolovits,P.(2008年).Patient-specific learning in realtime for adaptive monitoring in critical care.Journal of BiomedicalInformatics,41:452-460。
Zhang,Y.(2007年).Real-time Development of Patient-specificAlarm Algorithms for critical care.IEEE EMBS conference。
需要有一种能够满足上述要求的计算机系统、在计算机系统上执行的方法和计算机程序。
发明内容
本发明提供了一种用于多维时域数据挖掘的系统、方法和计算机程序。
本发明提供了一种用于多维依时抽取和数据挖掘的方法,该方法的特征在于:采集并且可选地清除多维数据,多维数据包括多个数据流;依时抽取多维数据;基于至少一个感兴趣的时域点来使得依时抽取的多维数据相对对准;以及管理时域规则和相关规则在多个站点上的分布,以便基于对准的时域数据来支持多维、多站点数据挖掘操作。
一方面,提供了一种计算机实现的用于从多个站点挖掘数据流的数据挖掘方法,其中不同的属性可以与数据流关联,其特征在于:使用中央分布式计算机系统部件来存储一系列时域规则以及用于基于至少一个感兴趣的时域点来使得多维数据相对对准的相关规则,中央分布式计算机系统在被执行时基于不同的属性来确定对于与具体的站点关联的数据可用的具体的时域规则;在多个站点处采集并且可选地清除多维数据,多维数据包括多个数据流;通过访问和应用所述可用的时域规则来依时抽取多维数据以生成依时抽取的多维数据,并且通过访问和应用可用的相关规则而基于至少一个感兴趣的时域点来使依时抽取的多维数据相对对准;以及从多个站点采集依时抽取的并且相对对准的数据以提供多维、依时、多站点的数据用于在数据挖掘操作中使用。
另一方面,该方法包括以如下方式来管理时域规则和相关规则在多个站点上的分布和应用:该方式使得能够支持在多个站点上的实时的或者近实时的数据挖掘操作。
另一方面,不同的属性可以包括以下各项中的一个或多个:(a)数据结构,(b)数据采集频率,或者(c)采集数据的设备的类型(包括用于识别信号中的伪像的数据校正或机制的设备的制造商/模型、方法)。
另一方面,该方法包括基于与相关数据流关联的属性来分布可用的时域规则和可用的相关规则。
又一方面,每个数据流与受试者有关,并且其中,中央分布式计算机系统在执行时:(a)发起创建每个受试者的简单抽取,以及在每个站点处对所述简单抽取进行本地存储,并且使用站点识别数据来标记数据流,以及(b)发起使用可用时域规则来创建复杂抽取,并且使用由中央分布式计算机系统定义的标记信息来标记复杂抽取,以使得能够访问由中央分布式计算机系统发起的多站点数据挖掘操作。
在另一方面,该方法包括以实时或者近实时方式生成患者监控数据以与一个或多个患者护理系统或患者监测系统结合使用。
再一方面,每个数据流与具体的受试者有关,并且该方法包括:动态地定义受试者的组或子组或者与这样的组或子组关联的特征,并且使得能够基于这样的组或者子组实时地或者近实时地进行数据挖掘操作。
另一方面,提供了一种用于从多个站点挖掘数据流的数据挖掘计算机系统,其中不同的属性可以与数据流关联:该系统包括:中央分布式计算机系统部件;与一个或多个站点关联的一个或多个设备,所述设备采集多个数据流中的数据;以及在每个站点处的连接至中央分布式计算机系统的至少一个本地计算机,其中,中央分布式计算机系统部件用于存储:一系列时域规则;以及用于基于至少一个感兴趣的时域点来使多维数据相对对准的相关规则,中央分布式计算机系统在被执行时确定对于与具体的站点关联的数据可用的具体的时域规则,其中,中央分布式计算机系统在被执行时管理数据流的依时抽取和相对对准,以通过以下操作来支持在多个站点上的多维数据的数据挖掘操作:从本地计算机信息访问与用于所述数据流的不同的属性有关的信息;向本地计算机提供可用的时域规则和可用的相关规则,从而使得能够提供多维数据以生成依时抽取的多维数据,并且以强调不同的属性的方式来基于至少一个感兴趣的时域点而使依时抽取的多维数据相对对准;以及通过与本地计算机通信来从所述多个站点处采集依时抽取的并且相对对准的数据,并且发起基于数据挖掘请求来取回和传送依时抽取的并且相对对准的数据。
在这个方面,在详细解释本发明的至少一个实施方式之前,应当理解的是,本发明不限于以下描述中提出的在构造的细节和部件的布置方面的应用或者其中所提供的示例,或者不限于如附图中所示。本发明能够是其他实施方式,或者以各种方式来实践和执行。此外,还应当理解的是,本文中所采用的措辞和术语是出于描述的目的,而不应当被认为是限制。
附图说明
在考虑本发明的以下详细描述时,本发明将变得好理解,并且本发明的多个方面也将变得清楚。这样的描述参考附图,其中:
图1示出了现有技术的CRISP-DM模型。
图2示出了作为用于实现本发明的一个可能的实施方式的系统。
图3示出了能够通过云计算架构访问的本发明的一种实施方式。
图4示出了公知CRISP-DM与作为本发明一种实施方式的科学方法之间的并联。
图5示出了作为本发明一种实施方式的满足虚假设测试的需要的扩展CRISP-DM模型。
图6示出了作为本发明一种实施方式的用于实现STDMn 0框架的数据存储模式(schema)。
图7示出了作为本发明一种实施方式的图6的数据存储模式,具体用于实现用于临床研究的STDMn 0框架。
图8示出了用于使得临床医生能够执行本发明方法的解决方案管理服务。
图9示出了可以在本发明一种实施方式中出现的ECG不稳定性流的相对对准的示例。
图10示出了现有技术的分布式依时抽取系统的功能的概要。
图11示出了根据本发明一种实施方式的基于服务的多维分布式时域数据挖掘(SDTDMn 0)。
图12示出了本发明的一种实施方式,其中,时域规则是分散的(decentralize)。
图13示出了本发明的一种实施方式,其中,分布式相关代理是分散的。
图14示出了具有分布式功能生成代理和规则生成代理的本发明的一种实施方式。
图15示出了可以包括在本发明一种可能的实施方式中的用于STDMn 0的整个数据存储方案的示例。
图16示出了可以包括在本发明一种实施方式中的时域规则在多维分布式位置上的分布。
图17示出了可以包括在本发明一种可能的实施方式中的支持相关规则的分布的结构的示例。
图18示出了可以包括在本发明一种可能的实施方式中的能够操作用于管理多个时域规则表的分布式时域规则环境的示例。
图19示出了可以包括在本发明一种可能的实施方式中的支持相关规则的分布的结构的示例。
图20示出了可以包括在本发明一种实施方式中的用于在感兴趣的事件的早期检测中辅助临床医生进行更好的诊断和治疗的实时监测系统。
图21示出了本发明的STDMn 0框架的一种实施方式,其被设计用于分布时域规则、相关规则和规则库数据,以在云环境中存储依时抽取和相关依时抽取。
图22示出了本发明一种可能的实施方式中的STDMn 0患者特性多维框架的示例,其使用患者属性并且可以合并。
图23示出了作为本发明一种实施方式的STDMn 0框架的范围,其可以扩展以形成STDMn+p 0框架。
图24示出了可以包括在本发明一种实施方式中的在处理代理内执行的层和任务的示例。
图25示出了可以包括在本发明一种实施方式中的STDMn+p 0框架的静态临床数据的示例。
图26示出了可以包括在本发明一种实施方式中的STDMn+p 0框架的表结构的示例。
图27示出了可以包括在本发明一种实施方式中的STDMn+p 0框架的数据采集和流的示例。
图28示出了根据本发明一种实施方式的可以缩小至标准的低抽取的表中的值的表示的图形示例。
图29示出了根据本发明一种实施方式的可以在SpO2上进行的抽取的表示的图形示例。
图30示出了根据本发明一种实施方式的性别和孕龄可以对HR值具有的意义,示出了35周孕龄的男性新生儿的阈值参数与100的阈值之间的关系。
图31示出了根据本发明一种实施方式的在与从可以应用于35周孕龄的女性新生儿的阈值获得的那些相比显著不同的结果。
在附图中,以示例的方式示出了本发明的实施方式。应当清楚理解的是,说明和附图仅出于解释的目的,以及帮助理解,而非意在限定本发明的范围。
具体实施方式
本发明涉及一种提供多维分布式数据挖掘环境的系统、方法和计算机程序产品,其应用一系列时域和相关规则(即,STDMn 0),其包括以下特征中的一个或多个:(A)合并用于支持数据的依时抽取和相对对准的框架(即,SDTDMn 0);以及(B)取得数据内的特性并且利用这些特性来产生患者特性规则(STDMn+p 0)。本发明可以包括来自多个源的数据,并且有可能包括来自多个中心的数据。对数据的分析和对准可以涉及数据的时域维度和其他维度(或相关方面)。本发明的另一贡献为被配置成以如下方式来管理向多个实体(比如参与数据采集的不同站点)的分布时域和相关规则的分布的计算机系统、方法和计算机程序:该方式允许跨多个实体之间的数据挖掘。
本发明涉及实现所描述的数据挖掘操作的“数据环境”、“数据挖掘环境”或“框架”。该数据环境、数据挖掘环境或框架可以用链接至计算机程序的一个或多个计算机来实现,该计算机程序在执行时实现本文中所描述的处理。有技术的读者将理解,对数据环境、数据挖掘环境或框架的多种参考也指代本发明的计算机系统实现。此外,有技术的读者将理解,本发明专注于可能有用于实现本发明的技术的各种计算机系统实现或计算机网络架构,包括但不限于客户/服务器架构和云网络实现;出于各种目的从不同设备(如监测设备)采集数据、处理数据、聚合数据和报告数据的各种现有网络或系统。具体地,可以实现本发明以便与健康信息系统对接或者作为健康信息系统的一部分,该健康信息系统可以与采集信息的多个设备(比如医疗设备)连接,本发明结合这些信息可以基于受管理的分布来实现数据挖掘。
本发明可以是以下数据挖掘环境或计算机系统:其使得能够实现跨例如多个流、多个实体、实体的多个可能的属性、数据流随时间的多个可能的行为、以及数据流中反映的多个事件的依赖于时间的数据的数据分析(包括出于数据挖掘目的),从而得到多维环境。例如,多维环境可以包括以下各项中的一个或多个:多维实体、多维流、多维实体属性;多维流行为、以及多维流事件。本发明还可以是如下数据挖掘环境:其非常灵活足以允许相对可扩充的查询,从而使得能够例如检测趋势,包括具有新的维度的趋势或基于相对较小的数据集的趋势。
本文档中对本发明的讨论和描述可以利用本发明的医疗环境应用、具体为新生儿重症监护室(NICU)作为本发明如系统、方法和计算机产品的示例。提供对本发明的这一讨论和描述仅作为本发明的一种类型的可能的用途和应用的示例。对本发明的讨论和描述意在阐明本发明的操作和可能的范围。有技术的读者将认识到,本发明在很多其他环境和工业中的很多其他用途和应用也是可能的。
本发明可以包括基于服务的多维时域数据挖掘框架,其可操作以支持分布式多维环境。本文中可以将本发明的这个方面称为STDMn 0框架、单元或计算机系统。本发明的STDMn 0方面还包括如下框架,其被设计成:实现多维环境中的时域规则的分布;支持相关规则的多维分布;以及支持可以被部署用于实时分析的规则库数据的分布。
然而,STDMn 0框架可能具有某些限制。例如,其不可以寻址数据分布的区域,并且可能缺乏可以支持多中心研究的结构。STDMn 0框架的主要限制可能包括:其期望使用单个时域规则表,因此没有很好地适合多中心方法;其期望使用单个相关规则表,因此没有很好地适合多中心方法;其缺乏可操作以适应多中心研究的结构,这是因为其结构不允许同时发生的相似研究之间的结果比较的可能性;并且其缺乏与依时抽取如何可以在不同位置/站点保持恒定有关的清楚说明。此外,STDMn 0框架不包括处理分布式环境中的静态和流数据的方法。这对于以下是很重要的限制:考虑要由本发明的实施方式来利用的某些数据集可以包含患者识别信息,该患者识别信息可能由于隐私策略而不容易分布。本发明可以克服STDMn 0框架的限制,并且创建可操作以分析和处理多个数据源的输出,该数据包括来自多中心环境和多中心研究的数据。
本发明的一个目的在于提供一种计算机系统和计算机系统实现的方法,其中存在两个或多个站点,每个站点具有SDTDMn 0和中央计算机系统(其还可以在分布式基础上来实现),如果设置有中央计算机系统,则中央计算机系统提供两个或多个站点的时域规则和相关规则之间的管理和协作。
本发明还可以包含一种框架,其支持多维分布式环境中的分析和趋势检测。本发明的这个方面在本文中可以称为SDTDMn 0设计框架。这个框架可以支持多维分布式数据挖掘环境。这个环境可以允许管理分布式环境下的时域和相关规则表以支持多中心研究。这个环境还可以允许可以用于实现跨多个站点的实时或虚拟实时监测的规则库数据的分布。该SDTDMn 0框架、多维分布式数据挖掘框架可以适合于在临床研究中使用。
本发明可以解决本领域技术人员认识到的数据分析中的问题。某些类型的监测可能产生大量的数据,并且对于手动分析所产生的大量数据是不可能的。医疗监测设备是监测是否频繁地产生不可能手动分析的大量数据的一个示例。除了所产生的大量数据,生理监测数据的属性进一步增加了处理大数据集的复杂性。这样的数据可以是多维的。这意味着数据不仅可以反映离散的单个维度的显著变化,而且还可以反映若干维度的同时的显著变化。
医疗监测系统产生的数据通常是按照时序产生的。出于这个原因,对这样的数据的现有技术分析通常专注于分析数据的时域维度。然而,需要一种能够实现数据挖掘期间保存的数据的时域行为和其他维度二者的临床研究框架。超出数据的仅时域方面的其他维度的合并分析可以具有以下结果:没有丢失关于在数据挖掘处理期间采集的时间和背景信息。现有技术系统通常丢失反映除了时域行为之外的其他方面的数据。因此,这样的系统丢失关于所采集的数据的时间和背景重要信息。这个信息可以提供对数据的分析和理解的深度。因此,通过使用现有技术系统出现的数据的维度的丢失很显著,并且引起了数据缺口的存在。
本发明可以提供一种框架,从而不丢失而且可以捕获数据的维度、关联和背景方面。因此,本发明可以提供分析多个数据流以不仅识别数据的时域方面而且识别表示数据流的非时域维度的其他方面的方法。因此,本发明可以产生对所采集的数据的鲁棒分析和理解,这通过公知的现有技术系统的应用是不可以实现的。
注意,在临床研究领域,在所采集的数据内的新的趋势和模式的发现时可能出现关键的进展。具体地,这样的趋势和模式可以表示重症监护患者的疾病的开始,其中,患者的疾病和处理中的某些事件的定时可能非常重要。本发明可操作以促进以及否则使得能够发现所采集的数据的趋势和模式。本发明可以实现通过提供集成的时域抽取数据挖掘系统来发现趋势和模式,该系统包括使得能够关于所观察的疾病的开始实现历史数据的重新对准的方法。有技术的读者将认识到,本发明可以包括其他方法,这些方法用于通过分析数据的时域行为和其他维度来识别所采集的数据的趋势和模式。
在本发明的一种实施方式中,多维分布式数据挖掘框架可以被定义为可操作以处理时序研究数据并且发现可以表示在这样的给定临床事件的出现之前的临床事件的趋势和模式。本发明的这一实施方式的框架可以利用数据融合和基于代理的分析的单元,使得其用或结合相关数据库和大型数据挖掘应用而可操作。在这样的框架中,可以应用一组数据挖掘工具来以能够支持多个调查研究的分布式方式进行依时抽取、相对对准和簇分析。作为示例,框架可以在广泛的新生儿背景下应用,从而解决数据保密和可靠性问题,并且可部署为一个或多个多中心研究的一部分,同时保持每个参与站点处的数据完整性。
本发明的贡献之一在于,医疗设备可以用不同频率来采集生理数据(其可以基于例如不同站点关于数据捕获和数据传输所建立的规则)。例如,站点A可以以每分钟一个数据捕获的采样率来采集数据,而在站点B处采样率可以是每30秒一个数据捕获。在本发明的一方面,本发明的计算机系统适应时域和相关规则以解决频率的不同,同时实现相对从站点A和站点B二者采集的数据集的数据挖掘。
本发明的这一实施方式可以在包括所有可用数据的背景下来分析数据,该可用数据为如下数据:其从多个源(例如,比如多个医疗设备、或者其他源)采集;其从多个中心(例如,多个医院、诊所或其他中心)采集;并且其被采集用于多个调查研究(例如,中心特定的研究、以及多中心研究)。在对数据的分析和其他处理过程中,本发明可以将数据识别为整体,并且还可以识别数据的子集,即,与数据有关的源、中心和调查研究。因此,在对数据进行分析时,不仅可以产生表示与作为整体的数据有关的结果例如趋势和模式的输出,而且可以以如下方式来分析数据:该方式使得能够识别数据的其他背景,比如数据的源、中心和调查研究关系。这意味着本发明可以可操作以识别数据的子集即与数据有关的源、中心或调查研究的结果例如趋势和模式。因此,即使在本发明已经执行了数据的处理和分析之后,仍然可以保存数据的原始完整性。这提供了如下优点:可以将数据的原始格式用于稍后的目的。
本发明的这一实施方式的优点可以在于,可以保存和利用原始采集的数据内存在的背景关系。这样的背景关系表示数据的维度,而非仅数据的时域维度,并且涉及数据的其他有关背景,其可以特定于某种类型的设备、设备的制造商/模型或甚至具体设备特定的参数。例如,除了时域维度,这些背景关系或数据属性可以包括采集数据的时间/日期、具体设备的数据频率的方法、具体设备的修正所采集的数据的方法、具体设备的识别信号中的伪像的方法,但是,还表示数据的其他维度,其甚至可以包括数据的多个方面提供的背景,比如与数据有关的源、中心和调查研究,或者数据的其他维度方面。此外,可以在本发明的分析中被解决和考虑数据的时域维度和其他维度二者。数据分析和处理中涉及的数据的维度的这种组合还可以提供其他现有技术系统不能够提供的结果。这样的数据分析结果可以导致对趋势和模式的识别,其可以指向可以导致某些疾病的害病比如患者病情或者已经减缓的病情的其他早期检测的害病的单元。有技术的读者将认识到以下可能的优点:本发明可以在健康环境下提供,并且本发明还可以在其他方面和环境下提供其他优点。
本发明的一个示例可以是在NICU环境下使用的实施方式。该NICU环境通常可以证明数据富足但是信息匮乏。这个环境的数据密集型特征可以产生以下情况:这种情况使得医生在照顾婴儿时必须面对大量变量。从必须的监测系统采集的数据的量可能明显很大,例如,其可以包括数据库中的百万的条目。因此,由于大量的信息,所采集的数据可能在手动方式下不可用。可能需要对数据进行提取和组织以使其变成有用信息,并且因此可能需要领域专家理解这个信息,然后可以将这个信息渲染成表示可用知识的格式。
可能存在可以在NICU环境下定义的两种格式的关键数据。第一,从感测和监测设备采集的生理数据可以包括例如采集和显示数据,如心率、经皮血氧饱和度(SpO2)、心电图(ECG)、血压和呼吸率。该生理数据可以由通常以变化的频率获取的数据流所组成。例如,飞利浦部件管理系统(CMS)输出以下类型的数据流:数字的——每1024毫秒生成的读取值;波——每32毫秒4个数据值经由波形数据流到达(每1024毫秒128个值);以及快速波——每32毫秒16个值到达(每1024毫秒512个值)。第二,临床数据可以包括与患者的各方面有关的信息,比如患者年龄和体重,并且这样的数据可以由护士给出的笔记或周期读取值所组成。
可能存在若干影响NICU中的患者的感兴趣的情况。感染是新生儿发病率的普遍原因和死亡率的重要原因。虽然很多婴儿可能在分娩时产生感染,然而其他婴儿可能在NICU中接受护理的同时产生感染。这些被称为医院产生的或者医院感染。对医院感染的早期诊断可能非常困难,因为感染的临床信号可能很微弱且非特定,直到很好地建立了感染。这些感染可能在出生之后48小时或更长的时间内出现,并且,数据表明几乎30%的在25至28孕周出生的感染者以及多于45%的在25孕周之前出生的感染者可能在NICU中时经历严重的医院感染。血管内溶血(IVH)是新生婴儿的发病率和死亡率的另一普遍原因。接近20%的早产婴儿可能感染IVH。出血可能在生命的最初几天期间出现,并且多于90%的IVH在生命的第三天已经出现。有技术的读者将认识到,对于NICU患者和其他患者两者、以及对于其他数据集、流和源都存在感兴趣的其他情况,因此,NICU示例和有关细节仅被呈现为本发明的实施方式和应用的一个示例。
如果来自监测设备的数据被捕获并且存储在数据库中并且可用于数据挖掘,则可以检测生理数据中的模式。存储和挖掘这种数据的主要原因在于,这种数据可以用于在可能对结果产生负面影响的条件的开始的指示器的各种参数和建立之间发现先前未知的趋势和模式。可以将附加信息如这样的临床数据与生理数据组合,作为提供给本发明的整个数据的一部分。
提供给本发明的数据可以是分布式数据环境,其包括全世界的多个医院,并且,对于不同的站点,所生成的数据的类型以及输出数据的频率二者可能不同。这个差异也可能由于每个设施的生理监测设备不同而出现。例如,病童医院在其NICU中使用飞利浦IntelliVue MP70系列患者监测设备。深圳的深圳孕妇与儿童医院使用Drager Infinity Delta XL系列监视器,罗德岛州普罗维登斯(Providence,Rhode Island)的妇婴医院使用Spacelabs Ultraview SL系列患者监视器。这些设备之间不仅数据输出的格式和频率不同,并且对于每个站点,数据被传输给数据库或其他数据接收器的频率也可以不同。此外,当患者渐变或者从一个NICU移动至另一NICU时,NICU护理的水平可能增加复杂性和分布的另外的水平。因此,在处理多中心研究时,十分需要一种分布式数据挖掘框架。
NICU环境中使用的本发明可以处理和分析来自多个源、多个中心和多个调查研究的数据。本发明可以解决数据的时域维度以及数据的其他维度。通过这个分析和处理,可以发现数据中的模式和趋势,其可能产生对导致或涉及具体疾病的开始的因素的识别。这个信息可以用于建立新的策略,例如用于改善NICU监护的策略,或者可以用于确定未来如何避免具体疾病的开始。
本发明的另一实施方式可以是用于支持关键护理研究的多维患者产生的数据挖掘框架。这个框架可以可操作以发现生理流行为。由于本发明可以用于分析或处理的多源、多流、和/或多调查研究数据,与当前在基于证据的实践中所使用的那些相比,通过本发明的使用可发现的行为可以是早期疾病开始。当前在基于证据的实践中所使用的行为可以是现有技术系统或其他公知方法可发现的那些行为。本发明可以可操作以提供基于对来自多个源/中心的大量数据的分析的输出,其涉及数据的维度的分析,而不仅是时域维度。出于这些原因,本发明可以为临床护理研究提供重要的支持,现有技术系统不能提供这样的支持。本发明可识别的生理流行为可以提供情况开始的关键的标识符,并且这样的表示可以在情况处理之前在边缘处明显地出现。
包括STDMn+p 0框架或单元的本发明的一个实施方式可以在数据的分析和处理中包括一个或多个单独的属性,这些属性包括在数据中,例如这样的患者特定的属性,并且,这样的属性还可以是本发明的结果的一部分。属性如患者特定的属性可以用作测量值,如患者特定的测量值。属性如患者特定的属性的包括可以使得本发明能够操作以基于这些患者特定的测量值来裁剪和聚类生理流行为。在本发明的另一重要方面,本发明的计算机系统使得能够实现数据驱动的数据挖掘,其允许生理数据的流的类聚,以支持具体属性的数据集的分析。
本发明的STDMn+p 0单元的框架可以包括用于实施依时抽取(TA)的方法,其表示多个患者的多个患者属性参数的流行为。这可以使得本发明可操作以理解多维时域数据的挖掘。本发明的一个实施方式可以利用STDMn+p 0框架作为多维方法中的单元,其可以:支持时序的数据的抽取;以及部署临床算法和其他计算。
本发明可以通过以下方式来捕获和使用某种数据:该方式使得能够提取预测气质(temperament)的模式。作为示例,可能需要捕获其生命的早期阶段的成长新生儿的指数活动,并且将其嵌入被设计成提取NICU(新生儿重症监护)领域内的预测气质的模式的算法中。包括STDMn+p 0框架的本发明的实施方式可以对数据进行扩展的多维方法,并且还可以创建患者特征临床规则或者导致患者特征临床规则的创建。
以这种方式,与现有技术相比,本发明可以提供优点。本发明可以可操作以进一步通过例如比如包括性别和孕龄(GA)的属性的使用来定义算法或其他计算,例如,比如NICU算法或其他计算。本发明还可以在临床判决支持系统中使用这些算法和其他计算来增加这样的系统的精度。与当前在应用公知的现有技术系统的过程中经历的不利事件的风险相比,增加临床判决支持系统的精度可以使得不利事件的风险最小化。
在本文档中,术语“属性”和“特征”可以被理解为具有相同的含义,并且可以可互换地使用。
参见作为本发明的一个可能的应用的示例的NICU背景,在NICU背景下,各个患者可能经历导致各个患者的特征的变化的快速成长和发育。例如,患者特征如体重、心率(HR)、血压和出生年龄可以变化。示出了数据挖掘和依时抽取的使用的示例的调查的生长的身体,以示出给定条件展示某些生理流行为。然而,敏感度和特异性还未接近100%,并且护理环境下的特异性的这种缺乏可能对单个患者有破坏性影响。
本发明提供了使用患者特征来获取对各个患者的回顾性数据的更好理解以及通过创建特征的子组来改善敏感度和特异性的可能性。例如,子组可以包括具有小的生理行为和时域行为的个体。本发明可以提供可以支持基于患者特征的研究和聚类的框架。本发明可以可操作以识别趋势和模式,同时研究患者特定的生理数据流。结果可以是,本发明通过实时地或者几乎实时地向临床专家如护士、医生或临床医学家提供具体患者的数据分析和数据处理结果来帮助改善实时临床管理和临床决策支持。本发明的数据结果可以支持用于患者护理的针对患者的方法,并且,这可以帮助使得出现在NICU以及其他健康部门和环境中的不利事件最小化。有技术的读者将认识到,本发明还可以应用于其他环境以及保健环境。
本发明可以可操作以基于患者特征来执行多维数据挖掘,患者特征最终可以帮助向护理人员提供临床支持。例如,当本发明的数据分析和数据处理功能认识到生理阈值正在被破坏时,本发明可以向护理人员提供临床支持。以这种方式,在临床医生通过多维生理数据流的实时或者几乎实时的异常检测来执行针对患者的临床研究以改善患者结果和病态时,STDMn+p 0框架可以支持临床医生。
STDMn+p 0框架的实施方式可以涉及以下各项中的一个或多个:(i)患者特征多维数据挖掘框架可以被定义用于临床研究以使得能够在对患者生理数据流进行数据挖掘时使用患者属性;(ii)患者特征框架可以包括在患者的多个参数上应用依时抽取(TA)以使得能够挖掘患者特征多维时域数据的方法;(iii)多维算法(或其他计算)框架可以应用于新生儿背景,以根据性别和孕龄来聚类患者特征;以及(iv)可以由分析NICU中的婴儿的当前状态的实时的或者几乎实时的事件流处理器来使用患者特征框架生成的假设。
包括STDMn+p 0框架的本发明的一种实施方式可以表示至STDMn 0多代理框架的扩展,以分析时序的数据。这样的扩展可以包括在捕获基于患者特征的依时抽取、复杂抽取和这些抽取的相对对准的多维方法中使用属性例如比如性别和孕龄来的可操作性。本发明的STDMn+p 0框架的设计可以可操作以通过依时抽取数据挖掘来包括患者特征多维度。因此,本发明可以根据电子存储的生理数据来证明潜在好处以及使用数据挖掘,以改善实时临床管理和患者中心临床决策支持。本发明还可以证明对于存储的生理数据流的临床研究的潜力,以得到对于疾病开始预测指示的新的发现,以支持当前伦理学提出的临床调查研究。有技术的读者将认识到本发明在各种环境下的大范围的使用和应用。
与公知的现有技术相比,本发明可以提供若干好处和优点。研究能够在多维环境中工作的分布式数据挖掘框架存在若干挑战。研究功能框架的关键考虑在于处理变化的数据频率的能力、考虑数据私密和患者数据存在的位置、以及处理实时流数据和抽取的同时部署以得到数据一致性的能力。为了使得能够发现可以表示患者的状况的开始的新的趋势和模式,需要一种集成的多维分布式数据挖掘框架。图10提供了若干现有技术的分布式依时抽取系统的列表100,并且提供了列出了这些列表中的每个的缺点的评论。本发明克服了图10的表所指出的现有技术系统的缺点,并且从而提供了与公知的现有技术相比的若干优点。
作为另一实例,本发明提供的具体的优点在于,本发明的时域规则可操作以借助于数据准备阶段来创建多维环境,使得能够用与具体的感兴趣的点有关的时间标签来对数据流进行编码。现有技术系统通常仅能够处理时域维度的数据。本发明可以包括时域数据分析,但是还可以处理和分析其他维度的数据,如本文中所描述的。本发明可以提供可操作为医疗框架的环境,其可以利用来自多个患者的多个参数的多个研究的数据,并且提供与其有关的结果。
作为本发明提供的与现有技术相比的优点的又一示例,本发明可以提供用于数据挖掘的灵活的分布式多维方法。公知的现有技术通常缺乏用于时序数据的数据挖掘的灵活的分布式多维方法。近来研究的趋势提出了参加涉及相同的生理数据流的站点间分析的多中心研究的全球医院,以回顾数据从而指示不同医院的相同事件。当从监测设备采集的生理数据也由于生理监测设备在每个工厂处不同而出现时,这个活动带来了数据分布至背景下的单元,如本文中所讨论的。公知的现有技术系统通常不能够处理变化的数据,并且不能以普遍方式来处理对这样的数据的分析。本发明可以以普遍方式可操作以处理和/或分析来自多个站点的数据,即使数据是从不同的生理监测设备和/或从不同的站点采集的。因此,本发明可以包括现有技术缺乏的灵活性水平。本发明还可以应用分布式多维方法来进行时序的数据的数据挖掘,这在现有技术中是不能够进行的。
本发明的使用用于多维数据挖掘的时域和相关规则(STDM n 0 )的可 能的实现方式
STDMn+p 0框架可以表示本发明的多个方面。如图2所示,这个框架通常可以包括经由网络20连接的若干元件,这些元件可操作以接收和存储数据并且可操作以与用户22相对应。
本发明的方法可以包括大量和各种步骤。作为通常的初始步骤,可以采集多维数据,并且本发明可以可选择地清除这个数据。清除数据的活动可以包括以下各项中的任一个:去除多余的数据;建立通常处理各种形式的数据的方法;以及将数据组织成用于处理和分析的形式。作为通常的接着的步骤,本发明可以依时抽取多维数据以创建多维环境下的动态数据挖掘环境,这在本文中更详细地进行了描述。作为通常的随后的步骤,可以使得依时抽取的数据相对对准。
依时抽取的处理可以包括原始设备或预处理的流数据作为输入,并且可以利用领域知识(背景)来将原始数据翻译成行为或事件信息,其与输入数据的输入的流相比时间频率更低,从而产生更高的水平、上下文有关的、定性的、基于间隔的表示。复杂依时抽取可以通过评价跨多个流的行为来创建。
可选地,作为总体的第四步骤,本发明可以接合创建的多维数据挖掘环境下的探索性和/或解释性数据挖掘。探索性数据挖掘是指通过支持查询数据挖掘环境而不强加规则或功能来进行的数据挖掘。解释性数据挖掘通过对更多的数据集执行另外的数据挖掘来尝试另外的确认规则。
备选第四步骤或除了上述第四步骤的第五步骤为链接至一个或多个远程设备,以使得一个或多个远程设备能够使用所得到的依时抽取的且相对对准的数据。远程设备可以是提供所描述的数据流的与本发明链接或关联的任何设备。远程设备可以位于彼此、系统和实体的物理上接近的位置处。远程设备可以备选地位于系统、彼此、或实体的附近外部,例如,在通过互联网或其他网络连接至系统的国家或者世界的远程边缘处。远程设备可以无线地连接至系统或实体。
这些设备都可以连接至一个实体,或者这些设备的一系列子组可以连接至样本集的整个群体内存在的一系列实体。这些设备可以例如是医疗生理监测设备、智能电表、汽车遥感监测设备、天气传感器、网络交通监测器、共享价格数据流或电厂监测系统。群体内的匹配实体可以分别是护理群体内的患者、电网内的家庭、监测车辆或者气象站。
本发明的计算机程序最好理解为包括(1)时域用途或代理、(2)相关用途或代理,这二者对应于上述方法步骤。该时域用途和相关用途被链接。本发明的计算机程序使得能够实现至少对所得到的依时抽取的且相对对准的数据的查询。可选地,计算机程序使得能够实现探索性和/或解释性数据挖掘,其在一种实现中采用已经描述的功能代理的形式。
可选地,提供了一种生成代理的规则。生成代理的规则提供了用于用户通过提出规则并且将其存储在数据表中或者在探索性数据挖掘期间存储系统提出的规则来生成规则的机制。响应于关于规则的依时抽取的且相对对准的数据,启动警报、警告或消息。
这个处理可以是用户驱动的。通常,用户可以知道他们正在学习的是什么以及期望的规则。查询可以是用户驱动的,因为用户可以根据期望来操纵、分析或监测数据。查询可以由用户实用用户界面来提供。
用户界面可以提供用于输入研究选择准则的方式。用户界面的这个部分可以是数据驱动的,并且使得用户能够选择定义感兴趣的相关时间点的准则以及对研究进行评价的实体的其他选择准则。
用户界面还可以提供用于输入感兴趣的相关时间点的方式,这使得用户能够基于以下各项中的任一个来选择感兴趣的点:事件;实体属性;流行为;或流事件(后面两个用其自己的流依时抽取来表示)。用户可以首先判断感兴趣的时间点来自事件、实体属性还是依时抽取。感兴趣的时间点可以定义为日期/时间,其为可操作以用作使得感兴趣的数据流相对对准的参考点的时间点。基于用户的选择,接着,用户被提供以直接来自数据库的列表,其为:可能的事件的列表;具有日期/时间的实体属性的列表;或者依时抽取的列表。在依时抽取的情况下,用户可以选择是否对首次或最近出现的依时抽取感兴趣,并且还可以确定是否对开始或结束时间感兴趣。
如果事件被选择作为感兴趣的相关点,则针对所选择的实体出现的事件为相关时间点。
如果作为日期/时间的实体属性被选择作为感兴趣的相关点(例如,什么公共行为在相对于实体的某个时间之后存在),则该日期/时间为所选实体的相关时间点,如制造的完成日期或出生日期。
如果选择了依时抽取,则选择与给定实体的依时抽取的选择准则关联的日期/时间。
结果为满足选择准则的实体的列表,并且对于每个实体,还列出了表示相对对准处理的t0的日期/时间点。这个得到的列表可以永久存储在数据库中,但是这不是强制性的,因为其可以基于该特定研究的研究表的内容、通过包含在其他表中的信息来再生成。
除了定义感兴趣的相关时间点,用户还能够通过相似的数据库数据驱动的列表来提供其他选择和/或排除准则,以确定什么实体应当是研究的一部分。这些准则可以来自实体属性、事件属性、依时抽取或相关依时抽取中的任一个或全部。
可以对静态和/或原始数据流连同时域和相关数据流的任意期望组合进行查询。还可以对依时抽取的且相对对准的数据进行动态分析以确定具体的信息。例如,可以很容易地确定具体的时间点处的平均性能,其很难手动进行,尤其是在需要同时出现的流确认的情况下。
本发明的系统可以实现为公知的数据库引擎或类似的技术。本发明可以包括计算机系统,其包括一个或多个计算机,该计算机包括至少时域实体和相关实体,计算机系统链接至一个或多个数据库引擎或类似的技术,数据库引擎包括静态数据、来自一个或多个远程设备或传感器的数据,或者计算机系统直接或间接链接至一个或多个远程设备或传感器,以通过传感器数据来对数据库引擎提供的一个或多个数据库进行填入。
可选地,这个系统可以实现为云计算实现,其中,通过一系列网络服务提供这个环境的使用作为外部服务。图3示出了通过云计算架构可访问的本发明。这个系统还可以实现为仍然通过一组网络服务可访问的私有解决方案,其中,来自一个源(以及可能的多个传感器等,多个传感器来自一个源)的数据被提供给连接至互联网并且链接至至少时域实体和相关实体的网络服务器,其中,网络服务器递送依时抽取的并且相对对准的数据、或者以上讨论的探索性和/或解释性数据挖掘的输出。还可以使用网络服务来添加、改变或删除本发明提供的规则。应当注意,网络服务模型的优点之一在于,链接至网络服务器的多个组织可以提供更多数量的数据集,这改善了每个参与的组织可访问的数据。
本发明尤其可应用于多个领域,尤其是存在多个传感器或其他与出现的事件或行为有关的多个数据流的场合,以及与感兴趣的“实体”的具体的“结束状态”或“结束情况”有关的不同时间。“实体”例如可以是受监测的患者或装置。事件或行为可以产生或导致结束状态或结束情况,例如,一系列连续的事件可以定义导致具体状态或情况的时间线。
图5示出其示例的这个环境可以包括用于数据挖掘的方法,其通过提供解释和确认数据挖掘功能50来支持虚假设测试。本发明还包括用于支持时域规则、相关规则以及多维规则库的本体设计。这个环境支持静态数据(例如,临床数据)以及可以为数字数据(例如温度或血压)流或波形数据(例如ECG和EEG)流的传感器数据,并且支持数据流连同静态数据之间的交互相关性的数据挖掘。时域和相关时域数据的存储也被支持用于其他有关临床研究的数据的次要分析。
在应用领域方面,重要的是应当理解,本发明可以应用于其中可以有用于监测与相似的或相同的行为有关的事件或参数的多个传感器的任何领域。这个技术至少与患者护理、监测结构故障、天气事件、智能电表等有关。从多个信息源外推在不同时间出现的多个事件是一种挑战,本发明是有利的。
仍有利的是,本发明的多维数据挖掘环境支持多个研究。这些可以是实体中心的、实体属性中心的、流中心的或事件中心的,或者还可以从实体论的任何其他领域得到。例如,在患者护理领域,三个婴儿都可能被感染,并且例如,这个技术使得能够调查这三个情况之间的共同因素,例如,心率、呼吸率等。此外,存在于这些事件关联的实际时间,本发明使得能够跟踪多个传感器生成的多个流的多个行为,并且构建使得能够与诊断事件相对对准的数据结构,以进行这个环境下的更好的分析,例如,以基于感染过程中的具体的时间点处的平均因子等来更好地实时地跟踪每个婴儿的处理。
本发明使得用户能够具有何时介入以防止或缓和疾病的先进的知识。存在有感兴趣的事件状态,例如引擎故障或诊断事件。本发明提供了其中用户可以看到朝着事件状态移动的在先事件的环境,开发运动轨迹以确定实体为事件状态的形式(即,是否以及何时取向于事件状态的实体)的情况。运动轨迹可以基于历史平均来定义,但是使得用户或系统能够实时地反作用。
此外,本发明使得能够使用相对较小的数据集来创建运动轨迹并且基于附加数据集来提炼运动轨迹。本发明还反作用于新的情况。
在具体的示例性示例中,可以相对于事件来依时抽取数据。例如,在出现情况或事件的情况下,存在提供具体实体例如患者或汽车的图片的多个传感器。这些多个传感器例如可以在不同的机构或者部件上,从而提供多维数据流。数据可以在扩展周期内采集。来自出现情况或事件的类似的实体的数据也可以随着时间已经采集。可以将情况或事件设置为感兴趣的点,并且可以挖掘多维数据以确定导致情况或事件的趋势。
Catley,C、Stratti,H和McGregor,C在2008年8月30日的International IEEE Engineering in Medicine and Biology SocientyConference,4322-5的题为“Multi-Dimensional Temporal Abstractionand Data mining of Medical Time Series Data:Trends and Challenges”的文章说明了对于时序的数据、通常的依时抽取(与本文中描述的具体的依时抽取技术和系统相反)、以及虚假设测试的原理的当前研究中的一些。
本发明的一个方面为使用生理数据的健康护理应用的数据挖掘环境。这可以例如使用McGregor,C.、Heath,J.和Wei,M.在2005年的Proceedings of the IEEE International Conference on3-Technology,e-Commerce and e-Service,Hong Kong,IEEE第496-501页中“A Web Service Based Framework for the Transmission ofPhysiological Data for Local and Remote Neonatal Intensive Care”描述的生理数据模型来进行。
数据挖掘框架
本发明提供了用于时域数据的多维数据挖掘的框架。本发明可以支持本地使用以及通过基于服务的模型进行的使用。这个框架在本文中可以称为基于服务的多维时域数据挖掘(STDMn 0)。Bjering,H.和McGregor,C.在2010年Proc.4th的Australasian Workshop onHealth Informatics and Knowledge Management,Brisbane,HIKM第29-38页“A Multi-dimensional Temporal Abstractive Data MiningFramework”中描述了应用以支持来自新生儿重症监护室(NICU)患者的历史数据的分析和趋势监测的框架,其通过引用合并到本文中。STDMn 0可操作以发现表示情况的开始的趋势和模式;包括用于跨多个实体的多个参数的应用依时抽取以使得能够挖掘多维时域数据的方法;支持虚假设测试;可以生成可以由分析实体的当前情况的实时事件流处理器来使用的假设;并且生成可以翻译成要由用于监测和报警的实时事件流处理器来使用的规则的假设。
STDMn 0可以提供用于支持扩展CRISP-DM数据挖掘模型的功能以促进虚假设测试的机制。CRISP-DM可以为6阶段分层处理模型10,如图1所示。在最高级,六个阶段为:商业理解;数据理解;数据准备;建模;评估和部署。在本发明中,阶段可以有与其相关的子任务的集合70,这些任务跨分层模型的下层而扩散,如图7所示。在本发明中可以包括扩展CRISP-DM以支持基于科学方法的虚假设测试的方法,如图3所示。本发明的这个方面可以能够在一个作为云计算模型的实施例中使用。
STDMn 0包括桥接数据管理与数据挖掘研究之间的间隙的架构,以使得能够二次使用通过监测设备采集的多个数据中的一些。新采集的数据被馈送至具有现有数据的框架中,以进一步帮助提炼在STDMn 0框架中创建的假设。
STDMn 0模型由多个代理来支持,该多个代理有助于用户与包含在主动规则本体和数据管理层中的数据之间的交互。多个代理由处理代理、时域代理、相关代理、功能代理和规则生成代理组成,这在下文中描述并且如图3所示。
STDMn 0框架还提供了多个数据存储,包括时域数据存储和相关时域数据存储。
图3示出了STDMn 0框架30的多代理数据挖掘系统。这个框架图映射用于扩展CRISP-DM模型的合适的部分的代理并且提出了各个STDMn 0任务。
参考图3中用STDMn 0代理32标记的水平列,STDMn 0框架中的第一代理为处理代理。处理代理用作功能代理的预处理器,以执行取得和准备数据并且将其存储在数据存储中的任务,以便准备好由时域代理进行进一步的处理。如至CRISP-DM列的STDMn 0扩展下所示,处理代理用来支持和部分支持CRISP-DM模型内的数据理解和数据准备阶段。
在STDMn 0数据管理列下,处理代理通常可以从外部数据库获取数据以得到静态数据并且经由传感器设备以得到流数据。
处理代理使用静态和流网络服务,使得能够将数据直接推送至或拉取至处理代理。数据还可以经由直接连接来直接发送至处理代理。
接着参考图3的STDMn 0代理任务列,有一个由处理代理来执行的主要任务,即本地采集和清除。这个任务包括:当数据到达并且执行普通数据清除比如检查错误值时,从外部数据库中采集静态和流数据,或者在STDMn 0框架内使用。这些错误值是例如由与实体、采用处理丢失值的策略等有关的不相关因素产生的错误值。
这个数据是由处理代理从外部数据库提取的,变换成所需格式并且存储在STDMn 0框架内的数据存储中,如STDMn 0数据管理列中所示。从实体或描述实体获取的静态数据被输入静态数据表,传感器数据被存储在传感器数据表中。这个任务支持STDMn 0内的扩展CRISP-DM模型的所有数据理解和部分数据准备部件。
本地采集和清除任务为作为STDMn 0内的代理之一的处理代理的任务。接着,参考图3所示的STDMn 0网络服务接口列,处理代理可以从源直接获取数据,或者通过流数据采集网络服务和静态数据采集网络服务被提供以数据。
在传统的数据仓库设置中,其中原始数据被拷贝到数据仓库中并且经由周期负载被聚合,之后是批聚合,处理代理可以例如被实现为容纳数据仓库的数据库管理系统(DBMS)中的代理。周期提取可以根据操作数据来运行,以接收传感器数据,该提取经由用作处理代理的脚本加载到STDMn 0环境中。
在流计算范例内,其中当数据实时到达时,数据被操纵为流,处理代理可以是在数据实时到达时从传感器直接接收流并且通过数据库输出操作器输出数据以开始行插入的流计算程序。
在服务计算范例中,数据库脚本和流计算程序二者可以经由流数据采集网络服务或者静态数据采集服务的制定来进行。
再次参考STDMn 0代理列,框架中的下一个代理为时域代理。时域代理生成处理代理准备并且存储的数据的依时抽取。要执行的依时抽取由STDMn 0规则本体的时域规则来定义。依时抽取表示在数据挖掘之前的预处理方法,其使得能够保存时域方面和数据的背景。
例如,在临床研究设置中,对于给定患者设置,可以将每个相关生理流依时抽取成合适的抽取,比如趋势(增加、减少)和水平平移(高、地)。每个原始数据片可以属于若干抽取。例如,具体的测量可以是“增加”抽取的一部分,并且同时在“标准”极限的范围内。也可以对多个抽取的参数进行复杂抽取。
虽然各个数据值本身不可以提供有价值的信息,然而,当随着时间和背景考虑时,这些值可以产生含义。STDMn 0框架可以使用依时抽取作为先于示例数据挖掘的数据的预处理。根据STDMn 0代理任务列下列出的任务,对于每个实体,每个传感器流被依时抽取成合适的抽取,如趋势和水平平移。也可以对多个抽取的参数进行复杂抽取。可以将包括具体的抽取实例的实际开始时间和结束时间的每个抽取存储为时域数据,该时域数据为STDMn 0数据管理部件的一部分。
如图3中用数据准备步骤所描绘的,时域代理用于部分支持CRISP-DM模型内的数据准备阶段。
接着,参考STDMn 0网络服务接口列,观察到时域代理使用依时抽取网络服务来使得能够将数据直接推送至或拉取至时域代理。也可以经由直接连接将数据直接发送给时域代理。
时域代理具有五个被执行为依时抽取任务的主要功能:(1)从时域规则表取回相关时域规则;(2)将时域规则应用于数据,以产生各个实体的各个数据流的简单的抽取;(3)将所产生的低频依时抽取流存储在时域数据存储中;(4)根据相关时域规则中的任一个,根据步骤3中产生的简单抽取来产生复杂抽取;以及(5)将所产生的任何复杂依时抽取流存储在时域数据存储中。
依时抽取的示例可以包括以下:(i)新生儿特别护理:(a)平均动脉血压fa ls在新生儿患者的当前孕龄以下的开始时间和结束时间;(b)新生儿患者的血氧水平下降到85%以下的开始时间和结束时间;(c)新生儿患者的血氧水平以大于规定阈值的速率下降的开始时间和结束时间;以及(d)1)和2)同时出现长于20秒的开始时间和结束时间的复杂抽取。(ii)电网:(a)电能在某个阈值之上的开始时间和结束时间。(iii)天气:(a)该气象站的温度在35℃以上的开始时间和结束时间。
再次参考图3,相关代理表示框架的接下来的阶段。当用户想要调查在某个事件之前或之后在实体的传感器数据中出现的某些模式或其他符号的可能性时,常常需要对准数据,包括与例如诊断的时间有关的静态数据和传感器数据的抽取。这使得用户能够研究具体的结果和对其他实体的治疗方法。这些相对对准处理构成了相关代理的STDMn 0代理任务。
使得数据相对对准的感兴趣的点可以是临床背景下的诊断时间,但并非必须如此。其可以基于任何事件或行为。
在研究具体的事件时,抽取与保存实体的事件时间和日期的事件表匹配。这个信息通过变换算法被馈送以使得能够及时地测量与诊断时间上的点有关的抽取。T0为事件的点,T-1、T-2、T-3、……、T-n表示事件时刻之前的抽取与事件时刻的抽取之间的时间距离。这个步骤使得能够对于事件的点处的实体有关的数据进行“排队”,以使得能够检测在某个事件开始之前或之后的具体的时间点处的实体中共同存在的趋势和模式。事件的指引时间中的具体参数的显著变化可以被分离,以使得能够找到任何显著的指示符,以确定具体参数的变化或行为在什么时候与事件的开始相关地出现。
相关代理使用时域代理产生的并且存储在时域抽取表中的抽取、连同各个实体的静态信息来创建数据子集或数据集市,以支持具体的研究。可以存在对依时抽取执行的任何数量的相对对准,如图3中的相关代理1和相关代理n标签所示。具体的对准由要进行的研究的类型来确定,其在数据库中的研究表中是具体的。
相关代理被设计成使得实体数据与依时抽取能够基于要进行的研究而相对对准。相关代理用于使得依时抽取相对于某个感兴趣的时间点重新对准,这个时间点在依时抽取的数据集内是共享的,例如,作为事件对于实体而言清楚的相关时间点。
可以对相同的依时抽取进行很多研究,并且相同的依时抽取可以用于很多不同的研究,并且可以以若干不同的方式获取重新对准。存储在相关时域数据表中的每个对准的依时抽取属于具体的研究。重新对准的依时抽取形成在处理的稍后阶段执行的可选探索性和确认数据挖掘的基础。
可以创建以下研究,其中没有由于相对对准而出现任何时间调整。在这些情况下,相对对准基于各个实体的静态信息执行感兴趣的实体的子集选择。
相对对准用于部分支持CRISP-DM模型内的数据准备阶段,并且表示给定研究的数据准备的最终步骤。
参考图3的顶部水平列,相关代理使用:相对对准网络服务,其使得能够直接将数据推送至或拉取至相关代理。也可以经由直接连接将数据直接发送至相关代理。
相关代理具有三个主要功能:(1)基于用给定的选择说明,从时域数据存储取回相关数据和依时抽取;(2)当时间(开始时间和结束时间)与对准点有关时,将要进行的研究特定的变换应用于绝对定时依时抽取,以产生对准的依时抽取的集合,称为相关抽取;以及(3)将相对对准的抽取存储在相关时域数据存储中,以使得能够由功能代理来进一步处理。
相对对准任务的示例可以包括以下:(i)新生儿特别护理:(a)选择所有被诊断为医院感染的新生儿患者并且基于可疑的医院感染数据使得数据相对对准,并且包括之前四天以及可疑的医院感染诊断之后的所有天的数据;选择所有在23周孕龄出生的患者并且针对他们的27-29妊娠27-29周等同的那些患者创建数据的研究集合。(ii)电网:(a)使得温度>40℃超过4小时并且以后温度<27℃的周末的仪器数据对准,并且选择仪器数据之后的随后的72小时,即,检测不需要空调的情况下非常热的天之后的时间的额外的空调使用的模式。
再次参考图3,STDMn 0框架的下一个代理为功能代理。功能代理试图检测并且验证相对对准的时域数据中的新的趋势和模式,并且包括探索性和确认数据挖掘。这个初始分析适用探索性数据挖掘来进行,以使得能够发现感兴趣的规则库以进一步调查。适用探索性数据挖掘来分析时域代理和相关代理产生的多个实体的多个数据流的重新对准的依时抽取,以探索数据以便研究通过规则库生成来表示并且也称为假设的新的趋势和模式。由探索性数据挖掘来支持“进行观察”和“用于解释观察的发明假设”的具体的方法阶段。如果找到了数据中的关联性,则可以使用确认数据挖掘来使得这个有效。验证可以经由测试另外的数据集或经由使用虚假设测试或者这二者来进行。
分析的目的是寻找多个实体的多个数据流的时域数据和相关数据挖掘查找中的水平平移和趋势,以试图检测可以存在于具体事件的实体中的在先未知的模式,从而创建可能变成可以应用于实体监测的新的规则的新的假设。
在先步骤中执行的依时抽取保存了数据的时域方面,使得可以在执行多个流和多个实体任务的探索性数据挖掘时包括这个时域方面。
用户可以在这个步骤中使用备选数据挖掘技术;框架不限制与挖掘任务最匹配的数据挖掘技术的选择。所选择的数据挖掘技术必须知晓时序的数据。用户检查探索性数据挖掘的结果,并且选择重要的规则库。
功能代理用于支持CRISP-DM模型内的建模阶段。STDMn 0框架扩展CRISP-DM 42以支持科学方法44。图4示出了公知的CRISP-DM与科学方法之间的并行。
如图4所示,STDMn 0框架探索性数据挖掘任务40为数据挖掘规则库生成的一部分,并且选择扩展的CRISP-DM模型的重要的规则库阶段。这个任务可以由多代理框架中的功能代理来完成。
参考STDMn 0代理任务列,在功能代理步骤下,可以使用基于给定假设的给定研究的所选择的实体的子集及其关联的相对对准的时域流,作为探索性数据挖掘的训练集合。接着,在探索性模式下可以对实体的其他子集的更多数据运行相同的假设(没有切换至虚假设模式),如针对给定研究原始选择的实体,或者满足实体的研究选择准则的整个子集。
STDMn 0内的虚假设测试的包括使得能够通过确认数据挖掘处理来验证假设,并且表示用于在需要所得到的规则例如但不限于健康护理的另外的验证的领域中使用的可选步骤。具有虚假设任务的这个确认数据挖掘在公式虚假设和运行统计处理内执行,以测试至CRISP-DM的假设扩展。从假设至虚假设来变换假设,验证试图推翻虚假设。如果推翻未成功,则假设成立。
虚假设测试的结合的示例如下:
临床证据表明,以下两个事件的相关性与导致不稳定的心率的新生儿不稳定性具有直接关系:“假定假设的新生婴儿早产5周(35周孕龄),小于35mm(即,其孕龄的数值)Hg的平均血压的下降是临床相关的。在所有妊娠期,大于20秒的小于85%的外围血氧饱和度的下降也是临床相关的”。
时域代理准备平均血压和血氧饱和度的初始样本依时抽取,准备复杂依时抽取以选择这二者同时出现的分段。使得这些与心率不稳定性相对对准。
在这个示例中,在DM规则生成和选择重要的规则库步骤期间由功能代理执行的探索性数据挖掘产生了支持上述临床证据的相关性。
公式虚假设步骤使得能够将规则库表示为虚假设。
对于这个示例,使用0.8为相关系数。因此,这个假设使用以下形式的相关系数符号:
H1:ρ(X,Y)>0.8
其中,X表示ECG不稳定性;Y表示ABPmean<孕龄20秒;并且SaO2<85%同样20秒。
有效虚假设表示为:
H0:ρ(X,Y)=0.8
真正的虚假设表示为:
H0:ρ(X,Y)<0.8
在运行统计处理以测试假设步骤期间,在至CRISP-DM模型的STDMn 0扩展下执行,针对测试集合的另外的混合来进行测试,以试图推翻虚假设。如果不能推翻虚假设,则考虑假设成立。
可选地,探索性和确认数据挖掘可以自动进行。探索性数据挖掘可以通过系统使用事件的时间、表示日期/时间点的实体属性、或依时抽取开始时间来自动进行,以确定可以量化的实体的相对对准点。量化实体可以基于限制性来交替地选择,这些限制性基于实体属性准则、事件属性准则、依时抽取准则和/或相关依时抽取准则。数据挖掘可以自动进行以试图基于普通行为或经由其中存在强相关性的其他数据挖掘方法返回结果来聚合实体。
例如,用户可以可选择地选择一些数据流或有效的数据流,接着使用这些来进行进一步的探索性数据挖掘。用户可以选择执行这个步骤例如以输入基于领域知识而公知的结果,以避免发现公知的趋势的另外的系统处理。
功能代理使用探索性数据挖掘和确认数据挖掘网络服务,使得数据能够直接被推送至或拉取至功能代理。也可以经由直接连接将数据直接发送至功能代理。
接着,参考图3的规则生成代理竖直列,规则生成代理通过功能代理内的探索性数据挖掘来执行将被创建作为规则库生成的一部分的规则添加到可以用以下形式来表示的规则格式中的任务:该形式使得能够插入规则表中。用户可以评估规则库并且确定是否要将其并入实时规则库中作为智能实体监测的有效规则。
如图3所示,这个任务是扩展CRISP-DM模型中的评估阶段的一部分。
这些规则可以由解决方案管理服务80中详细描述的事件流处理器来使用,如图8所示,用于实时或几乎实时的事件监测。事件流处理器可以包括实时数据流的依时抽取,以使得能够使用依时抽取的规则来进行改变。
规则生成代理使用规则管理网络服务,以使得能够将数据直接推送至或拉取至规则生成代理,也可以经由直接连接将数据直接发送至规则生成代理。
图4示出了满足对于虚假设测试的需求的扩展CRISP-DM模型。扩展CRISP-DM模型用于支持STDMn 0框架中的数据挖掘模型。至CRISP-DM模型的这个扩展示出了包括扩展CRISP-DM模型的确认数据挖掘建模和评估部件内的科学方法的虚假设测试部件。以下部分详细描述STDMn 0框架内的扩展CRISP-DM实现,尤其是建模和评估部件内的扩展。
数据理解
数据理解阶段包括与采集和采集数据的熟悉关联的各种任务。对数据进行描述和调查,并且识别任何数据质量问题。数据理解阶段使用多代理系统中的处理代理的服务来完成STDMn 0框架内的本地采集和清除任务的一部分。
数据准备
数据准备阶段包括将原始未处理数据变换成要馈送至数据挖掘工具的最终数据集所涉及的所有动作。其包括如选择和清除数据、构造和结合数据集以及对要准备好用于数据挖掘的数据进行格式化等动作。数据准备阶段使用多代理系统中的三个代理的服务。在相关代理执行与所理解的研究关联的数据的相对重新对准之前,处理代理确定在数据理解阶段开始的初始准备,准备好时域代理对时域数据执行依时抽取。
建模和评估
建模阶段包括选择和应用建模技术。这个阶段包括数据挖掘规则库生成、选择重要的规则库、用公式表示虚假设、以及运行统计处理以测试假设。用公式表示虚假设并且运行统计处理以测试虚假设表示建模和评估部件内的CRISP-DM扩展的STDMn 0框架实现,以支持科学方法内的测试虚假设以及成功/失败测试。所有的建模和评估阶段由多代理系统中的功能代理来执行,并且被映射至STDMn 0框架,如下所述。
数据挖掘规则库生成和选择重要的规则库
数据挖掘规则库生成阶段为其中进行探索性数据挖掘的阶段。在STDMn 0框架中,对相对对准的依时抽取执行探索性数据挖掘,包括多个实体的多个流。在运动至选择重要的规则库阶段时使用探索性数据挖掘的结果。
(i)用公式表示虚假设
公式虚假设使用选择重要的规则库阶段的输出,其中重要的规则库是从探索性数据挖掘的结果中选择的。针对表示兴趣和另外的调查的任何结果,创建虚假设。
(ii)运行统计处理以测试虚假设
建模阶段、运行统计处理以测试虚假设阶段的另一部分在用公式表示虚假设阶段之后。运行统计处理以测试虚假设阶段,通过STDMn 0框架的虚假设任务来执行确认数据挖掘,以便证明或推翻虚假设。
数据源部署
通过规则生成代理的功能来实现扩展CRISP-DM模型的数据源部署部件。
数据存储
图6图示了用于实现STDMn 0框架的数据存储方案60。图7示出了应用于支持新生儿重症监护的数据存储方案的另外的示例。
框架中的实体的静态实体数据可以存储在实体表中。该实体表包含实体的识别的或研究除去识别的历史临床静态数据。实体表的属性为Entityld,其用于链接实体表的内容与实体事件、实体流、依时抽取表、TA_相关时间表和实体诊断表的内容。实体表与实体流之间的关系为一对多,实体表与依时抽取表之间的关系为一对多,实体表与实体诊断表之间的关系为一对多。因此,实体表可以包含图6所列出的任何数量的实体属性,如实体属性1至实体属性n
如图7所示,这可以被实现以支持新生儿重症监护。在这个背景下,实体为患者。实体表被示出为具有Patient_ID而非Entityld以及一系列实体属性(出生日期、出生孕龄、性别、出生体重、出生长度、出生头围)的患者表。
事件表存储与实体在给定时间点可能出现的事件的类型有关的定义信息。事件表包含事件ID代码连同事件名称,事件ID代码为每个事件的唯一标识符,事件名称包含事件的人们可读名称。事件类型使得能够对事件分组,例如,在事件可能与诊断、观察的记录、实验结果和生长记录有关的情况下。事件描述包含描述事件是什么的另外的文本细节。
实体事件表包含被诊断的给定实体出现的在事件表中列出的所有事件的记录。包括这个表的关键词的属性为Entityld(其可以例如用于链接诊断与具体的实体)、事件ID(其可以例如用于链接实体的记录与具体类型的诊断)、以及日期和时间。可以在数据采集处理期间多次在相同的条件下对具体的实体进行诊断,因此,关键词中可能需要包括所有这些属性。在图7中,实体/事件表被示出为患者/诊断表,其中,最后的属性——严重性——用于记录情况的严重性,如果有的话。
返回参考图6,每个实体的各个传感器的识别的或者研究除去识别的原始传感器数据被存储在实体流表中。
包含在实体流表中的属性为Entityld、Stream_ID、读取的日期和时间、值以及其他一系列属性,如属性1至属性n,根据需要而非限于场所和位置,如图7的临床研究方案所示。Entityld属性用于链接传感器数据与实体表中的正确的实体。实体流表与实体表之间存在多对一关系。Stream_ID用于识别读取哪个传感器以及哪个流可能在这个传感器内,并且链接至流定义表。实体流表与流定义表之间存在多对一关系。
必须识别实体读取的每个流。流定义表包含以下作为属性:实体读取值的每个流的id、Sensorld和名称、流名称。Sensorld在实体流表中用作链接至流定义表的外部键,以使得能够通过每个流的名称来识别。
如何抽取具体的流的规则包含在图6的TA_RULE表中。每个流可以链接至多于一个规则,以创建多于一个抽取。
TA_RULE表中的属性为规则ID,其包含具体规则的id、Sensorld,其将TA_RULE表链接至流定义表并且用于定义具体的规则应用于那个类型的参数。规则属性包含具体规则的细节。
TA_RULE表与流定义表具有多对一关系,其表示具体的流定义可以具有多于一个应用于其的依时抽取。
根据实体的流创建的依时抽取存储在依时抽取表中,抽取可以通过将存储在图6的TA_RULE表中的在先定义的抽取规则应用于在实体流表中找到的各个实体的流的数据值来创建。从实体流表、存储在依时抽取表中的抽取的并且得到的抽取中提取每个实体的每个传感器数据流的原始数据。
依时抽取表的属性为:用于将具体的抽取链接至具体的实体的Entityld、用于关联抽取与具体的流的Sensorld、示出了抽取结果的AbstractionValue(TAValue)(例如可能很高、很低、标准、上升等的值)、作为抽取成为真实的时间的AcutalStartTime(TAStartTime)、以及作为具体的抽取不再保持真、其结束的时间的ActualEndTime(TAEndtime)。
存储在这个表中的依时抽取通过将TA_RULE表中包含的规则应用于存储在实体流中的实体的相关流来创建。
依时抽取表以多对一关系链接至实体表,表示具体的实体可以具有存储在表中的很多抽取。依时抽取表与流定义表之间存在多对一关系,这表示流可以具有对其执行的若干抽取。
在传统的数据仓库设置中,其中,原始数据被拷贝到数据仓库中并且经由周期负载进行聚合以及之后进行束聚合,时域代理可以例如实现为存储数据仓库的数据库管理系统(DBMS)中的代理。这可以是例如DB2(标志)中的使用脚本。在这种情况下,例如,以上列出的五个功能可以如下实现:
1)查询TA_Rule表并且从有效的表中的所选行中的每个行的规则列中选择所有规则。
2)构建DB2脚本,其包含如TA_Rule表的规则列中所列出的每个实体抽取规则的插入状态。插入状态可以包含选择状态,其执行规定日期范围的依时抽取功能以向依时抽取表中插入行。
3)存储可以通过运行脚本并且发起插入状态来实现。
4)复杂抽取可以从在复杂抽取之前执行的新创建的简单抽取插入状态中选择数据。
5)复杂抽取的存储可以通过运行脚本并且发起复杂抽取的插入状态来实现。
本发明的使用结合基于流的操纵示出了本发明的优点。在流计算范例内,其中在数据实时到达时数据被操纵为流,时域代理可以是如下流计算程序:其在数据实时到达时分析数据的流,或者从数据仓库得到数据并且创建作为简单或复杂抽取的所得到的一系列低频率流,然后将它们实时地装载到数据库中。在这个实现中,除了将原始数据流周期性地拷贝到数据仓库环境中,还将需要依时抽取数据的周期拷贝。在这种情况下,例如,以上列出的五个功能在实时环境下可以如下实现:
1)使用TA_Rule表中所包含的信息来驱动创建每个规则的实时流模块。在IBM infosphere流中,例如,这可能导致创建一系列SPL图形程序。
2)可以在源原始流和关联的所需静态数据中读取表示简单抽取的每个流模块,并且将其读出所得到的低频输出流。可以针对受实时流环境监测的每个实体来部署这些实时流模块。
3)可以通过将输出流写入数据库中来实现存储。
4)类似于1),在其生成时,或者通过选择数据,一旦其从在复杂抽取之前执行的新创建的简单的抽取被写入数据库,可以将复杂抽取实现为在来自2)的创建的输出流中从实时流读取的流模块。
5)复杂抽取的存储可以通过将输出流写入数据库来实现。
规定了具体对准的图6的研究表保存与需要应用于存储在每个研究的依时抽取表中的抽取的任何相关规则有关的信息。取决于要进行的具体的研究,如果要研究导致诊断的时间的某些参数的行为,则依时抽取可能需要相对于具体的时间点重新对准,如诊断点。在这种情况下,在具体抽取为真的时间的绝对点不是很重要,其为与相关的实体的诊断时间有关的每个实体的相关时间点。
在针对每个研究的研究表中存在实体。研究表的属性为Study_ID、每个研究的唯一的并且用来链接至TA_RelativeTime表的标识符。研究表可以具有零至很多个研究属性,例如但不限于图6的表中所示出的StudyName和StudyOwner,如StudyAttribute1至StudyAttributen。Study_Owner属性用于识别进行具体的研究的用户。为了使得能够将实体限制(如果需要)为感兴趣的实体,则Study表包括用于通过EntityRestriction属性来定义实体限制的性质的属性。为了使得能够将实体限制(如果需要)为感兴趣的实体,则Study表包括用于通过EventRestriction属性来定义事件限制的性质的属性。为了使得能够将依时抽取限制(如果需要)为感兴趣的依时抽取,则Study表包括用于通过TARestriction来定义依时抽取限制的性质的属性。为了使得能够将相对对准限制(如果需要)为感兴趣的相对对准,则Study表包括用于通过TARelative属性来定义相对对准限制的性质的属性。
图7将用于支持新生儿重症监护的这个表的实现的示例示出为其中已经用患者代替Entity的Study表。
研究的定义的示例如下:研究人员希望选择少于30孕周出生的所有患者。在这个示例中,感兴趣的事件为新生儿心动过缓的情节,对于研究,其被定义为心率下降到每分钟100次以下。感兴趣的依时抽取可以是心率下降到每分钟100次以下时的简单的TA。相对对准限制可以是仅选择在该新生儿心动过缓事件的日期和时间之前出现最高达36小时的依时抽取。在这个示例中,应当注意,相同的实体可以具有多个事件,导致该患者的多组相对对准的数据。
SQL中的数据库管理系统中实现的研究限制信息的示例可以是一系列选择状态,其中,分别为来自Entity、TemporalAbstraction、EventRestriction和TA_Relativetime表的行的限制的EntityRestriction、TARestriction、EventRestriction和TARelativeRestrictions属性中的每个中的条款部件。因此,这可以在合成插入状态下使用以将数据插入TA_RelativeTime表中。
再次参考图6,TA_RelativeTime表保存已经在时间上相对于被拥有表中的相对对准的抽取的研究的用户视为感兴趣的时间点重新对准的抽取。可以将用于多个研究的数据存储在TA_RelativeTime表中。
TA_RelativeTime表的属性非常类似于TemporalAbstraction表的属性,然而,已经用RelativeStartTime和RelativeEndTime代替ActualStartTime和ActualEndTime,其将是相对于被实体所属于的研究的拥有者视为感兴趣的时间点的时间。已经添加Study_ID属性以将相关抽取链接至Study表中的具体的研究。TA_RelativeTime表与Study表之间的关系为多对一关系,TA_RelativeTime表中可以有多个实体属于具体的研究。
在这个背景下,相关代理例如可以实现为保存数据仓库的数据库管理系统(DBMS)中的代理。这个可以是例如DB2内的使用脚本。在这种情况下,例如,以上列出的三个功能可以如下实现:
1)查询Study表并且选择所有研究,并且使用每个列中包含的信息以在得到的插入状态内填入信息以创建TA_RelativeTime表中的行。
2)构建DB2脚本,其包含从1)创建的每个相对对准规则的插入状态。该插入状态可以包含执行指定日期范围的相对对准功能以创建TA-RelativeTime表中的行的选择状态。
3)存储可以通过运行脚本并且发起至TA_RelativeTime表的插入状态来实现。
在流计算范例内,其中当数据实时到达时该数据被操纵为流,相对对准代理可以是如下流计算程序:其分析数据实时到达时的时域数据流或从数据仓库表产生数据并且创建一系列所得到的低频流,并且将其实时地加载到数据库中,低频流为简单或复杂抽取。在这个实现中,也可以获取相关数据的周期拷贝,以创建用于数据挖掘用途的相关数据拷贝。在这种情况下,例如,以上列出的五个功能在实时环境下可以被如下实现:
1)使用包含在Study表中的信息来驱动创建每个规则的实时流模块。在IBMInfoSphere(标志)流中,例如这可以导致创建一系列流处理语言(SPL)图形程序;
2)表示研究相对对准的每个流模块读入依时抽取流和关联的所要求的静态数据并且写出所得到的相对对准的流。这些实时流模块可以针对每个实体来部署,每个实体在具体研究的范围内考虑;以及
3)存储可以通过将输出流写入数据库来实现。
除了以上形成STDMn 0框架的一部分的表格,可以将从作为STDMn 0框架中的处理结果的假设产生的可能得到的规则存储在Teal-timeRuleBase表中,如图6所示,其可访问用于由实时患者监测比如SMS内的事件流处理器来使用。这个表可以在STDMn 0数据存储外部。
图6展示了Real-timeRuleBase表的示例,其中对于已经是研究的对象的每个EventID,可以基于其距离事件的相对距离来定义与某个流(StreamID)有关的依时抽取(TARuleID),并且其中需要关联的值。对于每个可能在距离事件不同的相对距离处的流而言,可以存在多个依时抽取规则。对于每个事件的多个流,可以存在多个依时抽取。
解决方案管理服务
在本发明的一种实现中,解决方案管理服务(SMS)为用于支持新生儿临床管理和研究的智能判决支持系统(IDSS)。与解决方案管理服务的交互可以经由一系列网络服务来实现。如图9所示,在本发明的具体的表示性实现中,SMS 90可以包含六个部件:
解决方案构建者为捕获用于设置并且和发起运行时间部件和数据管理层的元数据的构建时间部件。
医疗警报监视器为使得新生儿能够定义和改变复杂医疗警报规则的运行时间部件。
事件流处理器提供可缩放数据展示环节以持续性地对事件进行结合并且变换以支持复杂医疗警报。
分析处理器提供用于取回近实时患者数据的运行时间接口,或者在患者或概要级根据位于数据仓库或数据管理层内的实时数据存储中的数据来执行临床试验分析。
数据管理提供构建时间元数据、医疗规则以及存储在数据仓库或有效规则和数据存储中的运行时间生理和临床数据连同依时抽取(TA)规则库的永久存储。
网络服务接口经由一组网络服务来提供对这些部件的访问。这个文章描述了与解决方案管理服务和数据采集单元有关的研究。
SMS支持实时处理,其中新生儿示例实现的背景表示实时智能患者监测和数据挖掘。
图3内所示的STDMn 0框架部件如下映射至图8内所示的SMS部件:SMS内的临床标记网络服务执行STDMn 0框架中的静态数据采集网络服务的功能。
SMS内的生理标记网络服务执行STDMn 0框架中的流数据采集网络服务的功能。
SMS内的分析网络服务表示STDMn 0框架中的一组网络服务,即:依时抽取网络服务、相对对准网络服务、探索性数据挖掘网络服务、确认数据挖掘网络服务和规则管理网络服务。
SMS事件流处理器功能的一部分是使得处理代理将数据从SMS实时数据存储移动至SMS数据仓库。
SMS内的分析处理器通过STDMn 0框架内的其余四种类型的处理代理来启用,即:时域代理、相关代理、功能代理和规则生成代理。
如图6的普通形式和图7的新生儿重症监护形式的示例所示的STDMn 0框架数据表示SMS内的数据仓库。
SMS临床标记网络服务和生理标记网络服务分别向STDMn 0框架数据模型实体和EntityStream表的实时数据存储拷贝中装载数据,并且表示持续增加的表以支持实时患者监测。
TemporalAbstraction表的拷贝在如下情况下也可以存在于Real-timeDataStore内:其中,这个表的内容是通过例如但不限于流编程的这样的技术实时地来创建的。作为SMS分析处理器的部件的STDMn 0框架处理代理拷贝STDMn 0框架数据模型实体、EntityStream以及可选地来自SMS实时数据存储内的匹配表的SMS数据仓库的TemporalAbstraction数据表内的数据,作为周期增加负载。
SMS医疗报警监测器及其支持监测器网络服务支持实时智能患者监测所需的功能。
SMS解决方案构建者和定义网络服务可以用于初始定义SMS实时数据存储内的实时智能患者监测所需的表以及SMS数据仓库内的STDMn 0框架数据模型表。
基于服务的多维分布式时域数据挖掘(SDTDM 0 )的概述
本发明可以提供基于服务的多维分布式时域数据挖掘(SDTDMn 0)。例如,SDTDMn 0可以包括在本发明的实施方式中,如图11所示。SDTDMn 0框架可以包括在或者并入STDMn 0模型110中,以提供STDMn 0模型缺乏的功能。本发明可以包括多维分布式数据挖掘框架,其提供用于支持分布式环境中的多中心研究的结构并且管理时域和相关规则表(如上所述),同时维持分布式站点之间的连续性。其中包括SDTDMn 0框架的本发明的实施方式可以适用于临床研究。
本发明的时域代理可操作以管理STDMn 0框架所正在使用的生理数据以及帮助基于时域规则来创建依时抽取。例如,这个阶段的主要单元可以是:各个患者的各个数据流的简单抽取的创建,其存储在STDMn 0时域数据存储中;以及基于在时域规则表中找到的任何规则的复杂抽取的创建,其也存储在STDMn 0时域数据存储中。
在STDMn 0模型的架构内,对于每个站点而言,依时抽取和时域规则的创建和存储可以是本地的,并且可能缺乏用于分布的机制。在多维环境中,其中包括(或者合并有)SDTDMn 0框架,正在被取回的生理数据可以来自多个站点。这些多个站点可以产生如本文中所述在数据结构或甚至数据频率方面不同的数据。有技术的读者将认识到,具有可应用于变化的数据的时域数据和时域规则的多个本地存储不是非常困难,例如,如可应用于来自每个站点的数据的时域数据和时域规则的多个本地存储。然而,由于当前保健政策和改进的患者隐私考虑,可能需要静态数据和流数据、以及在每个站点本地存在的依时抽取。然而,时域规则不包含患者识别信息,因此可以被分散以存在于彼此远离的站点例如120a、120b、120c,如图12所示。
若干优点可以是分散数据的有益效果,如以下:(i)保持不同站点之间的依时抽取和规则恒定;(ii)更好地控制数据的安全,因为仅有一个位置需要管理;(iii)通过受控且安全的环境来提供对数据的更好的访问性;以及(iv)关于资源管理来创建模块环境。
分散时域规则的任务可以通过将框架的单元移动到可以用作所有参与站点的云分布层的中心数据服务器来开始。在应用分布式途径的方法中,以下四个步骤为可能的步骤:(1)可以从每个患者的每个参数的生理数据存储中取得生理数据;(2)可以实现与云分布层的链接,以从时域规则表取得相关抽取规则,其接着可以应用于生理数据;(3)接着,可以将可以针对各个患者的各个数据流所创建的简单抽取本地存储在每个站点处(也可以用SITE_ID对其进行标记,以识别其源站点用于比较研究);以及(4)可以使用时域规则表根据简单抽取来创建复杂抽取。一旦完成,也可以将新创建的复杂抽取本地存储在相同的TA表中并且对其进行标记以便于识别。
相关代理可以在临床调查研究中扮演很重要的角色,并且可以极大地从分布式框架获益。相关代理可以要求访问时域代理创建的抽取、以及与感兴趣的研究时间有关的单个患者的临床信息。为了使得能够在分布式结构中实现这个功能,分布式框架可以使用相对对准网络服务,其可以用作数据访问的看门者。重要的是需要注意,不同的调查研究可以使用相同的依时抽取。为此,中心数据服务器可以包含专用于每个研究的相关时域数据表。相对对准的抽取可以存储在相关时域数据存储中,并且还可以被标记以便于识别。
通过分散相关规则数据,例如,如图13所示,使得相关规则数据130a、130b、130c被分散以存在于彼此远离的站点处,本发明还可以可操作以使得能够同时进行多中心研究。相关规则的分散还可以使得有可能对同时进行的相似调查研究的结果进行比较。
本发明还可以包括分布式功能代理和规则生成代理。功能代理可以执行数据挖掘任务,并且可操作以检测数据内的感兴趣的趋势和模式。分布式功能代理可以例如检测与具体的调查研究有关的数据内的趋势和模式。作为另一示例,分布式功能代理还可以识别与数据流的采集内的具体的调查研究有关的数据,并且可以检测其识别为与具体的调查研究有关的研究内的趋势和模式,从而产生提供所检测到的与具体的调查研究有关的趋势和模式的结果。
在本发明的一种实施方式中,可以使用探索性数据挖掘来分析多个患者的多个数据流的重新对准的依时抽取,以在感兴趣的事件之前或之后检测可以存在于数据中的新的趋势和模式。一旦发现了可能的趋势和模式,可以由使用这些趋势和模式来研究假设例如与可能导致某个情况的开始的因素有关的假设的临床医生来对其进行评估。探索性数据挖掘实践的结果还可以识别如下的重要规则:应当在患者护理的背景下进一步考虑或研究;应当从政策/过程中去除;或者应当实现到政策/过程中。
本发明的实施方式的代理的分布中涉及的步骤可以包括以下:可以使用探索性挖掘来分析多个患者的多个数据流的重新对准的依时抽取(来自相关代理),以检测可能存在于数据中的新的趋势和模式;规则生成代理可以使用探索性功能规则来创建可以被中心存储的新的规则库数据表;以及事件流处理器可以与规则库数据表连接以对实时数据流应用抽取。
图14示出了可以包括在本发明的实施方式中的可能的本地存储140的集合(所述集合可以包括一个或更多个存储)的示例。
图15示出了本发明的实施方式的STDMn 0框架的可能的整个数据存储方案150的示例。为了实现SDTDMn 0框架,数据存储方案的若干部件可以分布,并且可以出现多个改变,如本文中所述。
包括SDTDMn 0框架的本发明的实施方式可以包括各种数据存储器件。该数据存储器件可以包括数据库结构。该数据库结构可以用于存储通过本发明接收的数据、通过本发明分析或处理的数据、以及与本发明的功能或其他可操作性包括本发明的规则有关的数据。以下细节提供了使用数据库结构的本发明的可能的实施方式中的可能的数据存储的描述,其可以被包括在本发明中,或者可以被本发明使用。有技术的读者将认识到,仅提供这些描述作为示例,并且本发明的实施方式中可能有其他数据存储器件。
时域规则
在本发明的一种实施方式中,TA_Rule表可以包含可以用于指明如何从由本发明处理/分析的数据中抽取具体的生理参数的规则。每个生理参数可以链接至多个规则,并且因此可以创建多于一个抽取。AT-Rule表可以能够包含需要运行以抽取具体生理参数的整个SQL抽取查询。本发明可以在操作期间根据TA_Rule表来定位并且提取要由本发明使用以实现具体的功能或其他操作的相关规则。
TA_Rule表中可以有若干属性。例如,本发明的一个实施方式可以在TA-Rule表中包括三个属性。这三个属性可以包括:(i)包含具体的规则的唯一的ID的TARuleID;(ii)将TA_Rule表链接至PhysiologicalDefinition表并且用于识别具体的规则应用于哪种类型的参数的PhysiologicalID;以及(iii)包含具体规则的细节的规则属性,该具体规则包括需要运行规则的SQL查询的。RA_Rule表与PhysiologicalDefinition表可以具有多对一关系,这表示具体的PhysiologicalDefinition可以具有多于一个应用于其的TA_Rule。
依时抽取数据
在本发明的一种实施方式中,依时抽取表可以包含根据患者的生理参数创建的TA。存储在这个表中的依时抽取可以通过将TA-Rule表中包含的规则应用于患者的有关生理参数来创建。患者的所述生理参数可以包括在由本发明接收的与患者有关的数据中。PatientID属性可以用于将具体的抽取链接至具体的患者,PhysiologicalID属性可以用于创建具体的生理定义的抽取。
在本发明可以使用的一个数据库中,依时抽取表可以包括与具体生理定义的抽取有关的字段。例如,在这样的数据库中,字段ABSTRACTIONTYPE可以表示抽取的类型,例如,比如趋势或水平平移。在相同的数据库中,字段ABSTRACTIONVALUE可以存储抽取的结果。抽取的结果可以包括表示从高到标准的值的增加、减小或范围的值。此外,在相同的数据集中,字段ACTUALSTARTTIME可以表示与抽取成为真实的时间有关的属性,字段ACTUALENDTIME可以表示与具体的抽取不再真的时间有关的属性。
依时抽取表可以以多对一关系链接至患者表。这些表之间的这种关系可以表示具体的患者可以具有很多存储在表中的抽取。依时抽取表还可以维持与PhysiologicalDefinition表的多对一关系,结果是,可以对生理参数执行若干抽取。
相关规则
在本发明的一种实施方式中,数据库中可以包括相关规则、研究表。相关规则表可以规定具体研究的抽取的具体对准。这个表还可以包含与可能需要应用于存储在依时抽取表中的抽取的任何相关规则有关的信息。相关规则表可以包括若干字段。例如,StudyID字段可以包含作为每个研究的唯一标识符的属性。用于StudyOwner、StudyName和StudyDescription信息的字段可以包含反映与调查研究如研究的所有权有关的细节以及与研究有关的其他相关细节的属性。用于EntityRestriction、TARestriction、EventRestriction和TARelativeRestriction的字段可以包含与提供对研究表的更高级的限制的语句有关的属性。
相关依时抽取
在本发明的一种实施方式中,相关依时抽取表可以包括在数据库中。相关依时抽取表可以用于存储已经相对于研究者感兴趣的点重新对准的抽取。例如,研究者可以是拥有研究的人。相关依时抽取表的属性可以类似于依时抽取表,除了相关依时抽取表可以包含用于存储值如RelativeTAStartTime和RelativeTAEndTime值的字段。RelativeTAStartTime字段可以存储作为与研究的研究者/拥有者感兴趣的周期的开始有关的次数的值。RelativeTAEndTime字段可以存储作为与研究的研究者/拥有者感兴趣的周期的结束有关的次数值。相关依时抽取表中可以包括其他字段,例如,比如唯一的StudyID字段,其可以包含使得能够将抽取链接至与其共享多对一关系的研究表的属性。StudyID字段与研究表之间的多对一关系可以表示与具体的研究有关的TA_RelativeTime表中可以有很多实体。
规则库数据
本发明的一种实施方式可以包括存储规则的数据库中的表。例如,这个表可以存储根据可以是包括SDTDMn 0框架本发明的实施方式方法的步骤的结果的假设创建的规则。这样的规则可以存储在数据库的规则库表中。规则库表的属性可以包括若干字段,例如,如EventID、PhysiologicalID和TARuleID字段,这些字段中的每个字段可以存储唯一的标识,这个唯一的标识可以从数据库中的其他表中取得,包括本文中所讨论的表。可以包括在规则库表中的其他字段可以包括RelativeStartTime和RelativeEndTime字段,其存储本文中所描述的数据。值字段也可以包括在规则库表中,以存储表示研究者感兴趣的阈值的值。
存储在规则库表中的数据可以由本发明的用户来访问。访问规则库表中的数据可以使得能够实时地或者几乎实时地向用户部署这样的数据。然而,存储在规则库中的规则可以由本发明用于确定具体的事件或情况开始的存在。例如,根据规则库表中的数据,可以将超过15秒的新生儿呼吸的下降以及超过20秒的小于85%的外围氧气饱和度连同小于100BPM的心率识别为表示窒息事件。有技术的读者将认识到,规则库表以及存储在其中的数据可以用于帮助读者认识事件的变化。
有技术的读者将认识到,本发明中可以使用其它表和/或其他数据存储器件。本发明的数据可以被本发明以多种方式并且根据多种方法来可访问。本发明的数据可以被处理/分析或使用以实现本发明的功能和其他操作。
SDTDMn 0框架的其他可能的功能和操作
为了使得本发明能够对数据进行依时抽取,可以首先要求通过处理代理从其原始格式对数据进行处理。处理代理的角色可以是发起从外部数据存储来采集所存储的生理和临床数据。例如,这样的外部数据存储可以是支持在线分析的存储。一旦数据已经通过了外部采集阶段,则处理代理可以将数据变换成所需格式,如果需要这样的变换的话。还可以将数据构造并且存储在临床数据和生理数据表中。一旦完成了数据的存储,时域代理可以开始处理数据以便创建依时抽取。时域代理可以使用时域规则表中定义的规则来进行这样的数据处理。
现有技术的限制使得不能够可操作以实现本发明的时域代理的结果。例如,现有技术的一个限制在于,其被构造成支持仅一个时域规则表。现有技术的另一限制在于,通常缺乏与如何保持多维分布式位置之上的依时抽取的一致性有关的清楚性。
如图16所示,本发明还提供了对于现有技术的这些限制的解决方案。本发明可以可操作以管理多个时域规则表160a、160b、160c,以及同时保持多个分布式站点之间的依时抽取恒定。由于当前健康护理政策和改进的患者隐私考虑,可能要求某些类型的数据本地存在于每个站点处。因此,依时抽取162a、162b、162c可能必须本地存储在每个分布式站点处。
可以不要求时域规则本地存储在每个分布式站点处,因为它们可能不包含任何患者识别信息。为此,可以分散时域规则以使得能够实现一致性、对安全性以及更好的访问性的更好的控制。本发明可以包括支持用于依时抽取的分布的结构,其中允许对依时抽取进行分布。
对于多维分布式站点,与数据的处理和数据的保密有关的政策可以不同。为此,可能需要支持本发明的实施方式中的分布式设置的数据。在本发明的一种实施方式中,时域规则的分布可以包括以下步骤:(i)可以分布时域规则,使得其中心存储。当需要运行TA时,可以针对每个参与站点(站点A、站点B、站点C、……、站点N等)同时部署关联的规则。针对每个站点部署的TA规则还可以包括查询,例如,比如SQL查询。可以要求运行查询以便执行每个站点处的抽取。查询可以包括并且可以根据具体的数据来运行,例如,存储在TA_Rule表中的这样的数据。(ii)一旦已经部署了依时抽取中的一个或多个,则可以在每个站点处本地运行每个实体抽取。依时抽取可以包括具体的参数,例如,如由时域规则提供的参数;(iii)例如,唯一的标识符可以存储在字段,如SITE_ID字段中,其可以存储唯一的标识符,比如提供具有唯一的ID的每个位置的标记。唯一的标识符可以用于定位相关数据,并且可以用于方便对多个站点的结果进行比较,如果需要这样的比较;以及(iv)依时抽取的结果可以本地存储在每个站点处,例如,如数据表中(如,用于这样的存储的表的示例可以为DM_ARTEMIS_TA表)。在本发明的实施方式中,依时抽取的结果还可以存储在中央数据存储区域中,例如,如可以作为DM_ARTEMIS_TA表的中央数据库表中。
用于相关规则的数据存储例如比如相关规则表可以规定具体调查研究的抽取的具体对准。相关规则数据存储还可以包含与可能需要应用于抽取如可能需要应用于存储在数据存储区域例如比如实体抽取表中的抽取的任何相关规则有关的信息。
与公知的现有技术相比,本发明可以提供优点。大多数现有技术框架被配置成支持仅一个相关规则表,并且因此不适合多维分布式研究。本发明可以支持多个相关规则数据存储区域,如相关规则表,为此,本发明可以用于处理/分析多维分布式调查研究的数据。
如图17所示,本发明可以包括支持相关规则170的分布的结构。在本发明的一种实施方式中,可以进行以下三个步骤以使得能够分布相关规则:(i)可以部署或者从中央数据存储区域来访问用于每个研究的相关规则。对于每个参与的设备,可以存在单独的调查研究表,并且这些单独的研究表每个可以被指定唯一的StudyID;(ii)一旦部署或者被访问,可以对可能存在于每个站点处的依时抽取数据存储区域例如比如实体抽取表进行本地访问,以执行具体的调查研究可能要去的相对对准;(iii)重新对准的依时抽取可以被创建并且本地存储在数据存储区域例如比如相关时域数据表中,这样的数据存储区域可以特定于某个调查研究和站点,站点可以用唯一的标识符来识别,如包含在数据库的表和字段中的标识符,例如,表/字段组合SITE_ID(DM_ARTEMIS_RA)。在本发明的实施方式中,相关时域数据也可以存储在中央数据存储区域中,例如比如DM_ARTEMIS_RA字段等的数据库表中的字段中的区域中。相关时域数据的存储也可以包括站点标识,例如,如SITE_ID标记。站点标识数据可以用于分离和/或比较不同站点的数据。
本发明的规则生成代理可以使用功能代理给出的查找结果,以使得能够创建可以在规则数据库中定义的规则。在对实时数据流应用抽取时,规则生成代理可以使用经由探索性数据挖掘阶段创建的假设来创建可以被事件流处理器存储和使用的规则。所描述的规则库数据可以中心存在,并且可以在每次需要应用规则以实时地或者几乎实时地监测时被访问。例如,在本发明的一个实施方式中,功能代理可以包括本地存储在每个站点(DM_ARTEMIS_RA)处的相关依时抽取。规则创建代理可以使用功能代理产生的结果来创建规则库数据,其可以存储在中央数据存储区域中。可以访问和使用规则,以进行对数据例如这样的患者数据的有效的实时的或几乎实时的监测。
如图21所示,SDTDMn 0框架的实施方式分布时域规则、相关规则和规则库数据可以是可能的。SDTDMn 0框架还可以包括对每个站点而言将依时抽取和相关依时抽取本地存储在云环境210中,或者组合本地存储和云存储。对于每个站点而言依时抽取和相关依时抽取的本地存储可以提出健康护理政策和改进的患者私密考虑。然而,分区域的云环境的创建可以提供分布时域和相关依时抽取的途径。例如,每个区域、省、州或国家可以提供一个专门的云环境,其中可以根据掌控具体的权限的保密政策来存储抽取。专门的云环境还可以使得能够实现多中心研究中的结果的站点间比较,以识别具体的趋势或模式总体出现还是仅在具体的工具处出现。
特征多维框架(STDM n+p 0 )概述
本发明可以是还包括患者特征多维(STDMn+p 0)框架的STDMn 0。可以针对临床研究来定义本发明的STDMn+p 0框架,以使得能够在疾病情况开始时基于所发现的趋势或模式来实现患者特定的预先诊断。有技术的读者将认识到,STDMn+p 0框架可以具有其他可操作性和应用。
本发明的STDMn+p 0框架可以包括使用患者属性。如图22所示,本发明的实施方式可以使用患者特征属性222和生理数据220。本发明所使用的患者特征和生理数据可以从多个患者处取得。
STDMn+p 0框架可以可操作以帮助基于各个患者特征属性来产生诊断。STDMn+p 0框架可以定义将患者属性(“+p”)添加至所采集的多个生理数据流(“n”)的构造的方法。将患者属性添加至生理数据可以帮助各个患者特征分析。结果是,虽然现有技术系统可以产生用于诊断的未定义的患者“万能”方法,然而本发明可以提供基于定义的患者属性的诊断,使得诊断在性质方面不是普遍的,可应用于多个人,但是被定义并且瞄准具体的患者。
STDMn+p 0框架还可以包括用于创建生理行为的子组以及依时抽取行为的子组的所构造的方法。
具体地,这个章节的讨论可以参考来自本发明的新生儿和NICU应用的示例。可以提供这些参考作为用于解释本发明的性质的目的的示例。有技术的读者将认识到,本发明也可以应用于其他应用。
在STDMn+p 0框架中,可以通过相关代理以本文中所讨论的方式来处理依时抽取,并且因此,可以将依时抽取传递给功能代理。功能代理可以便于通过一个或多个以下活动来进行规则库生成:探索性数据挖掘;选择重要的规则库;用公式表示虚假设;以及在确认数据挖掘期间运行统计处理以测试虚假设。虚假设测试可以用STDMn+p 0框架中的“0”来表示。
本发明可以使用定义的患者特征规则,并且这样的规则可以应用于多种数据挖掘研究。例如,可以进行这样的数据挖掘研究以考虑各种患者特征,例如,比如性别和孕龄。可以在分析和处理多个生理数据流时考虑这些患者特征。定义的患者特征规则可以包括基线可接受的阈值,并且由本发明来处理多个生理数据流可以包括比较数据与基线可接受的阈值。这个比较可以确定调查研究数据、多个数据集或流中的趋势和阈值。趋势或模式可以表示可以用于帮助诊断疾病的用户特定的重要事件。具体地,本发明还可以提供对于精确地诊断各个早产儿的见解。
STDMn+p 0框架还可以进行用于对数据进行子分组和聚合的步骤。例如,本发明可以进行以下步骤以实现对与早产儿和新生儿有关的数据的子分组和/或聚合。这个示例中所考虑并且定义的患者特征属性为性别和年龄。由于这些属性对于通过一个或多个具体的调查研究来解决的某些问题的重要性,因此可以选择这些属性。在这个示例中,本发明可以进行以处理和分析与35周孕龄的男性早产儿的生理HR数据链接的静态临床数据。本发明还可以进行以处理和分析与28周孕龄的男性新生儿生理HR数据链接的静态临床数据。可以将处理后的数据与所采集的类似数据相比较,并且关于35周孕龄和28周孕龄的女性未成年人有关地对其进行处理和分析。对数据的处理/分析以及对数据的比较可以提供以下结果:该结果提供对于影响研究中涉及的具体的未成年人和/或研究中涉及的未成年人组的情况的见解。具体地,数据可以提供以下结果:该结果提供与研究中涉及的患者的子组有关的具体信息。
在本发明的一种实施方式中,STDMn+p 0框架可以可操作以分析来自具有不同步的静态的患者中心的数据的多个患者的多个数据流。以这种方式,本发明可以是多维的。本发明的一种实施方式可以被理解为提供至STDMn 0框架的功能的扩展或添加。图23示出了可以扩展以形成STDMn+p 0框架的STDMn 0框架的一些区域如相关扩展230。有技术的读者将认识到,本发明还可以被视为包括或合并有STDMn 0框架的STDMn 0框架。
本发明的STDMn+p 0框架可以包括通过扩展患者属性数据的使用来交互的静态实体和事件数据库。这还可以对STDMn+p 0框架内的其他数据库有影响。有很多从电子健康记录和/或临床信息系统(CIS)可用的患者中心数据的不同示例,包括属性如:性别、孕龄、出生体重、出生长度和出生头围。有技术的读者将认识到,本发明的多种实施方式可以用于以具体的方式来寻址具体的数据作为STDMn+p 0框架的一部分。
在本发明的一种实施方式中,患者属性可以存储在存储数据区域中,例如,比如数据库中的患者属性表。在可以在NICU环境下使用的本发明的一种实施方式中,可以使用孕龄和性别作为患者属性。可以选择这些属性或者其他属性作为可以由于这些属性与患者成熟度的关系而影响来自临床算法(或其他计算)的结果的表示属性。有技术的读者将认识到,出于其他原因,可以在本发明的其他实施方式中使用其他属性。
可以用STDMn+p 0框架所使用的多代理系统的层来完成若干扩展任务。例如,在本发明的一种实施方式中,可应用于生理数据流的STDMn+p 0框架可以可操作以支持可以定义用于临床研究的特征多维数据挖掘框架。这个框架可以在数据挖掘患者生理数据系统的处理中使用患者属性。
在STDMn+p 0框架内,处理代理可以执行获取并且准备生理流数据的任务。可以从传感器来获取生理流数据,并且可以将其传递给本发明,或者可以从静态数据源取得生理流数据。可以将某些数据提供为来自数据库的数据表的形式,如临床和生理数据库。如图24所示,可以在处理代理240内执行多个层和多个任务。
本发明的方法的步骤可以包括处理同步采集的生理流数据并且将其与非同步的静态临床数据集成。例如,这样的集成可以出现在新生儿重症监护环境的背景内。在这个示例中,流数据可以表示以下类型的数据之一或两者:(i)从医疗监测设备如RR、SpO2和HR采集的生理流数据;以及(ii)非同步、静态或慢运动数据可以表示临床信息如患者ID、出生日期、性别和孕龄。本发明也可以能够接收和处理不明确的特征。例如,在NICU环境下,可能存在某些罕见情况,可能有应用于初生对象的非或“不明确”的性别,如在23至27周内出生的新生儿。这个对象可以稍后发育成男性或女性对象。
图25示出了可以由STDMn 0框架的实施方式来使用的可能的静态临床数据表结构250的示例,并且这些可以表示具体的感兴趣的表。例如,患者表可以包含STDMn+p 0研究感兴趣的属性,如与性别和/或出生时的孕龄(BirthGestationalAge)有关的属性。可以针对同步采集的生理流数据创建表。也可以生成表以包括新的属性。表的结构可以被设计成改善在时域代理中运行依时抽取查询时的结果。
STDMn 0框架的表通常可以存储在临床知识数据库中。在本发明的实施方式中,这些表可以在数据库中访问,并且还可以在未来的时间点对其中的数据或表本身进行提炼。例如,这样的提炼可以包括根据数据来创建临床知识。可以首先通过探索性数据挖掘以及随后通过确认数据挖掘来调查数据。STDMn 0框架的表结构可以是有关的数据库。然而,有技术的读者将认识到,可以在本发明中使用其他表结构、或数据存储配置和器件。此外,本发明中所使用的表结构或数据存储配置/器件可以是实时的或几乎实时的,如实时数据库结构。与现有技术相比,包括实时能力的数据结构和存储配置/器件可以提供本发明的临床优点,因为数据可以立刻可用于被专家来处理、访问或其他使用。这可以使得专家能够掌握用于立刻访问的信息,并且因此数据及其结果可以立刻可用于其中需要这样的数据的具体的场景或情况,例如,用于这样的数据的用于产生临床判断的应用,该临床判断可以是健康诊断或治疗判断。有技术的读者将认识到,与现有技术相比可以在本发明中在很多使用领域通过实时数据表结构或数据存储配置/器件取得优点。
在本发明的实施方式中,在时域代理中,在StaticEntity与EventDatabase之间可以出现与EntityStream数据库的交互。例如,这样的交互可以当在静态实体和事件数据库中创建依时抽取时出现。可以基于依时抽取来进行研究,这样的研究可以帮助取得和影响所创建的时域规则。STDMn+p 0框架的时域代理可以可操作以进行如下方法:该方法可以使得患者特征框架能够包括用于对多个患者的多个参数实施依时抽取(TA)以实现患者特征多维时域数据的挖掘的方法。以这种方式,与现有技术相比,本发明可以提供优点,现有技术通常不能够执行这样的方法,并且因此通常不能够对多个患者的多个参数应用依时抽取以实现患者特征多维时域数据的挖掘。
在本发明的实施方式中,时域代理可以被设计成创建新的时域编码的数据流。例如,时域代理可以被设计成通过抽取表示定义流的不规则的行为或趋势来创建新的时域编码的数据流。行为或趋势的抽取可以以时间标记的间隔出现,或者在水平平移如低/标准/高时出现。不规则的示例可以是ECG生理数据流。所有阈值可以取决于数据流采集的源。例如,如果针对特定未成年人生成数据流,则阈值可以取决于未成年人的性别和孕龄。
例如,如果不规则为ECG生理数据流,则来自ECG流的每个读取或数据点有被包括在若干抽取中的可能性。例如,在心率“增加”但是仍然在被认为是“标准”极限的极限内时,已经采集了这个数据点。复杂抽取可以包括对多个流执行的抽取参数进行比较。可以将所执行的每个抽取以表的形式保存在时域数据库中。
可以针对多个数据类型生成表,例如,如依时抽取、新的属性和时域规则。表可以用各种方式互连或链接。例如,时域规则表可以包括新的属性,或者新的属性与时域规则表之间可以存在链接。
在相关代理内,时域数据库与相关时域之间可以出现交互。例如,这样的交互可以由感兴趣的调查研究来驱动。在相关代理内,对依时抽取执行的研究可以基于来自各个患者的临床信息,如性别和孕龄。有技术的读者应当认识到,在可能出现在本发明的框架内的表与数据之间可能存在多个交互,并且这样的交互可以基于不同的因素或考虑。这些因素或考虑可以与本发明所使用的数据和数据流的类型有关。因此,与本发明所呈现的数据流有关的NICU监测的示例仅为本发明可以使用的数据流的一个示例,因此,与这样的NICU数据流有关的可能的因素或考虑仅是本发明可以包括的可能的因素或考虑的一个示例。其他数据流、或其他数据领域如商业数据、重新创建的数据、或本发明可以使用的任何其他类型的数据可以产生要合并在本发明中的其他因素或考虑。
作为链接数据的另一示例,在本发明的实施方式中,可以创建TA_RelativeTime表,并且这个表可以包括与新的属性的链接。
本发明的框架可以被构造成产生分析NICU中的婴儿的当前状况以利用患者特征框架创建的假设的实时事件流处理器。
在功能代理内,还可以处理在相关代理中创建的重新对准的依时抽取。功能代理可以使得扩展的CRISP-TDM建模任务出现。这样的建模任务可以包括以下步骤中的任一个或全部:通过探索性数据挖掘来进行规则库生成;选择重要的规则库;用公式表示虚假设;以及在确认数据挖掘期间运行统计处理以测试虚假设。本发明通常可以包括数据理解阶段并且定义了TA抽取,其可以通过由性别和孕龄的另外扩展算法内的患者中心属性来执行。
本发明的可能的结果可以是用于基于回顾性临床数据来早期预测疾病的新的性别和孕龄定义的临床算法。这样的回顾性临床数据可以在处理代理内采集并且存储在静态实体和事件数据库中。规则生成代理可以使用功能代理中形成的临床算法来提供对实时患者数据流的患者背景特定的智能监测和报警。共同挖掘可以包括数据挖掘结果与商业知识。本发明还可以包括可以用临床医生定义的规则的形式接收的另外的输入。
有技术的读者将认识到,STDMn+p 0数据存储可以用多种方式来构造。例如,STDMn+p 0数据存储可以包括交互表260,其可操作以实现有效数据存储,如图26所示。有技术的读者将认识到,本发明可以包括其他数据存储器件和结构。
本发明可以可操作以接受至其所包括的数据存储器件和结构的扩展。例如,本文中详细讨论了对来自STDMn 0框架的PatientPhysiological-x、TemporalAbstraction-x、TA_Rule-x和TA_RelativeTime-x表的扩展,其可以在其各自的对应代理中来实现。
STDMn+p 0框架数据采集和流动可以根据各种类型和方式。一个这样的数据采集和流动的示例如图27所示,其中,数据从一个或多个患者270流动到链接至静态实体和事件数据数据存储器件274的实体流数据采集器件272。
总之,本发明可以包括STDMn+p 0框架数据采集和流动,其中在处理代理内,可以在实体流数据库内采集多个生理数据流。实体流数据库可以通过使用链接患者属性如性别和孕龄链接至静态实体和事件数据库。这可以提供支持实体代理的构造的格式,其中依时抽取查询可以在已经定义了感兴趣的调查研究时运行。这个定义的构造的格式又可以在感兴趣的点相对于定义的研究来重新对准相关代理内的这些抽取。在工作流排序方面,可以通过功能代理中定义的技术来处理数据。例如,可以使用功能代理中形成的临床算法通过数据挖掘系统来馈送数据。在这个处理表示感兴趣的情况的可能性的早期出现的事件中,智能患者监测系统可以表示这个知识以及被评估的结果。接着,可以对生理数据的模式检测的获取知识进行编码。例如,可以对生理数据进行编码以满足HL7和SNOMED-CT标准。编码数据可以存储在例如作为临床数据库内可接受的黄金标准的一部分的存储中。有技术的读者应当认识到,本发明可以满足各种标准,并且这些标准可以根据本发明的应用和本发明中所包括的数据流的类型来变化。
本发明的一种实施方式可以是对STDMn 0框架的患者特征多维配置,以使得能够实现STDMn+p 0框架创建的子分类。可以将一个或多个CRISP-DM模型或CRISP-TDM合并到这个框架中,并且同时可以使用更多的患者中心的方法。
有技术的读者将认识到,本发明可以具有各种实施方式和应用。在健康护理领域,出于为了在这个领域使用而研究临床相关算法的目的,并且具体地在健康护理研究领域,存在受待分析为“次要用途”数据的数据的可用性的缺乏而限制的固有限制(Clarke,2003)。随着电子护理领域的发展,需要涉及数据挖掘软件研发者使用用于产生很好地设计的分析工具来从事实时生理数据流的知识研究。随着对护理领域的兴趣的增加,并且随着与接收赞成使用用于健康数据的次要分析的数据有关的事件的解决,需要降低对于数据挖掘对象的成本和效果障碍。如本文中所描述的Arternis工程的采用所证明的,STDMn 0框架可以提供可操作以从采集捕获各个方面以实时地应用规则的架构,该规则包括新采用的规则。
在本发明的实施方式中,新定义的患者特征规则可以存储在单个物理数据库、或者其他存储器件中。然而,随着这些寻找变得更加清晰和被采用作为临床规则,多中心研究和多中心实现可以出现并且本发明可以应用分布式功能选项以满足这样的实现。
与现有技术相比,本发明扩展至比如健康护理的数据挖掘的增长的需求等领域的能力是本发明的另一优点。本发明提供了探索性数据挖掘以进一步提炼和定义患者特征规则,并且这帮助实现对受监测的未成年人的改进的照顾。
本发明不仅可以可操作以研究从医疗设备采集的数据,还能够增强其在服务于存储采集数据以帮助改善提供更好的患者护理的目的方面的用途。每个人天生具有遗传差异。这样的遗传差异使得每个患者从受精到连续的整个生命具有不同的特征。在考虑患者时,例如,如III度早产儿患者,有用的是在聚合的数据中包括各个特征,其可以用作患者诊断和治疗判决的基础。例如,在考虑研究可以被临床判决支持系统或CDS采用的临床规则时,属性数据的包括可以帮助创建朝着个性化的健康护理的移动。
本发明的STDMn+p 0框架可以实现多维数据挖掘以检测数据对象特征的模式。例如,在NICU背景下,本发明可以检测患者特征预测温度。STDMn+p 0框架可以提供如下结构:其可应用于待捕获和分析的研究患者定向的趋势以及查找被提取并嵌入至被设计成帮助认识预测趋势的算法中。例如,比如在如医院感染(“NI”)等早期情况开始时可识别的预测趋势。
本发明可以具有各种实施方式和应用。本文中提供了本发明的实施方式的一些具体的示例,以阐述本发明的可能的方面和应用。这些示例仅被提供作为本发明的可能的实施方式,并且有技术的读者将认识到,本发明的范围可以包括本发明的其他实施方式。
示例
1.STDM n 0 示例:重症监护
本发明可以实现为用于确定与诊断有关的模式以及可选地预测另外的诊断的临床监测和数据挖掘环境。用于使得临床医生能够执行这些方法的解决方案管理服务80可以包括在本发明中,如图8所示。在重症监护背景下,可以使用临床数据和生理数据连同时域规则来创建原始生理数据流的时域数据概述流。生理数据流可以通过临床数据来补充。这些概要流可以表示基于多个原始流的互相关的概要。
在对于感兴趣的点t0有关的时序的时间戳进行编码的数据准备步骤,在灵活的多维环境下,用户可以容易地生成各个基于研究的相关时域数据表。例如,t0可以指代基于以下时间的一组新生儿患者的新生儿患者流的对准:针对每个患者诊断某个疾病,从而使得能够对准闭联集t-1、t-2、……、t-n内的在先的流行为,其中n为给定研究的感兴趣的时间的回溯距离。
针对患者、事件、生理和时域数据表,环境的用户可以创建表示一系列功能的相关规则和/或准则。
处理代理
处理代理的角色是从传感器获取并且准备流数据连同静态数据,以分别存储在流数据表和静态数据表中。在重症监护的背景下,可以通过临床信息系统来提供静态数据,例如,出生日期或出生时的孕龄,流数据可以从医疗传感器设备来获取,例如,ECG信号,或者随着时间重复地手动采集,例如,随着时间重复地手动取得的温度读数。
静态数据可以经由静态数据网络服务来提供,其在重症监护的背景下可以是经由HL7消息格式,例如,可以经由流数据网络服务来提供流数据。
时域代理
时域代理的角色是,与被编码的数据流相比,通过抽取时间间隔、在抽取时间间隔期间表示流的趋势和/或行为,以较低的频率创建新的时域编码的流。例如,基于时域规则表中所包含的驱动依时抽取的时域规则,每个数据流被依时抽取成合适的抽取,如趋势(增加、减少)和水平平移(高、低)。每个原始数据片可以属于若干抽取。例如,具体的测量可以是“增加”抽取的一部分,同时在“标准”极限范围内。也可以对多个抽取参数进行复杂抽取。每个抽取流存储在时域数据表中。
相关、功能和规则生成代理可以一起运行,作为从研究1至研究n的任何给定研究的集合。还可以使用具体研究所需的新的时域规则来运行时域代理。以下经由示例研究示出了这个原理。
(a)临床研究示例1:ECG稳定性
临床研究者可以确定例如ECG稳定性是否在过去的24小时内通过平均血压的下降至小于妊娠等同年龄(例如,35周孕龄的婴儿35mm Hg)持续超过20秒同时外围血氧浓度小于85%持续超过20秒。
在这个示例中,生理数据流包括ECG、血压和外围血氧浓度。
首先,ECG、血压和外围血氧浓度的生理数据流通过处理代理经由流数据采集网络服务被加载到流数据表中。相似地有关的临床数据经由静态数据采集网络服务被加载到静态数据表中。
通过使用时域代理,可以创建依时抽取以创建时域编码的流以基于访问每个患者的ECG流来检测ECG稳定性。类似地,可以创建时域规则,以基于患者的平均孕龄来确定平均血压什么时候低于阈值持续超过20秒。可以创建时域规则以确定外围血氧浓度什么时候小于85%持续超过20秒。可以创建复杂规则,其表示它们交叠的情况。可以使用依时抽取网络服务来创建这些规则。
相关代理选择被检测到具有ECG稳定性的患者,并且对于这个示例,可以使用ECG稳定性的第一出现来确定感兴趣的时间点。图9将这个感兴趣的时间点示出为诊断的周期点。可能已经出现复杂依时抽取的示例被示出为随着继续进行诊断的流的矩形框。如从图9的绝对时间表示可见,对于每个患者,感兴趣的复杂抽取和诊断的实际时间点出现在不同的实际时间点处。
对于每个所选择的患者,ECG稳定性的时间用于基于感兴趣的时间将所有感兴趣的三个流的实际时间重新设置为相关时间从而变成t0,如图9的相关时间部分所示。图9的示例示出了来自这个学习的感兴趣的诊断点的复杂抽取的事件的类似相关距离。
通过基于感兴趣的点在时域上抽取的并且对准的所准备的数据,可以开始两步骤的数据挖掘。这个两步骤处理支持初始规则生成(探索性数据挖掘),然后,通过确认数据挖掘来测试虚假设。
在这个示例中,假设已经提出了ECG的行为与平均血压和外围血氧浓度的前述行为之间的怀疑的关联性。因此,可以基于已经提出的内容来立刻定义规则库。然而,可以改变研究以对其他数据流执行探索性数据挖掘以查看在导致执行探索性数据挖掘的必要性的ECG稳定性之前是否存在具有很高的出现相关性的其他依时抽取。
出于这个示例的目的,可以对假设进行编码,使得能够使用关联系数。因此,可以使用以下形式的相关系数符号来表示这个假设:
H1:ρ(X,Y)>0.8
其中:X表示ECG不稳定性;以及
Y表示持续20秒的ABPmean<孕龄;以及同样持续20秒的
SaO2<85%。
有效虚假设表示为:
H0:ρ(X,Y)=0.8
真虚假设表示为:
H0:ρ(X,Y)<0.8
在确认数据挖掘阶段期间,确定SaO2下降和在先ABPmean的ECG不稳定性之间的相关性。
如果不能接受H0,则可以接受并且创建以上用H1表示的规则,作为规则库表内的规则。例如,规则可以是基于ABPmean和SaO2下降两个简单的阈值分支的相关性的复杂抽取,具有对于ECG稳定性的可能的报警作为规则动作。规则管理网络服务可以独立于规则生成处理来增加、改变或删除。规则可以存在,作为产生、测试或形成规则。
(b)临床研究示例2:平均血压
对于由于早产而超出常规、不在诊断治疗之下的婴儿,临床研究者可以确定例如平均血压与等效孕龄(例如,35周妊娠婴儿35mmHg)之间是否存在关联性。
在这个示例中,生理数据流包括血压。
现有时域规则可以用于基于患者的等效孕龄来确定平均血压什么时候下降到阈值以下持续超过20秒。
相关代理可以选择满足由于其第35周等效孕周期间的早产而超出常规、没有处于诊断治疗之下的标准的患者。对于每个所选患者,等效孕龄的第35周的开始时间可以用于将感兴趣的流内的实际时间重置为的基于感兴趣的时间变成t0并且向前移动7天的相关时间。
在这个示例中,假设已经提出了平均血压的行为与等效孕龄之间的可疑的相关性。因此,作为结果,可以基于已经提出的内容来立刻定义规则。
如在先示例中,可以在确定数据挖掘阶段期间来测试虚假设。
(c)临床研究示例3:ECG不稳定性II
临床研究者可以通过出现持续1分钟或者更久的生理流内的公共行为来确定例如是否预测ECG不稳定性在过去的24小时内。
在这个示例中,生理数据流包括ECG和其他生理流。
可以使用在先创建的用于基于访问每个患者的ECG流来检测ECG稳定性的依时抽取规则。这个研究中包括对流而非ECG的所有时域流编码。
相关代理可以选择已经被检测为具有ECG稳定性的患者,并且对于这个示例,使用ECG稳定性的第一出现来确定感兴趣的时间点。对于每个所选患者,可以使用ECG稳定性的时间来将所有感兴趣的流内的实际时间重置为基于感兴趣的时间变为t0的相关时间。
通过基于感兴趣的点的依时抽取的并且对准的所准备的数据,可以开始两步骤数据挖掘。这两步骤处理支持初始规则生成,并且接着通过确认数据挖掘来测试虚假设。
在这个示例中,还没有提出假设,并且因此完成了ECG的行为与所提供的其他流的在先行为之间的可疑相关性的一组患者的训练的探索性数据挖掘阶段。
如果检测训练集合的相关性,则可以将该相关性变换成虚假设,并且进一步测试数据集以确定相关因子。
如果成功,则可以接受用H1表示的规则,并且将其创建为规则库数据表内的规则。
I.SDTDM n 0 示例
本发明的SDTDMn 0框架可以用于支持新生儿重症监护方面的临床研究。例如,通过Dr.Andrew James领导的多伦多的病童医院(Hospital of Sick Children)、Dr.James Padbury领导的罗德岛州的妇婴医院(WIHRI)以及Dr.Carolyn McGregor领导的奥沙瓦的安大略理工大学的健康信息研究小组之间的有效协作,NICU内的当前临床调查研究活动已经用于证明框架的用于提供临床研究活动的分析支持的操作性。UOIT进行的研究是两个站点处的伦理上证明的临床研究的一部分,作为Artemis工程的一部分。Artemis是用于实时制定临床知识的平台,因为其与多位数据分析和临床研究有关。Artemis框架是用于临床知识的实时分析的平台,因为其与多维数据分析和临床研究有关。
越来越多的证据证明,在某些疾病的诊断之前,生理流行为可能出现变化。使用从三个分布式站点采集的生理流数据,UOIT的健康信息学研究组专注于对最近的开始新生儿脓血症和无呼吸事件的早期检测的研究。在这个研究中,采集大量参数,如:1)每小时时间窗内的心率减速的抽取;2)持续超过20秒的小于85%的外围血氧饱和度的下降;3)持续超过15秒的35孕周的新生儿的呼吸的下降;以及4)每小时分段内的低的心率和呼吸率变化。
本发明的这个示例的数据采集出现在三个主要分布式站点处。这个第一站点位于安大略省多伦多的病童医院。从飞利浦IntelliVueMP70新生儿监视器,以每1024毫秒读取的速率,根据这个位置生成多个生理数据流。在被采集作为临床实践的一部分时,包括心电图取得的心率(ECG-HR)、经皮血氧饱和度(SpO2)和呼吸率(RR)的恒定采集的这些流也是可用的,其为病童医院处的NICU内的所有患者的标准临床实践。在被采集作为临床实践的一部分时,心脏舒张、心脏收缩和平均血压(DBP、SBP和MBP)也是可用的。当前,使用三个流作为对最近的开始新生儿脓血症的早期检测的研究的一部分。在已经采集了115726985读取附近,本发明已经访问组合数据集。完整的Artemis部署出现在两个位置,即,病童医院和UOIT健康信息研究(HIR)图书馆,并且当前支持八个同时患者。以下三个部件被定位在病童医院:(i)第一个负责从医疗数据集线器进行数据获取;(ii)第二个用于使用来自IBM的InfoSphereStreams Runtime的在线分析;以及(iii)第三个用于使用数据集成管理器来进行流或数据持续性。
出现数据持续性以支持在线分析和知识提取。对位于UOIT处并且由UOIT处的知识提取部件用于知识发现的持续性存储镜像每天进行数据的渐增备份。在这个步骤之后出现重新部署,其中,新的规则被翻译成作为对平行分布式数据流图像进行灵活组合的中间语言的流处理语言(SPL)。SPL使得能够在在线分析中实现可能的进一步的部署,以实时地监测另外的患者。
第二站点位于美国罗德岛的妇婴医院(WIHRI)。这个站点使用SpaceLabs Ultraview SL患者监测器来采集从SpO2传感器取得的HR、RR、SpO2、脉搏率以及其中采集的连续DBP、SBP和MBP。来自这个站点的数据的频率为每分钟获取的并且以其原始形式存储在UOIT处的现场读数的形式。为了使得能够从WIHRI采集数据,建立了基于云的环境,其中数据以被格式化成数据包的HL7的形式经由源通道传输至UOIT。在这个环境下,两个站点都存在数据获取的部件,并且,所有其余Artemis部件位于UOIT而非医院。当前,来自WIHRI的数据量大约为3654615个记录。
第三站点位于UOIT并且包括超过两年的时间所采集的来自病童医院的回顾性数据的30个第二现场读数。这个站点的主要目的是,支持研究多个临床诊断的早期检测,如新生儿脓血症和窒息。因此,其仅包含数据持续性、知识提取和重新部署部件。
从三个NICU站点采集的多维分布式数据带来了可以防止现有技术系统的不同站点之间的数据的标准化的内在挑战。本发明的主要挑战在于不同位置之间存在的数据频率的不同。如早先所指出的,每个站点生成不同的数据,其产生了数据流之间的连贯性的缺乏。例如:(i)病童医院以每1024毫秒一个读数的速率提供数据;(ii)WIHRI提供每分钟获取的现场读数的形式的数据;以及(iii)UOIT——包括30秒现场读数的回顾性数据。
数据的标准化可以是在考虑数据采集的变化的频率时的第一解决方案。然而,不可以对数据进行标准化,因为取决于需要执行的分析的类型而需要不同的频率。例如,可以以每30秒获取现场读数来执行原始心率和呼吸率的趋势分析依时抽取,然而,这个技术不可以应用于分析窒息,因为窒息事件可能出现在两个连续的30秒现场读数之间,因此,例如,可能丢失小于30秒的血氧饱和度的瞬间下降。因此,本发明需要基于相似性以及频率来对抽取进行分类,以有效地在分布式环境下运行抽取。
Artemis的知识提取部件实现了STDMn 0框架。为了对数据执行依时抽取,其首先从其原始格式来处理数据。处理代理的角色是发起从支持在线分析的外部数据存储采集存储的生理和临床数据或者经由Artemis外部的一些其他器件采集的数据。STDMn 0是在Artemis的知识提取部件中使用的技术。在前两个分布式站点内,如本文中详述的,处理代理执行将来自在线分析数据持续性部件的数据复制到知识提取数据持续性部件中。一旦已经从外部采集阶段传递了数据,则处理代理根据需要将数据变换成所需格式,接着,数据被构造并且存储在知识提取部件可访问的临床数据和生理数据表中。在完成这个阶段之后,时域代理开始处理数据以创建依时抽取。
一旦处理代理构造数据并且将数据存储在本地数据存储中,则时域代理使用时域规则表中定义的规则来处理数据。依时抽取是使用时域规则和已经从监测设备采集的生理数据来创建的。
在这个示例中,时域代理具有六个功能:(i)其从生理数据存储取得生理数据以获取每个患者的每个参数;(ii)其从时域规则表获取相关抽取规则;(iii)其将这些规则应用于生理数据,以创建各个患者的各个数据流的简单抽取;(iv)将创建的抽取存储在STDMn 0时域数据存储中;(v)基于在时域规则表中找到的任何规则,根据简单抽取来创建复杂抽取;以及(vi)将创建的任何复杂抽取存储在STDMn 0时域数据存储中。
每个患者的数据可以包括多个时间戳数据流。首先将时间戳生理读数分别抽取成简单依时抽取,稍后将其用于创建复杂抽取。普通抽取可以进行水平平移,即,增加、减小、或从点x或趋势的稳定性,即,对着设定周期变化。由于某个患者的时间戳生理读数可以是大龄简单抽取的一部分,因此,其在计算上有效地用于对一个数据集执行这两种类型的抽取。
为了进一步详细描述,本文中依赖于如下抽取的示例:其在非分布式设置中按小时对呼吸率(RR)值执行。为了分析患者数据,使用RR值下降到具体阈值以下时的查找目标来进行。RR值为阈值为10的值。创建的抽取存储在精简并且添加背景至数据的依时抽取表中。
一旦时域代理根据生理数据创建了抽取,则通常将这个数据用在各种临床调查研究中。一旦创建了抽取,则将抽取本地存储在STDMn 0数据存储中,直到需要将其用于具体的研究。在准备研究时,通常需要使得抽取的时间相对于具体的感兴趣的时间点重新对准。规定了具体研究的具体的抽取对准的相关规则表保存与可能需要应用于存储在依时抽取表中的抽取的任何相关规则有关的信息。
相关代理通过计算每个抽取相对于具体的事件的开始时间和结束时间来使得抽取的时间相对于具体的感兴趣的时间点重新对准。如果调查研究的目的是查找可以表示某个疾病的开始的新的趋势和模式,则使得每个患者的抽取时间相对于这种情况下患者被诊断的时间重新对准很重要。接着,将已经相对对准的抽取存储在相关时域数据存储中,用于进一步处理。不同的调查研究通常还可以使用相同的依时抽取,相同的依时抽取可以产生要应用于相同数据的不同的重新对准技术。这也是每个重新对准的依时抽取存储在特定于使用其的研究的相关时域数据表中的原因。
例如,相关依时抽取表的结构可以可操作以分析患者数据,使得可以考虑将60分钟周期用于目标为查找HR值什么时候下降至具体阈值以下的抽取,这个具体阈值在这种情况下为100。
为了解释,相关依时抽取处理还考虑心率变化(HRV)的示例。一旦已经经由TA_Rule表部署了TA,则创建HRV的按小时的概述并且将其存储在TA表中。在这种情况下,TA感兴趣的事件为HR值在设定周期内下降至100以下。
为了使得能够在感兴趣的事件之前的具体时间检测这个抽取的具体的模式,需要使得抽取相对于感兴趣的事件的时间重新对准。感兴趣的周期可以由时域代理来抽取,并且本地存储在每个站点处。相关代理的角色是使得已经在先通过感兴趣的事件创建的TA的时间重新对准,从而给定相关TA以相对于诊断点的开始时间和结束时间。这使得能够比较并且挖掘抽取,以识别可以表示正在研究的疾病的开始的具体的行为。
重新对准的依时抽取形成了用于由功能代理来处理的解释和确认数据挖掘的基础。功能代理执行用于使得能够检测研究的感兴趣的趋势和模式的数据挖掘任务。探索性数据挖掘用于分析多个患者的多个数据流的重新对准的依时抽取,以检测可能在感兴趣的事件之前或之后存在于数据中的新的趋势和模式。必须基于诊断时间来使得根据作为研究的一部分的每个患者的生理数据创建的依时抽取重新对准,因为这使得能够研究和比较所有患者的抽取,而不管抽取的实际时间或诊断的实际时间。
一旦发现了可能的趋势和模式,则需要临床医生来对其进行评估,以使得能够创建假设。这还使得能够基于探索性数据挖掘实践的结果来选择重要的规则。确认数据挖掘的下一阶段以用公式表示源自感兴趣的另外的调查的任何结果的虚假设来开始。
规则生成代理使用功能代理给出的查找结果来使得能够创建可以在实时规则数据库中定义的规则。
规则生成代理可以使用经由探索性数据挖掘阶段创建的假设来创建可以由事件流处理器来存储并且使用的规则,这使得能够对实时数据流应用抽取,这又可以帮助在有效分析系统中建立这些规则,以帮助临床医生实时地分析数据。
STDMn 0框架的限制之一为仅一个时域规则表的意向,其没有提出数据分布的区域并且缺乏可以支持多中心研究的结构。另一限制为缺乏对不同站点的依时抽取如何保持恒定的清楚说明。在这个章节,呈现了分布式时域规则环境的论证,其强调了管理多个时域规则表180a、180b、180c,如图18所示。这使得多个分布式站点的依时抽取能够恒定。
如所讨论的,存在可能需要运行依时抽取的三个不同的多维分布式站点。由于当前健康护理政策和改进的患者保密考虑,要求某些类型的数据本地存在于每个站点处。然而,时域规则不包含患者识别信息,因此可以被分散以使得能够实现一致性、对于安全的更好的控制以及更好的可访问性。在多维分布式环境下,存在四个用于使得能够分布其中一些数据的主要步骤:(i)时域规则存在于中央集线器处,即,这个场景下的UOIT处。当需要运行TA时,同时针对参与站点部署关联的规则。针对每个站点部署的TA规则还包含SQL查询,SQL查询需要运行以执行每个站点处的抽取,这由TA_Rule表来支持;(ii)一旦已经部署了时域规则,则其可以在三个站点中的每个站点处本地运行;(iii)SITE_ID标签也附接至在这些站点处运行的每个抽取,以使得能够在需要时比较多个站点的结果;以及(iv)依时抽取的规则本地存储在每个站点(DM_ARTEMIS_TA)处。在可用的情况下,这些结果也可以在DM_ARTEMIS_TA数据表下移回中央UOIT存储。
本发明还包括存在于每个本地多维分布式站点处的分布式依时抽取表。在这个表中,所示数据包含表示属于病童医院的数据的SK的SITE_ID标签。可以采用相似的结构用于用其唯一SITE_ID标识的每个分布式站点,即,WIHRI被标识为WI,SickKidsRetrospective数据被标识为SK30。
对于多维分布式站点,与数据的处理及其保密性有关的政策可能不同;因此可以有用的是,支持分布式设置的数据。通过掌控数据必须位于什么地方以及如何与其交互的调整规则,可以管理敏感患者数据属性,同时改善健康医护设施处的患者结果。
相关代理可以使得抽取的时间相对于感兴趣的具体的时间点重新对准。取决于所进行的的研究,如有需要研究导致诊断的时间的某些参数的行为,则有必要使得依时抽取相对于具体的时间点重新对准。规定了具体研究的抽取的具体对准的相关规则表保存与可能需要应用于存储在依时抽取表中的抽取的任何相关规则有关的信息。
如图19所示,本发明可以包括支持相关规则的分布的结构,例如,如通过网络或云环境190实现的多个相关规则表的分布。如早先所讨论的,STDMn 0框架表示不适合多中心研究的仅一个相关规则表的概念。进行以下三个步骤方法以使得能够分布相关规则:(i)从中央数据存储(UOIT处)来部署每个研究的相关规则。单个研究表对于每个参与的设备存在并且被分配以唯一的StudyID;(ii)一旦部署,则可以本地访问在每个站点处创建的依时抽取表,以执行具体的研究所需的相对对准;以及(iii)重新对准的依时抽取存储在特定于研究和站点的相关时域数据表中。每个站点用唯一的StudyID和SITE_ID来标识。在可用的情况下,这些结果也可以传回DM_ARTEMIS_RA数据表下的中央UOIT存储。
分布式相关依时抽取表可以包括包含表示属于妇婴医院的数据的WI的SITE_ID标签的数据。在这个表中也包含相应的TARuleID和唯一的STUDY_ID属性。对于用其唯一的SITE-ID标识即被标识为SK的SickKid以及被标识为SK30的SickKids Restrospective数据的每个分布式站点,采用相似的结构。
由相关代理创建的重新对准的依时抽取还可以由功能代理来处理。在STDMn 0框架中,功能代理负责用于使得能够检测具体研究的感兴趣的趋势和模式的数据挖掘任务。如果具体的研究探究某个时间段内新生儿的生理数据展现的公共模式或趋势导致具体疾病的诊断的可能性,则必须基于诊断时间来使得作为研究的一部分的针对每个患者创建的依时抽取重新对准。这使得能够比较所有患者的所有抽取,而不管抽取和诊断的实际时间。
功能代理使用探索性数据挖掘来检测多个参数中的新的趋势和模式。接着,由临床医生或研究者对这些趋势和模式进行评估以创建假设。一旦根据探索性数据挖掘的结果创建了假设,则可以使用确认数据挖掘技术来建立和测试虚假设。
规则生成代理202将由功能代理204创建的假设处理成可以存储在规则库206中的合适的规则。所生成的规则还可以在实时监测系统200中用于帮助临床医生例如比如早期检测感兴趣的事件,以更好地诊断和治疗,如图20所示。
II.STDM n+p 0 示例
新生儿窒息发作的临床调查研究示例示出了包括STDMn+p 0框架的本发明的实施方式的应用的示例。这个应用产生了包括性别和年龄的多维模型,以定义与针对窒息发作的检测设定的阈值有关的这些属性的患者特征阈值,以及从而帮助支持NICU背景下的临床研究。
研究的目的在于支持分析新生儿窒息事件。窒息发作与很多情况有关,包括新生儿脓血症。在这个研究说明内,将以下规则用于窒息发作:“超过15秒的新生儿呼吸暂停属于临床相关(呼吸率(RR)<25)。在所有新生儿年龄段,超过20秒的小于85%的外围血氧浓度的下降合并小于108bpm的HR(男性100bpm)也属于临床相关”。(1998年4月的Hein,Ely和Lofgren)(2010年的CatleyC.,Smith,McGregor,James和Eklund)。现今,如章节3所述,HR<100为所应用的阈值参数(2006年的American Heart Association)。
性别在定义HR区别方面扮演重要角色的最近的文献状态:新生男性未成年人与新生女性相比具有较低的基线HR(2000年的Nagy和Orvos)(2010年的Krueger,van Oostrom和Shuster)。这些结果建议贯穿整个生命呈现的公知的与性别有关的HR区别也存在于生命的最开始,并且应当在调查影响新生儿健康和发育的条件的生理记录时加以考虑(2000年的Nagy和Orvos)。这两个患者标识符(2008年的Stravroudis,Miller和Lehmann),这个研究提出了包括孕龄和性别以改进新生儿诊断、治疗和临床护理的精度。包括性别和孕龄设置了选择窒息情况的动机的阶段以说明扩展的患者特征框架。
这样,这个回顾性研究提出,对于实时地受监测的各个婴儿,如果其基于患者特征如性别和年龄被调整,则生理流行为阈值可能更精确。这一说明的目的是扩展窒息发作研究,以使得能够分析与性别和孕龄关联的窒息发作。具体地,通过说明如何实现扩展的STDMn+p 0框架而在分析生理数据流的时域行为时包括患者特征。
用在这个说明中的数据通过由加拿大首席科学家程序连同IBM First-of-a-Kind进行的研究被采集和存储,实现了加拿大安大略省多伦多的病童医院的Artemis平台。Artemis为用于支持实时临床判决连同回顾性临床研究的框架。Artemis研究工程的目的是提供一种用于实时分析从多个监测器提取的时序的生理数据流以检测可能不利地影响健康的临床上显著的疾病的灵活的平台。Artemis支持从多个物理监测设备采集的以及来自病童NICU’s临床信息管理系统(CIMS)的数据以及来自医院的实验室信息系统的信息。Artemis平台支持摄取和存储来自多个患者的多个实时数据流,同时分析多个情况以进行实时的回顾性分析以及数据挖掘(2010年的Blount,Ebling等人)。
Artemis的第一实现使用飞利浦Intellivue MP70新生儿监视器。这些设备以每1024ms一个读数的速率产生了从每个患者采集的多个生理数据流。这个研究说明可以使用包含这些生理数据流中的三个生理数据流的减少的数据集,具体地:从RR、SpO2和HR取得的心电图(ECG-HR)。
这个章节可以提供对于采集的新生儿原始数据和临床输入如何通过扩展STDMn+p 0框架来运动的深度描述,具体关注支持定义患者特征临床时域规则的处理和时域代理,其中未掩饰窒息的新患者特征趋势和模式。图6-1示出了STDMn+p 0框架。
感兴趣的研究如这个说明中的窒息发作可以确定数据的参数,其又产生所采集的依时抽取。应用于不同流和由这个研究所使用的阈值如下:
35周孕龄的女性新生儿的持续超过15秒的RR<25、持续超过20秒的外围血氧浓度(SpO2)<85%、小于108bpm(女性100bpm)的HR都临床相关。这些阈值应用于各自的流以创建依时抽取,依时抽取接着存储在STDMn+p 0数据存储框架内。
处理代理的角色是发起从多个数据库存储的生理和临床数据的访问、合并和采集。在这个章节内,将详细地描述和说明从NICU获取的来自不同的除去识别的数据存储的数据的映射。处理代理进行的任务出现在图6-2所示的Artemis系统架构的数据获取部件内。
Artemis为SickKids、IBM与UOIT之间的REB推动的协作工程。虽然Artemis框架包含用于数据获取、在线分析、数据(流)持续性、知识提取和部署的部件,然而这个示例中的说明仅关注数据持续性和知识提取部件。将提供关于接着将被传送的所提取的知识的一些细节,部署出现用于实时使用。
在Artemis内,存在数据持续性的两个拷贝:一个用于支持数据持续性的在线分析和增加的复制版本,其每天从在线分析数据持续性拷贝接收新的数据。数据持续性的知识提取拷贝用STDMn+p 0框架的数据管理层来表示。
根据SickKids,数据管理层内存在两个主要的数据库存储部件,其将是这个示例的关注点,为临床信息管理系统(CIMS)和生理数据信息管理(DIM)。这两个数据源都由以上提供的框架中的数据管理层内找到的“静态实体和事件数据”以及“实体流数据”数据库来存储。
CIMS数据库包含所有患者源数据。出于这个研究的目的主要关注的是出生时的人口统计学细节和生理测量值(包括性别和孕龄)。
如以上CIMS定义的表结构中所示出的,Artemis工程接收A_PATIENT表中的除去识别的患者特征信息,其中属性emtek_id已经用属性artemis_id代替以维持工程中涉及的患者的匿名。
登记每个早产儿,并且将临床数据输入表中并且存储在CIMS数据库内。孕龄被分成多个周加上天。
DIM数据库包含经由医疗附接设备如MP70采集的所有涉及的患者的生理数据。Artemis中涉及的每个早产儿具有所采集的多个生理数据测量值。针对所采集的每个数据点,每个生理数据测量值具有至毫秒的时间戳。生理存储的文件包含时间戳、patient_id和命名的生理读数。图6-4对应于患者的physiological_id表。Artemis已经实现了表的水平分割,使得每个生理数据读数在其自身上。
为了使得能够通过性别和孕龄来驱动生理阈值,TA表中可以包括另外的属性,其将在时域代理章节中进一步详述。
以上CIMS结构中的第一“A_PATIENT”表说明了如何从承认的患者的NICU源数据取得信息以及该信息如何与患者的NICU源数据相关。这个示例中主要感兴趣的是初始采集的生理数据,如出生日期、性别和孕龄。
为了数据能够通过处理代理,需要对以下表结构进行映射。映射产生了两个不同的数据库之间的链接,以使得能够容易地耦接数据单元。一旦完成了可变输入数据的所有映射,则处理代理完成了其准备要传送至时域代理的数据的任务。
时域代理使用对来自已经由处理代理放置在数据存储中的患者表的性别和孕龄进行详述的数据。将阈值应用于其各自的流以创建依时抽取,接着将依时抽取存储在STDMn+p 0数据存储框架内。时域代理使用时域规则表中定义的规则而根据从病童医院所使用的MP70新生儿监测设备采集的生理数据来创建依时抽取。
在预定时间内对数据执行TA规则。用于这个说明的示例包括20秒的样本,每1024ms一个读数。用于这个说明的数据具有三个主要的时间戳生理读数流,其已经单独抽取成简单的依时抽取。具体患者的具体的时间戳生理读数可以是若干简单抽取的一部分。以下抽取被设计成说明抽取阈值参数所进行的微调,其明显产生可能导致临床上重要的输出的不同的结果。
已经在临床上接受孕龄作为平均血压的阈值参数,例如:“给定假设新生儿出生5周早产(35周孕龄),小于35mm Hg的平均血压的下降临床上相关”(2009年的Catley,Smith,McGregor和Tracy)。
应用于MBP数据的抽取规则基于孕龄,第一示例可以是35周,因此使用以下阈值:
低=MBP<35,并且标准=MBP>35可以产生如下TA结果:
表6-7 35周孕龄新生儿的TA结果
然而,如果从具有39周孕龄的新生儿获取相同数据,则修改阈值如下:低=MBP<39,并且标准=MBP>39可以产生表6-8中的如下TA结果:
表6-8 39周孕龄新生儿的TA结果
如所说明的,MBP TA结果明显示出了不同的TA结果,其中在定义阈值规则时仅考虑孕龄。这个研究想要通过在生成定义算法的阈值规则时包括性别来进一步说明明显的结果。
这个研究说明了如何通过用于新的知识创建的数据的二次使用来使用由当前Artemis驾驶员所采集的数据。以下三个表包含每1024ms采集的原始生理数据读数的三十秒分段,具体地聚焦于RR、SpO2和HR,其可以在研究的整个期间使用。可以对在每个调查的流的阈值以上和以下的RR、SpO2和HR执行TA。该阈值依赖于性别并且由包含孕龄的患者表的合并来调用,其又持续地修改针对存储在TA_Rule表中的该具体的数据流的规则确定的不同数据流创建的TA。
对RR读数执行抽取,其中读数25处或之上的持续受监测的间隔的RR值被分类为“标准RR”抽取,并且25以下的持续间隔的RR值被分类为“低RR”抽取。如图28所示,可以将表280中的值减少成标准和低抽取。
如这个研究中所呈现的,这个具体抽取的规则可以是:
RR>25
RR<25
对SpO2进行抽取,其中85%处或之上的持续间隔的SpO2值被分类成“标准”抽取,并且85%以下的持续间隔的SpO2值被分类成“低”抽取。如图29所示,抽取的表290示出了针对85%的阈值根据SpO2值创建的抽取。
85%的SpO2阈值用虚线表示。85以及以上的SpO2读数被视为标准,85以下的读数对于新生儿的健康和未来可能是有问题的。如这个研究内所示,使用85作为阈值,这个具体的抽取的角色可以是:
低=SpO2<85
标准=SpO2>85
图29内的前4个读数在标准范围内,其中开始时间在9.011秒处,结束时间在13.107秒处,以创建“标准”抽取。接着的读数在85%阈值以下,因此,可以创建“低”抽取,在14.131秒处开始,并且在38.707秒处结束。
图30所示的表300示出了性别和孕龄对于HR值的重要性,其示出了相对于100的阈值的35周孕龄的男性新生儿的阈值参数(其取决于性别和孕龄,男性以及35周)。
用于抽取35周孕龄的男性新生儿的孕龄参数的HR的规则为:
低=HR<100
标准=HR>100
图30示出了前19个读数不在如下标准范围内和以下:从第一值直到横跨28.467秒的时间处的阈值的值,以产生“低”抽取。之后的读数都在100bpm阈值以下,因此可以创建“低”抽取,在28.467秒的时间处开始,并且在38.707秒处结束。
在与从可以应用于35周孕龄的女性新生儿阈值获取的那些相比时,这些结果明显不同,如图31所示。
用于抽取35周孕龄参数的女性新生儿的HR的规则为:
低=HR<108
标准=HR>108
如图31所示,前11个读数不在如下标准范围内和以下:从第一值直到横跨19.251秒的时间处的阈值的值,以创建“低”抽取。随后的读数全部在108bpm阈值以下,因此可以创建“低”抽取,从20.275秒的时间处开始,并且在38.707秒处结束。
针对这个研究的正在进行的临床调查和患者研究,在三个数据流上示出了依时抽取。针对由依时抽取规则确定的不同的数据流创建TA。
CRISP-TDM算法为用于创建复杂抽取的不同数据流的混合抽取。可以根据简单抽取来创建复杂抽取,如以上针对RR、SpO2和HR读数创建的抽取。例如,可以当所有受监测的流在其相应阈值之下时规定复杂抽取。对于这个示例必须保持为真的规则为RR>15秒并且SpO2<85以及HR<108,仅表示具体的复杂抽取感兴趣的这两个条件的间隔。
在可以用于复杂抽取的监测数据的这个简单分段内存在一个时间间隔,其中所有三个参数同时具有低抽取。这些复杂抽取存储在数据存储中用于参考目的。
时域代理中的根据生理数据创建的每个抽取可以是很多不同临床调查研究的一部分。简单抽取和复杂抽取二者都被存储,直到未来研究需要。STDMn+p 0框架中的相关代理不开始,直到具体的研究完成。一旦发现了研究中的感兴趣的时间点,则有利的是,使得时间抽取相对于具体的时间重新对准。这个研究的目的是寻找可以表示患者预诊断的生理参数中的情况的开始的新的趋势和模式,因此,CRISP-TDM框架的下一阶段是使得抽取的时间相对于具体的感兴趣的时间点重新对准。与具有相同诊断的多个患者相比,多个生理数据流之间,感兴趣的点是患者被诊断有疾病时的时间。
为了使得能够检测这些抽取的具体的模式,在诊断之前的具体的时间处,需要使得抽取相对于诊断时间重新对准。因为这些抽取使用每个抽取的绝对开始时间和结束时间,所以通常需要给出相对于具体的感兴趣的事件(如诊断时间)的这些抽取开始时间和结束时间。这使得能够比较和挖掘抽取,以使得能够考虑距离诊断时间或其他事件的时间。
寻找具有具体疾病的患者的时域生理数据的交叉相关变化的临床研究者对这个时域数据的变化感兴趣,其可以能够表示这个疾病的开始。他们需要能够识别出现在多个患者的诊断之前的类似的时间处的数据的相似的模式或变化。使用抽取的绝对开始时间和结束时间绝对不给出与诊断有关的这个抽取什么时候进行的表示。
来自患者的SpO2生理数据流的抽取可以包括每个抽取的开始时间和结束时间,其为使用的监测设备记录的绝对时间。例如,第一抽取可以具有20090807 11:04:09.011的开始时间和2009080711:04:13.107的结束时间。出于这个研究的目的,如果在所记录的第一抽取的开始时间之后一个小时对患者进行诊断,则这个抽取的相对开始时间可以是00000000_01:00:00.000,精确地说,诊断之前一小时。相对时间是通过计算实际时间与诊断时间之差来创建的。感兴趣的数据中的趋势和模式在诊断之前出现,因此不应当使得诊断或事件之后的数据重新对准。表6-17包含用于这个具体事例的相对对准的依时抽取。
表6-17 相对对准的依时抽取
这些患者特征生理数据参数将存储于在时域和相关时域数据库中找到的表内。虽然出于这个说明的目的属性为静态,然而这是一个在其被连续采集时连续地部署给所有数据的迭代过程。
功能代理为执行框架数据挖掘任务的代理。这是如下情况:其中,使用探索性数据挖掘来检测多个参数中的新的趋势和模式以创建可以通过确认数据挖掘而经由虚假设测试来测试的假设。这在如下研究中说明,其中,对趋势和模式进行研究,以基于性别和孕龄来获取表示窒息事件的开始的依时抽取;这样的事件也可能是医院感染的共同创立者。
考虑到以上所述的研究,可以对各个数据流之间的关系进行调查,如血氧饱和度,以及基于从该研究存储的依时抽取来调查等于孕龄的SpO2的规则是否对于两种性别都保持为真。可以对第一探索性数据挖掘进行实践以查找新的假设。这样的假设的示例如下:
[呼吸暂停并且{SpO2<87(女性)或<85(男性)}并且{HR<108(女性)或<100(男性)}]>15秒→中枢性窒息
一旦用公式表示这个假设,则可以创建并且测试虚假设。虚假设可以表明女性和男性婴幼儿之间的SpO2读数没有区别。如果确认挖掘证明虚假设正确,则停止处理。然而,如果确认挖掘证明SpO2读数对于女性新生儿和男性新生儿而言实际上不同,则虚假设被推翻,其授权另外的调查。临床医生的输入和判断可以确定假设是否听起来足以被采用作为智能监测系统的规则,或者是否需要另外的调查。如果确定假设为声音属性,则其被传递至规则生成代理。
接着将通过在功能代理内创建和测试的以及医师临床证明并且采用假设生成的所有规则存储在规则生成代理中。这些规则可用于由智能监测和报警系统来使用。
有技术的读者将认识到,本发明的STDMn+p 0框架可以应用于临床研究领域以发现可能的脓血症指示或其他多个可变疾病,比如窒息。
一旦已经取得阈值,并且对假设进行创建、测试并且将其变换成这个框架内的规则,则下一个步骤是使得能够分布框架以与其他Artemis位置交互。
将使用来自加拿大多伦多的病童医院、罗德岛省的妇婴医院以及澳大利亚威斯密的威斯密医院以及全世界多个其他医院的大量实际未识别数据集来继续研究STDMn+p 0框架的Artemis工程,这个工程继续获取感兴趣的研究。
一旦已经部署了功能代理的探索性和确认性数据挖掘任务、以及这些新部署的患者特征假设,则临床医生判决是否采用患者特征规则用于智能监测系统(CDSS)。在考虑可以用于CDSS的临床规则的研究时,重要的是不采用一刀切的方法。这个研究中所示的这个STDMn+p 0框架已经示出了创建用于所关心的新生儿治疗的更个性的患者特征方法的方式。
这个框架可以在灵活性的前提下提供NICU内的研究,以调整生理数据阈值,以满足研究受监测患者的变化的需求。这些阈值是基于意在改善患者结果所发现的趋势和模式取得的患者特征。
III.另外的示例
本发明可以被实现用于临床研究之外的数据挖掘。例如,用户可以确定用于两个不同类型产品的购物模式之间的联系,在路由器故障以前确定计算机网络吞吐量特征,通过分析智能电表数据确定与某个天气和运动事件有关的电使用行为,在车辆内的某种类型的部件故障之前确定汽车遥感系统信息,在某个英里数或寿命之后确定某个车辆的模型的预期操作行为,在设备失败或接近失败之前的核电站操作传感器读数,在某个共享价格运动行为之前的共享价格购物趋势,或者从公司公告到公司之间的某个共享价格运动行为的时间距离。
本领域技术人员可以理解,也可以在不脱离本发明的范围的情况下来实践本文中所描述的其他各种实施方式。因此,其他修改也是可能的。例如,也可以通过专用网站或在线销售入口将软件加载到计算机或应用上。此外,也可以合并这个系统与生成/市场自动程序以基于行为自动分配角色。

Claims (19)

1.一种计算机实现的用于从多个站点挖掘数据流的数据挖掘方法,其中不同的属性能够与数据流关联,其特征在于:
(a)使用中央分布式计算机系统部件来存储:
(i)一系列时域规则;以及
(ii)用于基于至少一个感兴趣的时间点来使多维数据相对对准的相关规则,所述中央分布式计算机系统在被执行时基于所述不同的属性来确定对于与具体的站点关联的数据可用的具体的时域规则;
(b)在所述多个站点处采集并且可选地清除多维数据,所述多维数据包括多个数据流;
(c)通过访问和应用所述可用的时域规则来依时抽取所述多维数据以生成依时抽取的多维数据,并且通过访问和应用所述可用的相关规则而基于至少一个感兴趣的时间点来使所述依时抽取的多维数据相对对准;以及
(d)从所述多个站点采集依时抽取的并且相对对准的数据以提供多维、依时、多站点的数据用于在数据挖掘操作中使用。
2.根据权利要求1所述的方法,包括以如下方式来管理所述时域规则和所述相关规则在所述多个站点上的分布和应用:所述方式支持在所述多个站点上的实时的或者近实时的数据挖掘操作。
3.根据权利要求1所述的方法,其中所述不同的属性能够包括以下各项中的一个或多个:(a)数据结构,(b)数据采集频率,或者(c)采集数据的设备的类型(包括制造商/型号,设备的用于数据校正的方法,或者用于识别信号中的伪像的机制)。
4.根据权利要求3所述的方法,包括:基于与所述相关数据流关联的所述属性来分布可用的时域规则和可用的相关规则。
5.根据权利要求4所述的方法,其中每个数据流与受试者有关,并且其中所述中央分布式计算机系统在被执行时:(a)发起创建每个受试者的简单抽取,以及在每个站点处对所述简单抽取进行本地存储,并且使用站点识别数据来标记所述数据流,以及(b)发起使用所述可用的时域规则来创建复杂抽取,以及使用由所述中央分布式计算机系统定义的标记信息来标记所述复杂抽取,以使得能够访问由所述中央分布式计算机系统发起的多站点数据挖掘操作。
6.根据权利要求1所述的方法,其中所述多维数据与两个或多个站点关联,并且可选地由一种或多种类型的设备来生成,并且还可选地与两个或更多调查研究关联。
7.根据权利要求5所述的方法,包括实时地或者近实时地生成患者监测数据用于与一个或多个患者护理系统或患者监测系统结合使用。
8.根据权利要求5所述的方法,其中每个数据流与具体的受试者关联,并且所述方法包括动态地定义受试者的组或子组或者与这样的组或子组关联的特征,并且使得能够基于这样的组或者子组实时地或者近实时地进行数据挖掘操作。
9.根据权利要求1所述的方法,包括使用所述数据挖掘操作的结果来执行多站点搜索数据操作。
10.根据权利要求1所述的方法,其中所述数据包括通过医疗设备采集的生理数据,其中通过所述医疗设备采集的数据的数据结构和/或频率有变化。
11.根据权利要求2所述的方法,包括将所述时域规则和所述相关规则存储在数据库中,所述数据库包括基于简单规则至复杂规则的级。
12.根据权利要求1所述的方法,其中至少一个数据挖掘操作是基于虚假设测试。
13.一种用于从多个站点挖掘数据的数据挖掘计算机系统,其中不同的属性能够与数据流关联,所述系统包括:
(a)中央分布式计算机系统部件,所述中央分布式计算机系统部件用于存储:
(i)一系列时域规则;以及
(ii)用于基于至少一个感兴趣的时间点来使多维数据相对对准的相关规则,所述中央分布式计算机系统在被执行时确定对于与具体的站点关联的数据可用的具体的时域规则;
(b)与一个或多个站点关联的一个或多个设备,所述设备采集多个数据流中的数据;以及
(c)在每个站点处的连接至中央分布式计算机系统的至少一个本地计算机;
其中:
所述中央分布式计算机系统在被执行时管理所述数据流的时间抽取和相对对准,以通过以下操作来支持所述多个站点上的多维数据的数据挖掘操作:
从所述本地计算机访问与用于所述数据流的所述不同的属性有关的信息;
向所述本地计算机提供所述可用的时域规则和可用的相关规则,从而使得能够依时抽取所述多维数据以生成依时抽取的多维数据,并且以强调所述不同的属性的方式来基于至少一个感兴趣的时间点而使所述依时抽取的多维数据相对对准;以及
通过与所述本地计算机通信来从所述多个站点处采集所述依时抽取的并且相对对准的数据,并且发起基于数据挖掘请求来取回和传送所述依时抽取的并且相对对准的数据。
14.根据权利要求13所述的计算机系统,其中所述计算机系统在被执行时以如下方式来管理所述时域规则和所述相关规则在所述多个站点上的分布和应用:所述方式支持所述多个站点上的实时的或者近实时的数据挖掘操作。
15.根据权利要求13所述的计算机系统,其中所述不同的属性能够包括以下各项中的一个或多个:(a)数据结构,(b)数据采集频率,或者(c)采集数据的设备的类型(包括制造商/型号,设备的用于数据校正的方法,或者用于识别信号中的伪像的机制)。
16.根据权利要求15所述的计算机系统,其中所述计算机系统在被执行时基于与所述相关数据流关联的所述属性来分布可用的时域规则和可用的相关规则。
17.根据权利要求16所述的计算机系统,其中每个数据流与受试者有关,并且其中所述中央分布式计算机系统在被执行时:(a)发起创建每个受试者的简单抽取,以及在每个站点处对所述简单抽取进行本地存储,并且使用站点识别数据来标记所述数据流,以及(b)发起使用所述可用的时域规则来创建复杂抽取,以及使用由所述中央分布式计算机系统定义的标记信息来标记所述复杂抽取,以使得能够访问由所述中央分布式计算机系统发起的多站点数据挖掘操作。
18.根据权利要求15所述的计算机系统,其中所述计算机系统在被执行时实时地或者近实时地生成患者监测数据以与一个或多个患者护理系统或患者监测系统结合使用。
19.根据权利要求18所述的计算机系统,其中每个数据流与具体的受试者关联,并且所述计算机系统在被执行时动态地定义受试者的组或子组或者与这样的组或子组关联的特征,并且从而允许基于这样的组或者子组实时地或者近实时地进行数据挖掘操作。
CN201280069496.7A 2011-12-12 2012-12-12 用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序 Pending CN104115144A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161569316P 2011-12-12 2011-12-12
US61/569,316 2011-12-12
PCT/CA2012/001139 WO2013086610A1 (en) 2011-12-12 2012-12-12 System, method and computer program for multi-dimensional temporal and relative data mining framework, analysis & sub-grouping

Publications (1)

Publication Number Publication Date
CN104115144A true CN104115144A (zh) 2014-10-22

Family

ID=48611745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280069496.7A Pending CN104115144A (zh) 2011-12-12 2012-12-12 用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序

Country Status (5)

Country Link
US (1) US9898513B2 (zh)
CN (1) CN104115144A (zh)
AU (1) AU2012350398A1 (zh)
GB (1) GB2512526A (zh)
WO (1) WO2013086610A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574212A (zh) * 2015-01-09 2015-04-29 南京南瑞集团公司 一种水电厂综合数据分析方法
CN105653726A (zh) * 2016-01-22 2016-06-08 中国电子科技集团公司第二十九研究所 一种用于多源传感系统的多维目标信息采集方法
CN106815307A (zh) * 2016-12-16 2017-06-09 中国科学院自动化研究所 公共文化知识图谱平台及其使用办法
CN107273867A (zh) * 2017-06-27 2017-10-20 航天星图科技(北京)有限公司 空天遥感数据处理一体机
CN107862078A (zh) * 2017-11-29 2018-03-30 上海蓝色帛缔智能工程有限公司 一种基于元数据的云数据中心系统架构
CN107958053A (zh) * 2017-11-29 2018-04-24 上海蓝色帛缔智能工程有限公司 一种基于元数据的云数据中心系统原型
CN107980147A (zh) * 2015-03-23 2018-05-01 摩根士丹利服务集团有限公司 跟踪分布式计算系统中的数据流
CN108847274A (zh) * 2018-05-16 2018-11-20 上海术木医疗科技有限公司 一种基于云平台的生命体征数据处理方法及系统
TWI661384B (zh) * 2015-02-06 2019-06-01 信立達科技有限公司 生理監控回饋系統及其運作方法
CN112037906A (zh) * 2020-07-17 2020-12-04 山东大学 一种长时生理信号时间序列的样本数据的扩充方法及系统

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9639615B1 (en) * 2012-06-28 2017-05-02 Open Text Corporation Systems and methods for health information messages archiving
KR102028708B1 (ko) * 2013-01-18 2019-10-07 한국전자통신연구원 대용량 이벤트 파일에서 시간 관계를 병렬 탐사하기 위한 방법
US10223401B2 (en) * 2013-08-15 2019-03-05 International Business Machines Corporation Incrementally retrieving data for objects to provide a desired level of detail
WO2015047140A1 (en) * 2013-09-24 2015-04-02 Telefonaktiebolaget L M Ericsson (Publ) Simplified creation of an application in a selected stream processing platform
KR101509745B1 (ko) * 2013-12-16 2015-04-07 현대자동차 주식회사 공조장치 소비전력 산출방법
US10198428B2 (en) * 2014-05-06 2019-02-05 Act, Inc. Methods and systems for textual analysis
DE102014211140A1 (de) * 2014-06-11 2015-12-17 Siemens Aktiengesellschaft Computersystem und Verfahren zum Analysieren von Daten
US20150379408A1 (en) * 2014-06-30 2015-12-31 Microsoft Corporation Using Sensor Information for Inferring and Forecasting Large-Scale Phenomena
US10089336B2 (en) * 2014-12-22 2018-10-02 Oracle International Corporation Collection frequency based data model
CN105117588A (zh) * 2015-08-04 2015-12-02 杭州健港信息科技有限公司 一种基于医院海量业务数据的医疗质量分析方法
US10452961B2 (en) * 2015-08-14 2019-10-22 International Business Machines Corporation Learning temporal patterns from electronic health records
US10360244B2 (en) 2015-09-24 2019-07-23 Liveramp, Inc. System and method for improving computational efficiency of consumer databases using household links
US10698910B2 (en) 2015-10-09 2020-06-30 Micro Focus Llc Generating cohorts using automated weighting and multi-level ranking
US10346446B2 (en) 2015-11-02 2019-07-09 Radiant Geospatial Solutions Llc System and method for aggregating multi-source data and identifying geographic areas for data acquisition
US10075462B2 (en) * 2015-12-22 2018-09-11 Sap Se System and user context in enterprise threat detection
CN105631360B (zh) * 2016-01-06 2017-04-26 西安交通大学 传感器网络中基于多维分解的隐私数据汇聚方法
US11176483B1 (en) * 2016-01-06 2021-11-16 Datarobot Inc. Systems and methods for storing and retrieving data sets based on temporal information
US11438417B2 (en) * 2016-03-02 2022-09-06 Nec Corporation Network system, terminal, sensor data collection method, and program
US10175387B2 (en) 2016-03-10 2019-01-08 The Climate Corporation Long-range temperature forecasting
US11152085B2 (en) * 2016-06-27 2021-10-19 International Business Machines Corporation Using sensors and location to trigger events and share data
WO2018051343A1 (en) * 2016-09-13 2018-03-22 The Medical Research, Infrastructure and Health Services Fund of the Tel Aviv Medical Center Dynamic treatment regime (dtr) implementations
US11379132B1 (en) * 2016-10-20 2022-07-05 Pure Storage, Inc. Correlating medical sensor data
US10614111B2 (en) * 2017-04-17 2020-04-07 Mammoth Medical, Llc System and method for machine-learning input-based data autogeneration
US10657737B2 (en) 2017-10-23 2020-05-19 Toyota Motor Engineering & Manufacturing North America, Inc. Vehicle error identification system
US10902654B2 (en) * 2018-04-20 2021-01-26 Palantir Technologies Inc. Object time series system
US10895972B1 (en) 2018-04-20 2021-01-19 Palantir Technologies Inc. Object time series system and investigation graphical user interface
US10459766B1 (en) 2018-08-20 2019-10-29 Bank Of America Corporation System for optimizing resource prioritization based on services efficiency
CN109471877B (zh) * 2018-11-01 2022-04-22 中南大学 面向流数据的增量式时态频繁模式并行挖掘方法
JP7240155B2 (ja) * 2018-12-06 2023-03-15 日本光電工業株式会社 容態変化判別方法、容態変化判別装置、当該装置又は方法に用いられるプログラム及びコンピュータ可読媒体
US11347813B2 (en) * 2018-12-26 2022-05-31 Hitachi Vantara Llc Cataloging database metadata using a signature matching process
US11334575B2 (en) * 2019-01-30 2022-05-17 International Business Machines Corporation Integrating relational database temporal tables with a distributed programming environment
CN113658677A (zh) * 2020-05-12 2021-11-16 深圳市科瑞康实业有限公司 一种对监护数据进行识别预警的系统和方法
CN111626845A (zh) * 2020-05-21 2020-09-04 江苏擎天助贸科技有限公司 基于数据流的外贸企业风险评估方法
US11379432B2 (en) 2020-08-28 2022-07-05 Bank Of America Corporation File management using a temporal database architecture
US11762945B2 (en) * 2020-12-10 2023-09-19 International Business Machines Corporation Syncing streams by intelligent collection and analysis
CN115221720B (zh) * 2022-07-26 2023-09-01 苏州同元软控信息技术有限公司 一种核能装备的联合仿真方法、设备、介质及系统
US20240104239A1 (en) * 2022-09-22 2024-03-28 SparkBeyond Ltd. Blindfold analytics

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161763A1 (en) * 2000-10-27 2002-10-31 Nong Ye Method for classifying data using clustering and classification algorithm supervised
US20100076785A1 (en) * 2008-09-25 2010-03-25 Air Products And Chemicals, Inc. Predicting rare events using principal component analysis and partial least squares
WO2011009211A1 (en) * 2009-07-22 2011-01-27 Carolyn Patricia Mcgregor System, method and computer program for multi-dimensional temporal data mining

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094051A1 (en) 2002-04-29 2003-11-13 Laboratory For Computational Analytics And Semiotics, Llc Sequence miner
US20050210027A1 (en) 2004-03-16 2005-09-22 International Business Machines Corporation Methods and apparatus for data stream clustering for abnormality monitoring
US7711734B2 (en) 2006-04-06 2010-05-04 Sas Institute Inc. Systems and methods for mining transactional and time series data
US20100030418A1 (en) * 2008-07-31 2010-02-04 Gm Global Technology Operations, Inc. Online health monitoring via multidimensional temporal data mining
JP2012526314A (ja) * 2009-05-08 2012-10-25 ゾケム オーワイ 行動およびコンテキストデータを分析するためのシステムおよび方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161763A1 (en) * 2000-10-27 2002-10-31 Nong Ye Method for classifying data using clustering and classification algorithm supervised
US20100076785A1 (en) * 2008-09-25 2010-03-25 Air Products And Chemicals, Inc. Predicting rare events using principal component analysis and partial least squares
WO2011009211A1 (en) * 2009-07-22 2011-01-27 Carolyn Patricia Mcgregor System, method and computer program for multi-dimensional temporal data mining

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574212A (zh) * 2015-01-09 2015-04-29 南京南瑞集团公司 一种水电厂综合数据分析方法
TWI661384B (zh) * 2015-02-06 2019-06-01 信立達科技有限公司 生理監控回饋系統及其運作方法
CN107980147A (zh) * 2015-03-23 2018-05-01 摩根士丹利服务集团有限公司 跟踪分布式计算系统中的数据流
CN105653726A (zh) * 2016-01-22 2016-06-08 中国电子科技集团公司第二十九研究所 一种用于多源传感系统的多维目标信息采集方法
CN105653726B (zh) * 2016-01-22 2018-10-23 中国电子科技集团公司第二十九研究所 一种用于多源传感系统的多维目标信息采集方法
CN106815307A (zh) * 2016-12-16 2017-06-09 中国科学院自动化研究所 公共文化知识图谱平台及其使用办法
CN107273867A (zh) * 2017-06-27 2017-10-20 航天星图科技(北京)有限公司 空天遥感数据处理一体机
CN107862078A (zh) * 2017-11-29 2018-03-30 上海蓝色帛缔智能工程有限公司 一种基于元数据的云数据中心系统架构
CN107958053A (zh) * 2017-11-29 2018-04-24 上海蓝色帛缔智能工程有限公司 一种基于元数据的云数据中心系统原型
CN108847274A (zh) * 2018-05-16 2018-11-20 上海术木医疗科技有限公司 一种基于云平台的生命体征数据处理方法及系统
WO2019219035A1 (zh) * 2018-05-16 2019-11-21 上海术木医疗科技有限公司 一种基于云平台的生命体征数据处理方法及系统
CN112037906A (zh) * 2020-07-17 2020-12-04 山东大学 一种长时生理信号时间序列的样本数据的扩充方法及系统

Also Published As

Publication number Publication date
GB2512526A (en) 2014-10-01
US20140358926A1 (en) 2014-12-04
GB201411384D0 (en) 2014-08-13
AU2012350398A1 (en) 2014-07-24
WO2013086610A1 (en) 2013-06-20
WO2013086610A8 (en) 2014-06-12
US9898513B2 (en) 2018-02-20

Similar Documents

Publication Publication Date Title
CN104115144A (zh) 用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序
Hong et al. Big data in health care: Applications and challenges
US8583686B2 (en) System, method and computer program for multi-dimensional temporal data mining
Santana et al. rs-fMRI and machine learning for ASD diagnosis: a systematic review and meta-analysis
Saeed et al. Multiparameter Intelligent Monitoring in Intensive Care II: a public-access intensive care unit database
Mishra et al. Analysis of the role and scope of big data analytics with IoT in health care domain
Rahman et al. Using and comparing different decision tree classification techniques for mining ICDDR, B Hospital Surveillance data
WO2017147552A1 (en) Multi-format, multi-domain and multi-algorithm metalearner system and method for monitoring human health, and deriving health status and trajectory
WO2013036677A1 (en) Medical informatics compute cluster
CN109805898A (zh) 基于注意力机制时序卷积网络算法的危重症死亡预测方法
US7505867B2 (en) System and method for predicting medical condition
US20230402180A1 (en) Techniques for generating predictive outcomes relating to spinal muscular atrophy using artificial intelligence
US20130159022A1 (en) Clinical state timeline
Gowsalya et al. Predicting the risk of readmission of diabetic patients using MapReduce
Chen et al. Using data mining strategies in clinical decision making: a literature review
Ashu et al. A novel approach of telemedicine for managing fetal condition based on machine learning technology from IoT-based wearable medical device
CN103619240A (zh) 用于确定hrv和rrv并且用来识别潜在病症发作的方法和系统
Jatmiko et al. A review of big data analytics in the biomedical field
Bansal et al. Introduction to computational health informatics
Borovska et al. Internet of medical imaging Things and analytics in support of precision medicine for early diagnostics of thyroid cancer
US20160371457A1 (en) System and Method for Data Analyzing of Health-Related Data
Sathish Kumar et al. Artificial intelligence based health indicator extraction and disease symptoms identification using medical hypothesis models
Santos et al. SiSPED 2.0: an extension of a system to monitor diabetic patients
Celi et al. Collective experience: a database-fuelled, inter-disciplinary team-led learning system
Sivasankari et al. Automated health care management system using big data technology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141022

WD01 Invention patent application deemed withdrawn after publication