CN111863267B - 数据信息获取方法、数据分析方法、装置以及存储介质 - Google Patents

数据信息获取方法、数据分析方法、装置以及存储介质 Download PDF

Info

Publication number
CN111863267B
CN111863267B CN202010649096.XA CN202010649096A CN111863267B CN 111863267 B CN111863267 B CN 111863267B CN 202010649096 A CN202010649096 A CN 202010649096A CN 111863267 B CN111863267 B CN 111863267B
Authority
CN
China
Prior art keywords
data
clinical
standard
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010649096.XA
Other languages
English (en)
Other versions
CN111863267A (zh
Inventor
林琳
孙瑄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tiantan Hospital
Original Assignee
Beijing Tiantan Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tiantan Hospital filed Critical Beijing Tiantan Hospital
Priority to CN202010649096.XA priority Critical patent/CN111863267B/zh
Publication of CN111863267A publication Critical patent/CN111863267A/zh
Application granted granted Critical
Publication of CN111863267B publication Critical patent/CN111863267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Abstract

本公开是关于一种数据信息获取方法、数据分析方法、数据信息获取装置、数据分析装置以及非临时性计算机可读存储介质。一种数据信息获取方法,应用于目标疾病的数据库。数据信息获取方法包括:基于数据元对应的临床数据的提取路径,获取数据元对应的一个或多个临床数据;基于患者信息,将一个或多个临床数据按照对应的患者信息进行关联;基于数据元与临床数据之间的对应关系,得到对应数据元中的标准数据;并将对应于同一患者信息的各标准数据分别与各标准数据对应的各数据元进行关联存储。通过本公开提供的数据信息获取方法,能够基于患者信息将各临床数据进行整合,进而进行研究时能够快速提取有用信息,加快研究进程,推动医疗发展。

Description

数据信息获取方法、数据分析方法、装置以及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据信息获取方法、数据分析方法、数据信息获取装置、数据分析装置以及非临时性计算机可读存储介质。
背景技术
近年来,随着我国医疗信息化建设的普及和加快,医院信息系统数据不断积累,医疗数据总量呈现“爆发式”的增长态势。随着机器学习、深度学习等人工智能技术的飞速发展,整个行业开始朝着大数据及人工智能的方向高歌猛进。
大数据和人工智能时代的到来,成功激发了人们对于数据价值和智能化应用的挖掘和探讨。随着精准医疗以及智慧医疗的发展,医院信息化建设的重点更多开始聚焦于对专病与亚专业的科研和决策方面,也因此改变了传统医学研究、临床医疗和卫生管理支持模式。
相关技术中,临床业务系统可以包括:HIS(医院信息系统,Hospital InformationSystem)、EMR(电子病历,Electronic Medical Record))、LIS(医院检验系统,LaboratoryInformation Management System)、PACS(医学影像信息系统,Picture Archiving andCommunication Systems)等。临床业务系统不同,采集到的临床数据不同。由于涉及的医院信息系统过多,当针对某一项目标疾病进行医学研究时,需要基于患者信息获取贯穿整个诊疗活动的临床数据,临床数据的内容可以包括:医学检查、影像学资料等,数据繁杂且要求各异。通过采用传统的数据采集、存储及分析等方法,无法快速从日益增长的大量临床数据中提取有用信息,进而进行针对性的病例研究,不利于推动医疗发展。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据信息获取方法、数据分析方法、数据信息获取装置、数据分析装置以及非临时性计算机可读存储介质。
根据本公开实施例的第一方面,提供一种数据信息获取方法,应用于目标疾病的数据库,数据库包括一个或多个数据元;其中,数据信息获取方法包括:基于数据元对应的临床数据的提取路径,获取数据元对应的一个或多个临床数据,其中,每个临床数据至少包括:临床原始信息以及对应的患者信息;基于患者信息,将一个或多个临床数据按照对应的患者信息进行关联;基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据;基于数据元与临床数据之间的对应关系,将结构化数据进行转化,得到对应数据元中的标准数据;基于患者信息,将对应于同一患者信息的各标准数据分别与各标准数据对应的各数据元进行关联存储。
在一实施例中,数据信息获取方法还包括:基于目标疾病,确定数据库的多个数据元以及各数据元所需的标准数据;基于数据元所需的标准数据,确定数据元对应的一个或多个临床数据以及临床数据的数据来源,并获取数据元对应的临床数据的提取路径。
在另一实施例中,临床原始信息的原始数据类型包括以下至少一种:结构化临床数据、文本、图像、音频、视频。
在又一实施例中,若原始数据类型为文本、图像、音频、视频中任一种,则,基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据,包括:将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的结构化数据。
在又一实施例中,将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的结构化数据,包括:若数据类型为文本,则基于文本识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为图像,则基于图像识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为音频,则基于音频识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为视频,则基于视频识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据。
在又一实施例中,数据元和临床数据的对应关系,包括:数据元的标准数据对应于临床数据的一个数据来源;或数据元的标准数据对应于临床数据的多个数据来源。
在又一实施例中,若数据元的标准数据对应于临床数据的一个数据来源,则基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据,包括:根据每个标准数据与其对应的数据来源,确定每个标准数据与其对应的数据来源之间的映射路径;基于映射路径以及数据元和临床数据的对应关系,将各标准数据对应的结构化数据转换为数据元的标准数据。
在又一实施例中,若数据元的标准数据对应于临床数据的多个数据来源,则基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据,包括:基于数据元和临床数据的对应关系,根据预设逻辑关系,于多个临床数据对应的各结构化数据中,提取得到对应数据元中的标准数据。
在又一实施例中,若数据元的标准数据对应于临床数据的多个数据来源,则基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据,包括:根据目标临床事件,确定数据元对应于目标临床事件的多个临床数据,以及对应于目标临床事件的各临床数据的数据来源;将对应于目标临床事件的各数据来源进行关联,并基于患者信息将与目标临床事件对应的多个临床数据进行整合,得到以患者信息为主索引的数据集;基于数据集中的各临床数据与目标临床事件之间的相对时间信息和目标临床事件与数据元之间的对应关系,将结构化数据转化得到对应数据元中的标准数据。
在又一实施例中,数据集中的各临床数据与目标临床事件之间的相对时间信息采用下述方式进行确定,包括:基于目标临床事件,确定数据集中的各临床数据对应的绝对时间信息以及时间转换关系;基于时间转换关系,将数据集中的各临床数据对应的绝对时间信息进行转化,得到数据集中的各临床数据与目标临床事件之间的相对时间信息。
在又一实施例中,数据信息获取方法还包括:基于预设检测标准,对任一数据元或对应于同一患者信息的任意多个数据元对应的标准数据进行数据检测。
在又一实施例中,数据信息获取方法还包括:基于数据检测的结果,对存在异常的数据元对应的临床数据进行修正,使修正后的存在异常的临床数据符合检测标准。
在又一实施例中,数据信息获取方法还包括:将获取的数据元对应的一个或多个临床数据进行数据脱敏。
根据本公开实施例的第二方面,提供一种数据分析方法,包括:基于目标疾病的数据库,确定需要调取的多个标准数据对应的一个或多个数据元;根据确定的各数据元,调取与各数据元关联的多个标准数据;基于调取的多个标准数据进行数据分析,得到数据分析结果;其中,目标疾病的数据库中的各数据元对应的标准数据采用上述任意一种数据信息获取方法进行获取。
在一实施例中,目标疾病的数据库还包括多个患者信息,其中,患者信息与标准数据相对应;根据确定的各数据元,调取与各数据元关联的多个标准数据,包括:根据确定的各数据元和各患者信息,调取与各患者信息对应的且与各数据元关联的多个标准数据。
根据本公开实施例的第三方面,提供一种数据信息获取装置,应用于目标疾病的数据库,数据库包括一个或多个数据元;其中,数据信息获取装置包括:获取单元,用于基于数据元对应的临床数据的提取路径,获取数据元对应的一个或多个临床数据,其中,每个临床数据至少包括:临床原始信息以及对应的患者信息;并基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据;关联单元,用于基于患者信息,将一个或多个临床数据按照对应的患者信息进行关联;数据转化单元,用于基于数据元与临床数据之间的对应关系,将结构化数据进行转化,得到对应数据元中的标准数据;存储单元,用于基于患者信息,将对应于同一患者信息的各标准数据分别与各标准数据对应的各数据元进行关联存储。
在一实施例中,数据信息获取装置还包括:确定单元,用于基于目标疾病,确定数据库的多个数据元以及各数据元所需的标准数据;获取单元,还用于基于数据元所需的标准数据,确定数据元对应的一个或多个临床数据以及临床数据的数据来源,并获取数据元对应的临床数据的提取路径。
在另一实施例中,临床原始信息的原始数据类型包括以下至少一种:结构化临床数据、文本、图像、音频、视频。
在又一实施例中,若原始数据类型为文本、图像、音频、视频中任一种,则,数据转化单元采用下述方式基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据:将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的结构化数据。
在又一实施例中,数据转化单元采用下述方式将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的结构化数据:若数据类型为文本,则基于文本识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为图像,则基于图像识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为音频,则基于音频识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为视频,则基于视频识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据。
在又一实施例中,数据元和临床数据的对应关系,包括:数据元的标准数据对应于临床数据的一个数据来源;或数据元的标准数据对应于临床数据的多个数据来源。
在又一实施例中,若数据元的标准数据对应于临床数据的一个数据来源,则数据转化单元采用下述方式基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据:根据每个标准数据与其对应的数据来源,确定每个标准数据与其对应的数据来源之间的映射路径;基于映射路径以及数据元和临床数据的对应关系,将各标准数据对应的结构化数据转换为数据元的标准数据。
在又一实施例中,若数据元的标准数据对应于临床数据的多个数据来源,则数据转化单元采用下述方式基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据:基于数据元和临床数据的对应关系,根据预设逻辑关系,于多个临床数据对应的各结构化数据中,提取得到对应数据元中的标准数据。
在又一实施例中,若数据元的标准数据对应于临床数据的多个数据来源,则数据转化单元采用下述方式基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据:根据目标临床事件,确定数据元对应于目标临床事件的多个临床数据,以及对应于目标临床事件的各临床数据的数据来源;将对应于目标临床事件的各数据来源进行关联,并基于患者信息将与目标临床事件对应的多个临床数据进行整合,得到以患者信息为主索引的数据集;基于数据集中的各临床数据与目标临床事件之间的相对时间信息和目标临床事件与数据元之间的对应关系,将结构化数据转化得到对应数据元中的标准数据。
在又一实施例中,数据转化单元采用下述方式确定数据集中的各临床数据与目标临床事件之间的相对时间信息:基于目标临床事件,确定数据集中的各临床数据对应的绝对时间信息以及时间转换关系;基于时间转换关系,将数据集中的各临床数据对应的绝对时间信息进行转化,得到数据集中的各临床数据与目标临床事件之间的相对时间信息。
在又一实施例中,数据信息获取装置还包括:检测单元,用于基于预设检测标准,对任一数据元或对应于同一患者信息的任意多个数据元对应的标准数据进行数据检测。
在又一实施例中,数据信息获取装置还包括:治理单元,用于基于数据检测的结果,对存在异常的数据元对应的临床数据进行修正,使修正后的存在异常的临床数据符合检测标准。
在又一实施例中,数据信息获取装置还包括:数据保护单元,用于将获取的数据元对应的一个或多个临床数据进行数据脱敏。
根据本公开实施例的第四方面,提供一种数据分析装置,包括:确定单元,用于基于目标疾病的数据库,确定需要调取的多个标准数据对应的一个或多个数据元;调取单元,用于根据确定的各数据元,调取与各数据元关联的多个标准数据;分析单元,用于基于调取的多个标准数据进行数据分析,得到数据分析结果;其中,目标疾病的数据库中的各数据元对应的标准数据采用上述任意一种数据信息获取方法进行获取。
在一实施例中,目标疾病的数据库还包括多个患者信息,其中,患者信息与标准数据相对应;调取单元采用下述方式根据确定的各数据元,调取与各数据元关联的多个标准数据:根据确定的各数据元和各患者信息,调取与各患者信息对应的且与各数据元关联的多个标准数据。
根据本公开实施例的第五方面,提供一种数据信息获取装置,包括:存储器,用于存储指令;以及处理器;用于调用存储器存储的指令执行上述任意一种数据信息获取方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上述任意一种数据信息获取方法。
根据本公开实施例的第七方面,提供一种数据分析装置包括:存储器,用于存储指令;以及处理器;用于调用存储器存储的指令执行上述任意一种数据分析方法。
根据本公开实施例的第八方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上述任意一种数据分析方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过本公开提供的数据信息获取方法,能够将各个临床业务系统中的临床数据基于患者信息进行关联,并将各临床数据根据数据类型进行结构化处理,统一数据格式,进而将各个临床数据基于患者信息存储至目标疾病的数据库中,整合临床数据,从而针对目标疾病进行研究时,能够快速提取有用信息,促进对目标疾病的研究进程,推动医疗发展。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种数据信息获取方法的流程图。
图2是根据一示例性实施例示出的另一种数据信息获取方法的流程图。
图3是根据一示例性实施例示出的一种数据信息获取示意图。
图4是根据一示例性实施例示出的又一种数据信息获取方法的流程图。
图5是根据一示例性实施例示出的又一种数据信息获取方法的流程图。
图6是根据一示例性实施例示出的又一种数据信息获取示意图。
图7是根据一示例性实施例示出的一种数据分析方法的流程图。
图8是根据一示例性实施例示出的一种确定治疗方案的流程图。
图9是根据一示例性实施例示出的一种分布式云平台部署示意图。
图10是根据一示例性实施例示出的一种数据信息获取装置的框图。
图11是根据一示例性实施例示出的一种数据分析装置的框图。
图12是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,对于专病的研究往往伴随大量的患者信息,以及贯穿整个诊疗活动的医学检查、影像学资料等,在不同系统中,获取的数据类型繁杂且要求各异,仅依靠传统的数据采集、存储及分析方法无法满足大数据筛选进行目标疾病研究的需求。
针对上述问题,本申请提供一种数据信息获取方法,能够结合自然语言处理、数据映射、复杂逻辑运算等技术,可将各个临床医疗系统中的数据转化为结构化、规范化的标准数据。进而挖掘出跨各临床病历数据之间的关联性,实现专病模型的自动搭建,从而为后续的数据分析、利用提供支撑。
图1是根据一示例性实施例示出的一种数据信息获取方法的流程图,如图1所示,数据信息获取方法应用于目标疾病的数据库,数据库包括一个或多个数据元。目标疾病可以包括:神经内科,心血管内科及消化内科等专门医治的任意一种或多种疾病。在本公开中,一个数据元可以表示为一种数据的名称,通过数据元可以明确当前获取的数据为哪种数据。数据信息获取方法包括以下步骤S11至步骤S15。
在步骤S11中,基于数据元对应的临床数据的提取路径,获取数据元对应的一个或多个临床数据。
在本公开实施例中,一个临床数据可以理解为是一个患者的病例。每个临床数据均含有对应的患者信息,以及该患者对应的临床原始信息。不同的医疗检测获取的临床原始信息的原始数据类型可以不同。临床原始信息的原始数据类型可以包括以下至少一种:结构化临床数据、文本、图像、音频或者视频。例如:在进行血压检测时,可以直接获取的患者的血压测量值,该血压测量值即为临床原始信息,其原始数据类型可以理解为是结构化临床数据。在某科室询问患者的现病史时,获取的临床原始信息可能是一段文字,获取的临床原始信息的原始数据类型即为文本。在测量患者的心率时,获取的临床原始信息为患者的心率图,其原始数据类型即为图像。获取临床数据时,可以基于目标疾病的数据库中的数据元进行获取,进而得到数据库需要的临床数据。由于不同数据元对应的数据类型不同,且同一数据元对应的临床数据可能来自不同的临床医疗系统中。因此,在获取数据元对应的临床数据时,可以基于预设的提取路径将临床数据进行获取。进而有助于明确临床数据的来源,保障临床数据获取的合理性。针对同一临床数据的不同临床医疗系统来源,对应的提取路径不同。
在步骤S12中,基于患者信息,将一个或多个临床数据按照对应的患者信息进行关联。
在本公开实施例中,患者信息是各个临床数据中不可缺少的一部分。为便于数据整合,明确各数据之间的关联性,可以基于患者信息,将获取的关联信息基于对应的患者信息进行关联,进而建立以患者信息为主索引的数据集。在一实施例中,若数据库中含有获取的临床数据所对应的患者信息,则可以直接将获取的一个或多个临床数据与数据库中的同一患者信息进行关联,若数据库中不含有获取的临床数据所对应的患者信息,则表明该患者信息为新患者信息,可以自动将该患者信息增添至数据库中,并获取该临床数据。当再次获取该患者信息的新临床数据时,则可将新的临床数据与该患者信息已有的临床数据进行关联。通过将患者信息作为关联临床数据的枢纽点,使获取的临床数据彼此之间更具有关联性,有助于挖掘各临床数据之间的研究价值。进而后续基于数据库中的患者信息进行病例挖掘或者数据分析时,能快速提取相关信息,节省提取时间。
在步骤S13中,基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据。
在本公开实施例中,不同的临床原始信息,其对应的原始数据类型可能不同。且当获取的临床原始信息的原始数据类型为非结构数据时,无法直接从临床原始信息中快速提取有用信息,进而不能明确同一患者信息的各临床数据之间的关联性。因此,为提高各临床数据之间的关联性,便于快速提取有用信息,将临床原始信息进行结构化处理,得到各临床原始信息对应的结构化数据。进而后续采用该数据库进行数据分析时,能够快速明确各各临床数据中联系,加快数据分析的进程,促进医学发展。
在步骤S14中,基于数据元与临床数据之间的对应关系,将结构化数据进行转化,得到对应数据元中的标准数据。
在本公开实施例中,同一数据元对应的临床数据可能来源于同一临床医疗系统,也可能来自多个临床医疗系统。为使数据库中的数据元对应的各临床数据能够符合数据完整性、规范性以及一致性等要求,将获取的结构化数据进行转化,进而标准化处理各临床数据,从而提高数据库中各临床数据的质量,增强临床数据的可信度。例如:当各临床数据来自同一临床医疗系统时,临床数据中的疾病术语、药品术语等表达方式可能相同。当各临床数据来自多个临床医疗系统时,则针对同一实体的术语表达方式可能具有多样化。为使各临床数据对应的主体一致,实现实体映射的一致性,可以将各临床数据中的针对同一实体的专业数据进行标准化,进而得到针对同一数据元的多个标准数据。
在步骤S15中,基于患者信息,将对应于同一患者信息的各标准数据分别与各标准数据对应的各数据元进行关联存储。
在本公开实施例中,将与患者信息关联的各标准数据分别与数据库中的各数据元进行一一对应,进而将临床数据对应的标准数据与临床数据对应的数据元进行关联存储。从而当需要调取数据库中某一数据元下的临床数据时,可以基于患者信息,将该数据元下的各个临床数据分别进行调取,从而保证了数据提取的准确性,便于针对性提取。
通过上述实施例,可以根据目标疾病的数据库中设置的数据元,获取与数据元相应的临床数据,得到数据库需要的临床数据。进而基于各临床数据与患者信息之间的关联性,将获取的各临床数据与相应的数据元进行关联存储,从而使数据库中的各临床数据能够以患者信息为枢纽点形成各个数据集,将各个临床数据进行合理存储。当后续需要从数据库中进行数据提取时,能够基于患者信息进行针对性的提取,进而确保数据准确的同时,能够尽可能的挖掘出各临床数据之间的关联性,从而有助于进行数据统计分析。
基于同一种发明构思,本公开还提供另一种数据信息获取方法。通过该方法,能够确定数据库需要的具体数据元,进而通过数据元明确创建数据库所需的临床数据来源,从而有助于提高数据库的实用性,使得到的数据库有助于满足不同场景、不同维度下的多种医疗需求。
图2是根据一示例性实施例示出的另一种数据信息获取方法的流程图,如图2所示,数据信息获取方法可以包括以下步骤S21至步骤S27。
在步骤S21中,基于目标疾病,确定数据库的多个数据元以及各数据元所需的标准数据。
在本公开实施例中,不同的目标疾病,对应数据库所需的数据元不同。高质量的目标疾病的数据库的建立,有助于为以数据为驱动的科学研究提供了坚实基础,因此,数据库中的数据种类、数据特点则决定了其所能开展的研究类型。为便于创建的目标疾病的数据库更具有医学研究价值,可以在设定数据库中的数据元时,参考该目标疾病在临床医学中的临床数据或者结合该目标疾病的调研文献。进而有助于明确治疗该目标疾病时具体涉及的数据元以及数据元对应的标准数据。从而在构建该目标疾病的数据库时,能够进行针对性的创建,提高数据库的创建价值。例如:针对目标疾病为前循环脑梗死急诊栓的数据库,通过调研,可以在该数据库中确定建立如表1所示的多个数据元,其中,数据元可以包括人口学信息、就诊信息、主诉/现病史、既往史、个人史、专科查体、实验室检查、影像检查、介入治疗、医疗评价、随访信息等。进而针对不同的数据元,确定其对应的临床数据。数据元不同,其对应的临床数据的数量也可以不同。临床数据的具体内容以及数量可以基于实际应用中进行确定。如表1所示,针对人口学信息,该数据元对应的标准数据可以包括:姓名、性别、年龄、联系电话等。针对就诊信息,该数据元对应的标准数据可以包括:入院时间、出院时间、住院费用、住院天数等。
表1
在步骤S22中,基于数据元所需的标准数据,确定数据元对应的一个或多个临床数据以及临床数据的数据来源,并获取数据元对应的临床数据的提取路径。
在本公开实施例中,临床数据的来源可以包括:HIS、EMR、医嘱系统、检查/检验系统、病理系统以及患者随访数据等。不同临床医疗系统中针对同一患者信息可能涉及多种临床数据,且包括部分重复临床数据。因此,基于数据库中确定的数据元所需的标准数据,可以明确在众多数据来源中哪种临床医疗系统涉及该数据元,进而确定该数据元对应的临床数据的一个或多个数据来源。从而根据临床数据对应的数据来源确定获取该临床数据的提取路径,使在提取临床数据时能够具有指向性,且有助于梳理数据来源,以便提高数据库的数据质量。
在步骤S23中,基于数据元对应的临床数据的提取路径,获取数据元对应的一个或多个临床数据。
在步骤S24中,基于患者信息,将一个或多个临床数据按照对应的患者信息进行关联。
在步骤S25中,基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据。
在步骤S26中,基于数据元与临床数据之间的对应关系,将结构化数据进行转化,得到对应数据元中的标准数据。
在步骤S27中,基于患者信息,将对应于同一患者信息的各标准数据分别与各标准数据对应的各数据元进行关联存储。
在本公开中,步骤S23至步骤S27的实施方式分别与上述数据信息获取方法中的步骤S11至步骤S15的实施方式相同,在此不再进行赘述。
在一实施例中,数据库可以基于各临床医疗系统中获取的新的临床数据进行及时更新。在进行更新时,可以针对数据库中已存在的患者信息进行定向更新,即,针对数据库中一个或多个患者信息,当临床数据中出现该患者信息的新临床数据后,则直接进行采用上述数据信息获取方法,将该患者信息对应的临床数据转成相应的数据元对应的标准数据,进而有助于对定向患者的目标疾病进行定向分析。
在另一实施例中,为保障数据库中标准数据能够覆盖患者从患病到治愈的全过程,数据库中数据元对应的临床数据的数据来源还可以包括从患者随访系统中获取的临床数据。当患者出院时,医院内部的临床医疗系统无法及时获取患者在出院后的康复情况,因此,可以同步获取患者随访系统中的临床数据,患者随访系统中的临床数据由患者定期主动输入进行获取。在患者随访系统中,可以根据数据库对应的目标疾病设置统一的随访计划,也可以针对患者进行私人定制,从而使获取的临床数据更具有针对性。
在一实施场景中,患者随访系统可以是微信小程序,通过患者的登录,将登陆信息与数据库中对应的患者信息建立连接,进而根据患者填写的临床数据添加至数据库中,作为数据库更新的临床数据,且有助于数据库中的数据更全面。通过将数据库中的数据与患者随访系统进行同步,有助于医疗人员快速完成随访进程;同时,患者随访系统获取的随访数据也可无缝接入专病库,由此形成科研全变量覆盖闭环,对开展患者预后指标研究、疾病发展趋势研究等都具有重要意义。
在一实施场景中,数据库可采用如图3所示的获取流程获取患者随访系统中的临床数据。如图3所示,当患者出院后,通过关注对应医院的微信公众号,加入患者随访系统的同时,将数据库中该患者的各个临床数据同步至患者随访系统中。进而基于该患者的患者信息自动与数据库中同步的数据进行关联,生成该患者对应的随访计划。基于微信的定期推送和患者填写的临床数据,执行该随访计划,进而根据患者的每一次填写,完成每一次的随访。并将随访得到的临床数据同步至数据库中。定期推送可以基于患者进行手术的相对时间进行设定,例如:术后3月、6月、1年、2年、3年。
在一实施例中,若原始数据类型为文本、图像、音频、视频中任一种,则,基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据,包括:将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的结构化数据。
由于各临床数据的来源不同,因此各临床数据中临床原始信息的原始数据类型也均不相同。若原始数据类型为非结构化数据时,将其直接存储至数据库中,其数据价值度不高,且各临床数据之间数据类型不同,无法建立关联关系,无法确定数据库中的数据是否完整,进而容易造成数据库中的数据冗余,提高数据库的构建成本。因此,为便于统一管理,提高数据库的质量,减少数据库中存储的无用信息,通过语义识别技术,对各原始数据类型为非结构化数据的临床原始信息进行语义识别,将其进行结构化处理,提取有用的结构化数据,进而得到该临床原始信息对应的结构化数据。从而进行临床数据关联时,能够提高各临床数据之间的关联度,进而提高数据元与临床数据之间的关联速率,从而有助于将数据库中的数据元对应关联的临床数据及时更新,提高数据库质量,减少数据库中冗余数据。
在一实施场景中,若数据类型为文本,则基于文本识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据。文本识别模型可以包括:分词模型、特征提取模型或者自然语言处理模型(Natural Language Processing,NLP)等,在本公开中不进行限定。进行结构化处理时,还可以包括进行文字预测、多格式文书转化、将多个同一数据来源中的各个章节拆开或者合并。
在另一实施场景中,若所述原始数据类型为图像,则基于图像识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据。图像识别模型可以包括:语义分割模型,特征提取模型、目标检测模型等,在本公开中不进行限定。
在又一实施场景中,若所述原始数据类型为音频,则基于音频识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据。音频识别模型可以包括:语音识别引擎,进而将音频类的临床原始信息由音频转换成相应的文本数据,从而文本数据中得到对应的所述结构化数据。
在又一实施场景中,若原始数据类型为视频,则基于视频识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据。则可以基于图像识别模型和语音识别引擎构成的视频识别模型,将音频类的临床原始信息进行结构化处理,进而得到对应的结构化数据。
在一实施例中,数据元和临床数据的对应关系,包括:所述数据元的全部标准数据对应于临床数据的一个数据来源;或所述数据元的全部标准数据对应于临床数据的多个数据来源。即,在数据库中,针对同一数据元,其对应的全部标准数据可以是来自一个临床医疗系统,也可以来自多个临床医疗系统。例如:某一数据元对应的临床数据只有一种临床数据来源,则该数据元的全部标准数据对应于一个临床数据的临床原始信息。再例如:某一数据元可以从多个临床医疗系统中进行获取,则该数据元的全部标准数据对应于多个临床数据的临床原始信息。若某一数据元只存在一种临床医疗系统中,但其对应的临床数据与相对时间有关,不同时间获取的临床数据内容和临床数据数量可能均不相同,因此,该类型的对应关系也属于同一数据元的全部标准数据对应于临床数据的多个数据来源。
在另一实施例中,若数据元的全部标准数据对应于临床数据的一个数据来源,则基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据,包括:根据每个标准数据与其对应的数据来源,确定每个标准数据与其对应的数据来源之间的映射路径;基于映射路径以及数据元和临床数据的对应关系,将各标准数据对应的结构化数据转换为数据元的标准数据。由于标准数据的数据来源比较单一,不容易出现来源不明确、信息混淆等情况。因此,可以直接将如何从标准数据对应的数据来源中提取标准数据的过程作为该类型标准数据的映射路径,使其可以快速定位标准数据在数据来源中的具体位置,进而有助于实现标准数据的快速提取。
在一实施场景中,可以先将数据库中的数据来源进行梳理,进而建立相应的临床数据分类模型。临床数据的类型可以包括:病案首页、入院记录、手术记录、医嘱、检验等类型,在本公开中不进行限定。针对不同的临床数据类型,确定各自与数据来源之间的映射关系,进而确定映射路径,得到映射模型。当出现上述任意一种类型的临床数据时,便可基于映射模型中确定的映射路径,将该临床数据进行提取,转化成数据元需要的标准数据。若获取的临床原始信息是结构化数据,则可以直接根据映射路径进行提取。例如:数据元为“入院时间”,其对应的临床原始信息为某一具体日期。基于该标准数据与其对应的数据来源之间的映射路径:“住院病案首页_就诊信息_入院时间”可知,该临床原始信息的数据类型为结构化数据,可以直接进行提取,进而将该临床数据转换为数据元所需进行关联存储的标准数据。若获取的临床数据不是结构化数据,则基于映射路径确定临床数据的获取位置,进而将临床原始信息进行语义识别,转换成结构化数据,进而将该转换成结构化数据的临床数据转换成数据元所需进行关联存储的标准数据。例如:数据元为“卒中发作时间”,其对应的临床原始信息为某一具体日期。基于该该标准数据与其对应的数据来源之间的映射路径:“住院入院记录_现病史_卒中情况_卒中发病时间”可知,该临床原始信息的数据类型为文本,属于非结构化数据,需将该文本基于NLP模型进行结构化处理,进而得到该具体日期的结构化数据,从而将该转换成结构化数据的临床数据转换成数据元所需进行关联存储的标准数据。
在又一实施例中,若数据元的全部标准数据对应于临床数据的多个数据来源,则基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据,包括:根据预设逻辑关系,于多个临床数据对应的各结构化数据中,提取得到对应数据元中的标准数据。由于同一患者信息针对同一数据元可以涉及多个数据来源,导致针对同一实体可能出现多种表达方式,使临床数据不能直接获取。为提高获取数据元对应的标准数据的准确性,快速获取有价值的临床数据。可以通过预设逻辑关系,将临床原始信息中针对同一实体出现的多种情况进行逻辑判断、量化,进而简化提取过程,从而实现标准数据快速、准确提取的目的。例如:在前循环脑梗死急诊取栓标准数据库中,数据元为“院内感染”,需要根据首页诊断以及病程记录多个数据来源进行复杂逻辑判断,并且需要根据“肺部感染”、“泌尿系感染”、“菌血症”等不同情况输出相应的量化结果。因此可以通过设置如下逻辑关系,将各个数据来源进行逻辑判断,进而提取得到该患者信息在该数据元中的标准数据:
If出院诊断名称包括肺部感染or明确诊断名称包含肺部感染
设置院内感染等于1
Else if出院诊断名称包括泌尿系感染or明确诊断名称包含泌尿系感染
设置院内感染等于2
Else if出院诊断名称包括菌血症or明确诊断名称包含菌血症
设置院内感染等于3
Else
设置院内感染等于0
在又一实施例中,若数据元的标准数据对应于临床数据的多个数据来源,则基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据,包括:根据目标临床事件,确定数据元对应于目标临床事件的多个临床数据,以及对应于目标临床事件的各临床数据的数据来源;将对应于目标临床事件的各数据来源进行关联,并基于患者信息将与目标临床事件对应的多个临床数据进行整合,得到以患者信息为主索引的数据集;基于数据集中的各临床数据与目标临床事件之间的相对时间信息和目标临床事件与数据元之间的对应关系,将结构化数据转化得到对应数据元中的标准数据。
在建立数据库确定数据元的过程中,数据元对应的临床数据可依据目标临床事件进行确定。针对不同的目标临床事件,确定临床数据种类和数量不同,进而根据确定的多个临床数据得到对应的多个数据来源。在一实施场景中,当同一目标临床事件涉及的临床数据过多时,该目标临床事件可与多个数据元相对应。例如:一个数据元对应的临床数据不能完全覆盖目标临床事件所需的临床数据,则根据该目标临床事件所需的临床数据,确定该目标临床事件对应的多个数据元。在另一实施场景中,当同一目标临床事件涉及的临床数据过少时,数据元可以与目标临床事件之间一一对应,也可以同时对应于多个目标临床事件,在本公开中不进行限定。当该数据元对应的标准数据与时间相关时,则需要将与该目标临床事件相对应的各数据来源进行关联,确定与该目标临床事件对应的多个数据来源,便于获取临床数据。进而基于临床数据中的患者信息,将得到的各临床数据进行整合,得到以患者信息为主索引的数据集,是在该数据集中的各临床数据均属于同一患者信息。从而基于该数据集中各临床数据与目标临床事件之间的相对时间信息,确定需要进行结构化处理的临床数据,进而得到该数据元对应于目标临床事件的标准数据。且将各数据来源基于目标临床事件进行关联,有助于后续通过数据库进行数据提取时,能够明确该患者信息针对该目标临床事件的历次诊疗过程所参与的所有临床活动。
在又一实施例中,基于目标临床事件,确定数据集中的各临床数据对应的绝对时间信息以及时间转换关系;基于时间转换关系,将数据集中的各临床数据对应的绝对时间信息进行转化,得到数据集中的各临床数据与目标临床事件之间的相对时间信息。
根据数据元中与目标临床事件相对应的数据集,将其根据患者信息进行关联整合后,确定各个临床数据的绝对时间信息。并基于目标临床事件,确定将各临床数据的绝对时间转换成相对时间的时间转换关系,进而得到各临床数据基于目标临床事件的相对时间关系。时间转换关系可以基于目标临床事件与数据集中各临床数据发生的先后顺序所确定。例如:临床数据为:淋巴细胞数量的测量时间为2020年6月18日下午14:30,则2020年6月18日下午14:30即为测量淋巴细胞数量的绝对时间信息。临床数据为:发现急性大血管闭塞的时间为2020年6月19日下午13:00,则2020年6月19日下午13:00即为发现急性大血管闭塞的绝对时间信息。临床数据为:进行手术的时间为2020年6月19日14:30,则2020年6月19日14:30即为进行手术的绝对时间信息。当目标临床事件为手术后患者的卒中发作时间时,则可以基于手术时间为2020年6月19日14:30和发现急性大血管闭塞的时间为2020年6月19日下午13:00,可知发生卒中时间是在手术后的30分钟发生的,故,该30分钟即为发现急性大血管闭塞与进行手术之间相对时间信息。
基于相同发明构思,本公开还提供一种数据信息获取方法。通过本公开提供的数据信息获取方法,有助于提高各数据元对应的标准数据的完整性,进而保证数据库中的数据质量。
图4是根据一示例性实施例示出的又一种数据信息获取方法的流程图,如图4所示,数据信息获取方法可以包括以下步骤S31至步骤S36。
在步骤S31中,基于数据元对应的临床数据的提取路径,获取数据元对应的一个或多个临床数据。
在步骤S32中,基于患者信息,将一个或多个临床数据按照对应的患者信息进行关联。
在步骤S33中,基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据。
在步骤S34中,基于数据元与临床数据之间的对应关系,将结构化数据进行转化,得到对应数据元中的标准数据。
在步骤S35中,将基于预设检测标准,对任一数据元或对应于同一患者信息的任意多个数据元对应的标准数据进行数据检测。
在本公开实施例中,数据检测可以包括以下任意一种或多种:标准数据的完整性、结构类型一致性、数据术语规范性、数据内涵质控与评价以及数据来源核查进行评价,在本公开中不进行限定。在数据库中,由于各数据元的种类不同,采用的检测标准也不同。且数据元对应的标准数据的数据结构类型不同时,采用的检测方式也不相同。例如:针对标准数据的完整性进行检测时,可以通过预设的缺失率或者缺失占比所确定该临床数据的质量。若高于该缺失率或者缺失占比,则表示该数据元对应的标准数据获取的不完整,属于不合格数据。针对数据型的标准数据,进行检测时,可以通过设定异常值范围进行检测,当标准数据处于该异常值范围内时,则该准数据属于不合格数据。检测手段可以包括:3σ原则法、IQR分位数法等。针对分类型数据元,则可以基于特殊符号“/”“*”进行判断。针对需要根据预设逻辑关系进行获取标准数据的数据元,则可以基于多数据来源间的逻辑进行判断。针对结构类型一致性进行检测时,则可以根据数据元中的定义的数据类型判断与其相对应的标准数据的数据类型是否相符,进而检测该标准数据的质量。
通过在数据元对应的标准数据进行入库存储前进行检查,有助于对获取的标准数据进行实时质控,进而及时发现数据库中的标准数据存在数据缺失或异常值等现象,便于后续采用数据库中的标准数据进行研究时,能够有效避免研究结果的偏倚或失真。且针对具体问题点,可以基于该临床数据的提取路径溯源至临床原始信息中,从而有助于督促医生规范病历书写,提高科研数据质量。
在步骤S36中,基于患者信息,将对应于同一患者信息的各标准数据分别与各标准数据对应的各数据元进行关联存储。
基于相同发明构思,本公开还提供一种数据信息获取方法。能够基于上述提供的数据信息获取方法,对不合格的标准数据进行修正,进而对数据库中的各标准数据进行有效治理,从而提高数据库的数据准确性以及数据可靠性。
图5是根据一示例性实施例示出的又一种数据信息获取方法的流程图。如图5所示,数据信息获取方法可以包括以下步骤S41至步骤S47。
在步骤S41中,基于数据元对应的临床数据的提取路径,获取数据元对应的一个或多个临床数据。
在步骤S42中,基于患者信息,将一个或多个临床数据按照对应的患者信息进行关联。
在步骤S43中,基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据。
在步骤S44中,基于数据元与临床数据之间的对应关系,将结构化数据进行转化,得到对应数据元中的标准数据。
在步骤S45中,将基于预设检测标准,对任一数据元或对应于同一患者信息的任意多个数据元对应的标准数据进行数据检测。
在步骤S46中,基于数据检测的结果,对存在异常的数据元对应的临床数据进行修正,使修正后的存在异常的临床数据符合检测标准。
在本公开实施例中,基于数据检测的结果,能够确定数据库中数据质量较差的数据,即在检测过程中,确定质量不合格的数据。由于每一个标准数据在临床研究中都具有一定研究意义,因此,为保证数据的完整性,需将存在异常的数据元对应的临床数据进行修正,使其达到检测标准,以保证数据库中临床数据的可靠性,进而提高数据库的质量。修正过程可以包括:数据清洗、数据预处理以及修正统计。数据清洗可以包括:格式重组、相对时间变量转化、值域标准化、数据归一化或者数据一致性处理。当针对多个数据来源的标准数据进行修正时,可以通过多维度数据清洗功能,包括:标签、离散化、数据填补、自定义数据元等方式进行数据清洗,进而提高数据的有效性。数据预处理可以包括:数据离散化处理、数据标准化处理、数据缺失值填充、数据异常值处理、数据映射、转哑变量等。修正统计包括:数据总览、关键数据元的描述性统计分析,数据元完整度统计、标准数据统计以及各变量数据处理过程记录。在修正的过程中,通过修正统计,可以得知经过标准数据出现异常的原因,进而在进行修正时,能够对异常数据进行针对性修正,使修正过程更高效,得到的数据更具有准确性。例如:在修正的过程中,通过将数据清洗重新处理后,确定数据库中的数据出现异常的原因是因为关键的数据元对应的标准数据缺失时,则在进行修正时,可以采用数据补录或者改造EMR模板的方式进行修正。其中,数据补录可以包括直接基于标准数据对应的临床原始信息进行补充,也可以基于临床原始信息中的相对时间信息,提示用户临床数据缺失,需进行补充。改造EMR模板可以包括将常出现缺失的数据设置必填项,进而有助于及时获取临床数据,且改造的同时规范术语的使用,有助于防止误识别而导致数据缺失。再例如:在修正的过程中,通过将数据清洗重新处理后,确定数据库中的数据出现异常的原因是因为临床数据与对应的数据元所要求的数据格式不一致或者不规范时,则可以通过追溯数据元获取临床数据的数据来源重新进行匹配或者调节数据格式转换规则库,使获取的临床数据转换成数据元的标准数据时能够保持二者数据格式一致。
在步骤S47中,基于患者信息,将对应于同一患者信息的各标准数据分别与各标准数据对应的各数据元进行关联存储。
在一实施场景中,高质量的专病数据库,除具备数据完整性、可用性及可追溯性外,还应具备业务逻辑上的一致性和合理性,因此需要对病历文本内容继续深层次的逻辑检测。在进行质量检测时,可以基于对大量内涵质控真实病历机器学习的基础上,建立的以监测病历内容是否符合患者病情变化为主的智能质控规则库,进而判断数据库中的标准数据内容是否符合对应数据元所需的内容。例如:通过智能质控规则库进行数据检测,针对同一患者信息的临床原始信息,当数据元“现病史”对应的标准数据中有关于手术史的描述中,而数据元“既往史”对应的标准数据中否认了手术史,则在获取临床数据时,可能存在获取信息不完全,导致临床数据缺失的现象,进而影响该患者信息在该数据库中数据完整性。从而在进行数据研究时,影响研究人群召回率以及精准定位,容易造成研究结果不准确。通过智能化病历内涵质控系统的建立,可以及时发现临床数据中的隐含问题,同时还可以针对具体问题进行实时提醒和反馈,帮助医生从源头提升临床数据的书写质量,从而有效提高目标疾病的数据库中的数据质量。
在一实施例中,数据信息获取方法还包括将获取的所述数据元对应的一个或多个临床数据进行数据脱敏。在实际应用中,获取的临床数据里会存在部分敏感数据,将其直接使用容易对患者的信息安全产生威胁。因此,在将临床数据与患者信息进行关联前,可先将获取的临床数据进行数据脱敏,进而隐藏临床数据中的敏感信息,从而保障患者隐私的同时,有助于保持数据库中的数据完整性。其中,数据脱敏的方式可以包括:通过医疗电子交换法案(Health Insurance Portability and Accountability Act/1996,HIPAA法案)将获取的临床数据重排、通过哈希算法将获取的临床数据进行截断、通过偏移和取证的方式创建掩码,或者采取随即替换的方式将临床数据中的敏感数据进行隐藏等。
图6是根据一示例性实施例示出的一种数据信息获取示意图。如图6所示,基于数据库中的各数据元获取对应的临床数据的工作流程可以包括以下步骤S51至步骤S57。
在步骤S51中,基于数据库中的各数据元,获取各数据元对应的临床数据。
在本公开实施例中,基于调研,确定数据库中需要获取标准数据的数据元,进而针对各数据元建立相应的模型。在各数据元模型中,确定该数据元对应获取的临床数据的数据来源以及获取的映射路径,进而根据确定的映射路径和数据来源,将数据元对应的临床数据的获取。数据来源的数量可以是多个。临床数据可以是任意一个临床医疗系统中的历史数据,也可以针对某一数据元进行增量获取的数据。例如:在数据库中建立如表2至表4所示的各数据元模型。针对目标疾病的关注点不同,可以建立不同的数据元模型。
表2
表3
表4
在步骤S52中,将获取的临床数据进行数据脱敏。
在本公开实施例中,由于临床信息中包括患者信息,患者信息中会涉及用户的隐私数据,例如年龄、联系方式、婚姻史等。基于HIPAA法案、哈希算法、偏移和取整或者随机替换等数据处理方式,将获取的临床数据进行数据脱敏,有助于对临床数据中关于患者的敏感数据进行加密,从而保护患者的隐私。
在步骤S53中,将脱敏后的各临床数据基于患者信息进行关联。
在本公开实例中,将获取的各临床数据基于各临床数据中的患者信息进行关联,形成于患者信息为主索引的数据集。若临床数据中含有时间信息,可依据就诊次数将获取的临床数据对应的临床原始信息进行拆分,进而将拆分后的临床数据基于时间信息进行融合。
在步骤S54中,将关联后的各临床数据进行数据结构化处理。
在本公开实施例中,基于临床数据中的临床原始信息的数据类型,将临床数据进行相应的结构化处理,进而保持针对同一数据元,其对应的临床数据结构一致,有助于统一管理。若临床原始信息为文本时,可以将临床原始信息基于章节进行拆分或者合并。进而进行自然语言处理,识别当前文本中与数据元所需的标准数据相关的内容,从而采用文书预测、多格式文书转化等手段将临床数据进行结构化处理,得到数据元对应的标准数据进行存储。
在步骤S55中,基于数据元,将数据元对应的各标准数据进行数据加工。
在本公开实施例中,针对不同的数据元,具有不同的形式要求。且针对不同的临床医疗系统,获取的各临床数据中的各实体的指代术语、单位、记录时间、上下文实体之间的联系等均不相同,因此,各临床数据对应的标准数据之间也不尽相同。为提高数据库的质量,便于将各标准数据进行数据检测,预先将各标准数据进行数据加工,进而实现同一数据元中的各标准数据的实体映射一致,消除语义鸿沟,从而提高标准数据的数据质量。数据加工可以包括:数值变量加工、相对时间加工、状态数据加工、复杂逻辑加工、统一单位加工。例如:针对不同的数据元采用不同的数据加工方式。针对人口学信息、手术记录等数据元,采用直接映射的加工方式,将其对应的基于NLP模型,将得到的结构化、规范化的标准数据进行加工处理。例如:直接映射入院时间、手术时间、穿刺时间等。针对医嘱检验、体征评分等数据元,采用相对时间计算方式进行加工。基于相对时间,对术前术后医嘱、评分等数据进行提取。例如:通过相对时间确定:术前、术后阿司匹林的用量;术前、术后白细胞数量或者术前、术后NIHSS评分等。针对感染并发症等数据元,需要参考多个数据来源中获取的临床数据,则将各数据来源进行关联,进而基于患者信息将该数据元下的标准信息进行相互关联,通过逻辑加工进行判断。例如:基于预设逻辑条件,确定患者信息是否发生院内感染、是否有手术并发症或者是否使用呼吸机辅助呼吸。
在步骤S56中,将数据加工后的各标准数据进行数据检测。
在本公开实施例中,将数据加工后的各标准数据进行数据检测,进而保障数据库中的数据完整性以及数据规范性。进而避免因数据缺失或者出现异常值而影响数据库中其他标准数据的可靠性。且基于数据检测,有助于针对具体问题点进行溯源查询,进而有助于促进医疗人员在临床原始信息中的规范书写,提高科研数据质量。数据检测可以包括:数据完整性检测、数据一致性检测、数据规范性检测、数据内涵质控与评价或者数据溯源核查。
在步骤S57中,基于数据检测的结果,对存在异常的数据元对应的临床数据进行修正,使修正后的存在异常的临床数据符合所述检测标准。
在本公开实施例中,将异常数据进行数据治理,进而保障数据库中各标准数据的准确性以及可靠性,从而提高数据库的质量。数据治理可以包括:数据一致性治理、缺失性数据治理、重复数据治理、数据可计算化治理或者数据标注治理。
通过本公开提供的数据信息获取的工作流程,使目标疾病的数据库能够支持数据的完整性、规范性、一致性等实时、可视化质控,对质量较差数据,可利用数据清洗及预处理等功能高效完成自动治理。
基于同一种发明构思,本公开还提供一种数据分析方法。
图7是根据一示例性实施例示出的一种数据分析方法的流程图,如图7所示,数据分析方法包括以下步骤S61至步骤S63。
在步骤S61中,基于目标疾病的数据库,确定需要调取的多个标准数据对应的一个或多个数据元。
在本公开实施例中,目标疾病的数据库中的各标准数据可以采用上述任意一种数据信息获取方法进行获取。可以根据需要进行数据分析的应用场景,确定需要调取数据进行数据分析的目标疾病的数据库。进而根据需求,确定需要调取的多个标准数据对应的一个或多个数据元。其中,需要进行数据分析的应用场景可以包括:针对目标疾病的临床研究、临床医疗中针对目标疾病治疗的质控监管或者患者随访计划的设立,在本公开中不进行限定。
在步骤S62中,根据确定的各数据元,调取与各数据元关联的多个标准数据。
在本公开实施例中,数据库中的各标准数据是与其对应的数据元进行关联存储的。因此,根据确定的数据元,便可调取相应的标准数据。针对同一数据元,可以获取该数据元下的全部标准数据;也可以获取该数据元下的部分标准数据,可基于实际需求进行选择调取的标注数据数量。
在一实施例中,目标疾病的数据库还包括多个患者信息,其中,所述患者信息与所述标准数据相对应;所述根据确定的各所述数据元,调取与各所述数据元关联的多个标准数据,包括:根据确定的各所述数据元和各所述患者信息,调取与各所述患者信息对应的且与各所述数据元关联的多个标准数据。数据库中的数据元、标准数据和患者信息之间均具有对应关系。在实际应用中,标准数据是基于患者信息进行存储的,进而根据其对应的数据元进行关联。从而在进行数据调取时,可以以患者信息为主索引,基于确定的数据元调取相关联的多个标准数据。从而有助于避免数据重复。例如:当需要定向分析时,则可以基于指定的患者信息,调取确定的各数据元下所有与该患者信息相关联的标准数据,便于快速获取有用信息,加快分析进度。
在步骤S63中,基于调取的多个标准数据进行数据分析,得到数据分析结果。
在本公开实施例中,将调取的各标准数据根据其需要的应用场景进行数据分析,进而得到相应的数据分析结果。
通过本公开提供的数据分析方法,能够从众多的真实的病例数据中快速筛序有用数据,不受各临床医疗系统中数据不完整的限制,进而有助于基于大数据进行临床医学研究,促进医学发展。
在一实施例中,基于数据库中各临床数据,可以进行多维度数据挖掘,进而深度挖掘各标准数据之间的关联性,从而提高进行医疗科研的精准性以及科研的整体研究效率。例如:创建数据库时,基于R语言集成了多种医学统计模型,进而需要进行数据分析时,可以基于需要的数据元对应的标准数据以及分析模式,将各标准数据以不同形式的统计分析图表进行调取,进而能够直观的表示出各临床数据之间的研究价值。再例如:通过各临床数据的创建时间,能够确定基于以患者信息为枢纽的多维度数据之间的各临床数据的相对时间信息,进而在进行数据研究时,能够便于科研人员根据需求进行个性化选择任意相对时间对应的临床事件进行数据统计分析,如:预后分析、干预分析、疾病预测等,最大化挖掘数据价值,并提高科研的精准性和整体效率。
通过对多维度数据进行挖掘分析,有助于对临床疗效做出更加客观的评价,并通过高等级循证医学证据方式反哺临床,有助于实现个性化及精准化地诊疗。其中,疾病风险预测即是一个重要的研究方向。例如:在科研过程中,基于数据库中的大数据,发现针对目标疾病的调研问题,进而基于随机对照试验(Randomized Controlled Trial,RCT)进行验证,从而将研究结果纳入临床指南中,将成果总结进行推广。进而在临床决策支持系统(Clinical Decision Support System,CDSS)中确定患者治疗方案时,能够基于患者病情以及入院记录选择合适的治疗方案并下达医嘱。例如:确定治疗方案的过程可采用图8所示判断流程。通过入院诊断,确定TIA/缺血性卒中(NIHSS<3),进而根据患者描述的病情进行出血风险评估,并针对暂时性脑缺血或者低风险出血评估进行ABCD2评分或者HAS-BLED评分。进而基于入院记录:确定卒中发病时间小于24小时,历史医嘱中未使用阿司匹林和氯吡格雷。结合检验或者检查报告中是否提示出血,下达合适的医嘱。例如:若提示未出血,则建议进行双抗治疗。若提示出血,则可能存在抗凝治疗禁忌症。进而需要进行进一步判断。
在另一实施例中,可以通过数据库中存储的各标准数据,可以建立风险预测模型,进而可对疾病的复发、死亡、伤残以及出现并发症等概率给出量化估算,从而指导对症治疗,降低病死率。例如:以前述神经介入中心建立的前循环脑梗死急诊取栓的数据库为例,针对收集的379例患者(2012年5月-2019年6月),首先通过智能特征筛选,找出包括收缩压、房颤、高血糖、脑梗死体积、尿蛋白阳性在内的5个有显著意义的数据元;在此基础上,匹配多因素logistic回归模型及受试者工作特征曲线(ROC),围绕多项指标进行疾病相关危险因素的分析、挖掘,并分别从精度、召回率、ROC曲线下面积和Kappa系数等指标评价模型预测准确率。Logistic预测模型如下:Logit=2.172+0.341*收缩压+1.623*房颤+1.120*高血糖+1.856*脑梗死面积+0.677*尿蛋白阳性。最终结果显示,该预测模型的ROC曲线面积为0.749,灵敏度为0.751,特异度为0.820,则说明模型具有较好的预测效能,可在一定程度上辅助指导临床决策。
在又一实施例中,基于数据库中各标准数据进行数据分析,有助于真实世界研究(RWS)。由于目标疾病的数据库在获取数据信息的过程中,全程透明化采集、追踪、质控以及自动建模分析,为RWS提供了高质量的适应性真实世界数据(RWD),并能通过完善的统计分析方法,进而能够较好地满足了RWS在患者精准招募、药物临床研究、药物经济学研究等方面的需求,加速了RWS的落地应用。
在又一实施例中,基于数据库中各标准数据,有助于单病种质量管理。基于数据库在创建过程中的复杂的规则建立,进而有助于实现医学人员对单病种质控指标的自动计算、审核,帮助管理人员更加直观清晰地监控和规范诊疗行为,从而促进医院整体医疗安全和医疗质量的提高。
在又一实施例中,基于数据库中各标准数据进行数据分析,有助于多中心研究。例如:如图9所示,可将数据库采用分布式云平台进行部署,进而将云平台所在的区域中的多家医疗机构的数据库进行集成、共享,促进目标疾病的数据标准化的同时,也有助于实现临床数据的跨院利用。从而帮助相关医学人员快速累积病例、缩短针对目标疾病的研究周期。有利于相关医学人员开展大规模回顾性或前瞻性研究,提高研究水平和成果质量。
在又一实施场景中,基于数据库中各标准数据进行数据分析,有助于区块链应用落地。目标疾病的数据库在获取标准数据的过程中,全程安全透明。基于数据库中的标准数据进行区块链应用,有助于对来源多个实验场所及患者的结果数据进行高效管理和使用,进而降低多中心研究的巨大成本,提高科研效率。
在又一实施例中,基于数据库中各标准数据进行数据分析,有助于科研随访管理。基于相同的构思,本公开实施例还提供一种数据信息获取装置。
可以理解的是,本公开实施例提供的数据信息获取装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图10是根据一示例性实施例示出的一种数据信息获取装置的框图。数据信息获取装置应用于目标疾病的数据库,数据库包括一个或多个数据元。参照图10,该数据信息获取装置100包括:获取单元110,关联单元120、数据转化单元130和存储单元140。
获取单元110,用于基于数据元对应的临床数据的提取路径,获取数据元对应的一个或多个临床数据,其中,每个临床数据至少包括:临床原始信息以及对应的患者信息;并基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据。
关联单元120,用于基于患者信息,将一个或多个临床数据按照对应的患者信息进行关联。
数据转化单元130,用于基于数据元与临床数据之间的对应关系,将结构化数据进行转化,得到对应数据元中的标准数据。
存储单元140,用于基于患者信息,将对应于同一患者信息的各标准数据分别与各标准数据对应的各数据元进行关联存储。
在一实施例中,数据信息获取装置100还包括:确定单元,用于基于目标疾病,确定数据库的多个数据元以及各数据元所需的标准数据;获取单元110,还用于基于数据元所需的标准数据,确定数据元对应的一个或多个临床数据以及临床数据的数据来源,并获取数据元对应的临床数据的提取路径。
在另一实施例中,临床原始信息的原始数据类型包括以下至少一种:结构化临床数据、文本、图像、音频、视频。
在又一实施例中,若原始数据类型为文本、图像、音频、视频中任一种,则,数据转化单元130采用下述方式基于关联的临床数据,根据临床原始信息的原始数据类型,得到对应的结构化数据:将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的结构化数据。
在又一实施例中,数据转化单元130采用下述方式将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的结构化数据:若数据类型为文本,则基于文本识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为图像,则基于图像识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为音频,则基于音频识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据;若原始数据类型为视频,则基于视频识别模型进行语义识别,将关联的临床原始信息进行结构化处理,得到对应的结构化数据。
在又一实施例中,数据元和临床数据的对应关系,包括:数据元的标准数据对应于临床数据的一个数据来源;或数据元的标准数据对应于临床数据的多个数据来源。
在又一实施例中,若数据元的标准数据对应于临床数据的一个数据来源,则数据转化单元130采用下述方式基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据:根据每个标准数据与其对应的数据来源,确定每个标准数据与其对应的数据来源之间的映射路径;基于映射路径以及数据元和临床数据的对应关系,将各标准数据对应的结构化数据转换为数据元的标准数据。
在又一实施例中,若数据元的标准数据对应于临床数据的多个数据来源,则数据转化单元130采用下述方式基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据:基于数据元和临床数据的对应关系,根据预设逻辑关系,于多个临床数据对应的各结构化数据中,提取得到对应数据元中的标准数据。
在又一实施例中若数据元的标准数据对应于临床数据的多个数据来源,则数据转化单元130采用下述方式基于数据元和临床数据的对应关系,将结构化数据转化得到对应数据元中的标准数据:根据目标临床事件,确定数据元对应于目标临床事件的多个临床数据,以及对应于目标临床事件的各临床数据的数据来源;将对应于目标临床事件的各数据来源进行关联,并基于患者信息将与目标临床事件对应的多个临床数据进行整合,得到以患者信息为主索引的数据集;基于数据集中的各临床数据与目标临床事件之间的相对时间信息和目标临床事件与数据元之间的对应关系,将结构化数据转化得到对应数据元中的标准数据。
在又一实施例中,数据转化单元130采用下述方式确定数据集中的各临床数据与目标临床事件之间的相对时间信息:基于目标临床事件,确定数据集中的各临床数据对应的绝对时间信息以及时间转换关系;基于时间转换关系,将数据集中的各临床数据对应的绝对时间信息进行转化,得到数据集中的各临床数据与目标临床事件之间的相对时间信息。
在又一实施例中,数据信息获取装置还包括:检测单元,用于基于预设检测标准,对任一数据元或对应于同一患者信息的任意多个数据元对应的标准数据进行数据检测。
在又一实施例中,数据信息获取装置还包括:治理单元,用于基于数据检测的结果,对存在异常的数据元对应的临床数据进行修正,使修正后的存在异常的临床数据符合检测标准。
在又一实施例中,数据信息获取装置还包括:数据保护单元,用于将获取的数据元对应的一个或多个临床数据进行数据脱敏。
基于相同的构思,本公开实施例还提供一种数据分析装置。
可以理解的是,本公开实施例提供的数据分析装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图11是根据一示例性实施例示出的一种数据分析装置的框图。参照图11,该数据分析装置200包括:确定单元210、调取单元220和分析单元230。
确定单元210,用于基于目标疾病的数据库,确定需要调取的多个标准数据对应的一个或多个数据元。
调取单元220,用于根据确定的各数据元,调取与各数据元关联的多个标准数据。
分析单元230,用于基于调取的多个标准数据进行数据分析,得到数据分析结果;其中,目标疾病的数据库中的各数据元对应的标准数据采用上述任意一种数据信息获取方法进行获取。
在一实施例中,目标疾病的数据库还包括多个患者信息,其中,患者信息与标准数据相对应。调取单元220采用下述方式根据确定的各数据元,调取与各数据元关联的多个标准数据:根据确定的各数据元和各患者信息,调取与各患者信息对应的且与各数据元关联的多个标准数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图12是根据一示例性实施例示出的一种用于数据信息获取或者数据分析的装置300的框图。例如,装置300可以被提供为一服务器。参照图12,装置300包括处理组件322,其进一步包括一个或多个处理器,以及由存储器332所代表的存储器资源,用于存储可由处理组件322的执行的指令,例如应用程序。存储器332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件322被配置为执行指令,以执行上述任意一种数据信息获取方法或者数据分析方法。
装置300还可以包括一个电源组件326被配置为执行装置300的电源管理,一个有线或无线网络接口350被配置为将装置300连接到网络,和一个输入输出(I/O)接口358。装置300可以操作基于存储在存储器332的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,可以执行上文任意一种数据信息获取方法或者数据分析方法。
进一步可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (30)

1.一种数据信息获取方法,其特征在于,应用于目标疾病的数据库,所述数据库包括一个或多个数据元;其中,所述数据信息获取方法包括:
基于所述数据元对应的临床数据的提取路径,获取所述数据元对应的一个或多个临床数据,其中,每个所述临床数据至少包括:临床原始信息以及对应的患者信息;
基于所述患者信息,将一个或多个所述临床数据按照对应的患者信息进行关联;
基于关联的临床数据,根据所述临床原始信息的原始数据类型,得到对应的结构化数据;
基于所述数据元与所述临床数据之间的对应关系,将所述结构化数据进行转化,得到对应所述数据元中的标准数据;
基于所述患者信息,将对应于同一所述患者信息的各所述标准数据分别与各所述标准数据对应的各所述数据元进行关联存储;
其中,所述数据元和所述临床数据的对应关系,包括:所述数据元的所述标准数据对应于所述临床数据的一个数据来源;或所述数据元的所述标准数据对应于所述临床数据的多个数据来源;其中,若所述数据元的所述标准数据对应于所述临床数据一个数据来源,则所述基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据,包括:根据每个所述标准数据与其对应的数据来源,确定每个所述标准数据与其对应的数据来源之间的映射路径;基于所述映射路径以及所述数据元和所述临床数据的对应关系,将各所述标准数据对应的结构化数据转换为所述数据元的标准数据;其中,若所述数据元的所述标准数据对应于所述临床数据的多个数据来源,则所述基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据,包括:所述基于所述数据元和所述临床数据的对应关系,根据预设逻辑关系,于所述多个临床数据对应的各所述结构化数据中,提取得到对应所述数据元中的标准数据;其中,若所述数据元的所述标准数据对应于所述临床数据的多个数据来源,则所述基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据,包括:根据目标临床事件,确定所述数据元对应于所述目标临床事件的多个临床数据,以及对应于所述目标临床事件的各临床数据的数据来源;将对应于所述目标临床事件的各数据来源进行关联,并基于所述患者信息将与所述目标临床事件对应的多个临床数据进行整合,得到以所述患者信息为主索引的数据集;基于所述数据集中的各临床数据与所述目标临床事件之间的相对时间信息和所述目标临床事件与所述数据元之间的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据。
2.根据权利要求1所述的方法,其特征在于,所述数据信息获取方法还包括:
基于所述目标疾病,确定所述数据库的多个数据元以及各所述数据元所需的标准数据;
基于所述数据元所需的标准数据,确定所述数据元对应的一个或多个临床数据以及所述临床数据的数据来源,并获取所述数据元对应的临床数据的提取路径。
3.根据权利要求1或2所述的方法,其特征在于,所述临床原始信息的原始数据类型包括以下至少一种:结构化临床数据、文本、图像、音频、视频。
4.根据权利要求3所述的方法,其特征在于,若所述原始数据类型为文本、图像、音频、视频中任一种,则,所述基于关联的临床数据,根据所述临床原始信息的原始数据类型,得到对应的结构化数据,包括:
将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的所述结构化数据。
5.根据权利要求4所述的方法,其特征在于,所述将所述关联的临床原始信息通过语义识别,进行结构化处理,得到对应的所述结构化数据,包括:
若所述数据类型为文本,则基于文本识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据;
若所述原始数据类型为图像,则基于图像识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据;
若所述原始数据类型为音频,则基于音频识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据;
若所述原始数据类型为视频,则基于视频识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据。
6.根据权利要求1所述的方法,其特征在于,所述数据集中的各临床数据与所述目标临床事件之间的相对时间信息采用下述方式进行确定,包括:
基于所述目标临床事件,确定所述数据集中的各临床数据对应的绝对时间信息以及时间转换关系;
基于所述时间转换关系,将所述数据集中的各临床数据对应的所述绝对时间信息进行转化,得到所述数据集中的各临床数据与所述目标临床事件之间的相对时间信息。
7.根据权利要求1所述的方法,其特征在于,所述数据信息获取方法还包括:
基于预设检测标准,对任一所述数据元或对应于同一患者信息的任意多个所述数据元对应的所述标准数据进行数据检测。
8.根据权利要求7所述的方法,其特征在于,所述数据信息获取方法还包括:
基于所述数据检测的结果,对存在异常的数据元对应的临床数据进行修正,使修正后的存在异常的临床数据符合所述检测标准。
9.根据权利要求1所述的方法,其特征在于,所述数据信息获取方法还包括:
将获取的所述数据元对应的一个或多个临床数据进行数据脱敏。
10.一种数据分析方法,其特征在于,所述数据分析方法包括:
基于目标疾病的数据库,确定需要调取的多个标准数据对应的一个或多个数据元;
根据确定的各所述数据元,调取与各所述数据元关联的多个标准数据;
基于调取的所述多个标准数据进行数据分析,得到数据分析结果;
其中,所述目标疾病的数据库中的各所述数据元对应的所述标准数据采用权利要求1-9任意一项所述的数据信息获取方法进行获取。
11.根据权利要求10所述的数据分析方法,其特征在于,
所述目标疾病的数据库还包括多个患者信息,其中,所述患者信息与所述标准数据相对应;
所述根据确定的各所述数据元,调取与各所述数据元关联的多个标准数据,包括:
根据确定的各所述数据元和各所述患者信息,调取与各所述患者信息对应的且与各所述数据元关联的多个标准数据。
12.一种数据信息获取装置,其特征在于,应用于目标疾病的数据库,所述数据库包括一个或多个数据元;其中,所述数据信息获取装置包括:
获取单元,用于基于所述数据元对应的临床数据的提取路径,获取所述数据元对应的一个或多个临床数据,其中,每个所述临床数据至少包括:临床原始信息以及对应的患者信息;并基于关联的临床数据,根据所述临床原始信息的原始数据类型,得到对应的结构化数据;
关联单元,用于基于所述患者信息,将一个或多个所述临床数据按照对应的患者信息进行关联;
数据转化单元,用于基于所述数据元与所述临床数据之间的对应关系,将所述结构化数据进行转化,得到对应所述数据元中的标准数据;
存储单元,用于基于所述患者信息,将对应于同一所述患者信息的各所述标准数据分别与各所述标准数据对应的各所述数据元进行关联存储;
其中,所述数据元和所述临床数据的对应关系,包括:所述数据元的所述标准数据对应于所述临床数据的一个数据来源;或所述数据元的所述标准数据对应于所述临床数据的多个数据来源;
其中,若所述数据元的所述标准数据对应于所述临床数据一个数据来源,则所述基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据,包括:根据每个所述标准数据与其对应的数据来源,确定每个所述标准数据与其对应的数据来源之间的映射路径;基于所述映射路径以及所述数据元和所述临床数据的对应关系,将各所述标准数据对应的结构化数据转换为所述数据元的标准数据;
其中,若所述数据元的所述标准数据对应于所述临床数据的多个数据来源,则所述基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据,包括:所述基于所述数据元和所述临床数据的对应关系,根据预设逻辑关系,于所述多个临床数据对应的各所述结构化数据中,提取得到对应所述数据元中的标准数据;
其中,若所述数据元的所述标准数据对应于所述临床数据的多个数据来源,则所述基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据,包括:根据目标临床事件,确定所述数据元对应于所述目标临床事件的多个临床数据,以及对应于所述目标临床事件的各临床数据的数据来源;将对应于所述目标临床事件的各数据来源进行关联,并基于所述患者信息将与所述目标临床事件对应的多个临床数据进行整合,得到以所述患者信息为主索引的数据集;基于所述数据集中的各临床数据与所述目标临床事件之间的相对时间信息和所述目标临床事件与所述数据元之间的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据。
13.根据权利要求12所述的装置,其特征在于,所述数据信息获取装置还包括:
确定单元,用于基于所述目标疾病,确定所述数据库的多个数据元以及各所述数据元所需的标准数据;
所述获取单元,还用于基于所述数据元所需的标准数据,确定所述数据元对应的一个或多个临床数据以及所述临床数据的数据来源,并获取所述数据元对应的临床数据的提取路径。
14.根据权利要求12或13所述的装置,其特征在于,所述临床原始信息的原始数据类型包括以下至少一种:结构化临床数据、文本、图像、音频、视频。
15.根据权利要求14所述的装置,其特征在于,若所述原始数据类型为文本、图像、音频、视频中任一种,则,所述数据转化单元采用下述方式基于关联的临床数据,根据所述临床原始信息的原始数据类型,得到对应的结构化数据:
将关联的临床原始信息通过语义识别,进行结构化处理,得到对应的所述结构化数据。
16.根据权利要求15所述的装置,其特征在于,所述数据转化单元采用下述方式将所述关联的临床原始信息通过语义识别,进行结构化处理,得到对应的所述结构化数据:
若所述数据类型为文本,则基于文本识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据;
若所述原始数据类型为图像,则基于图像识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据;
若所述原始数据类型为音频,则基于音频识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据;
若所述原始数据类型为视频,则基于视频识别模型进行语义识别,将所述关联的临床原始信息进行结构化处理,得到对应的所述结构化数据。
17.根据权利要求12或13所述的装置,其特征在于,所述数据元和所述临床数据的对应关系,包括:
所述数据元的所述标准数据对应于所述临床数据的一个数据来源;或
所述数据元的所述标准数据对应于所述临床数据的多个数据来源。
18.根据权利要求17所述的装置,其特征在于,若所述数据元的所述标准数据对应于所述临床数据的一个数据来源,则所述数据转化单元采用下述方式基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据:
根据每个所述标准数据与其对应的数据来源,确定每个所述标准数据与其对应的数据来源之间的映射路径;
基于所述映射路径以及所述数据元和所述临床数据的对应关系,将各所述标准数据对应的结构化数据转换为所述数据元的标准数据。
19.根据权利要求17所述的装置,其特征在于,若所述数据元的所述标准数据对应于所述临床数据的多个数据来源,则所述数据转化单元采用下述方式基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据:
所述基于所述数据元和所述临床数据的对应关系,根据预设逻辑关系,于所述多个临床数据对应的各所述结构化数据中,提取得到对应所述数据元中的标准数据。
20.根据权利要求17所述的装置,其特征在于,若所述数据元的所述标准数据对应于所述临床数据的多个数据来源,则所述数据转化单元采用下述方式基于所述数据元和所述临床数据的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据:
根据目标临床事件,确定所述数据元对应于所述目标临床事件的多个临床数据,以及对应于所述目标临床事件的各临床数据的数据来源;
将对应于所述目标临床事件的各数据来源进行关联,并基于所述患者信息将与所述目标临床事件对应的多个临床数据进行整合,得到以所述患者信息为主索引的数据集;
基于所述数据集中的各临床数据与所述目标临床事件之间的相对时间信息和所述目标临床事件与所述数据元之间的对应关系,将所述结构化数据转化得到对应所述数据元中的标准数据。
21.根据权利要求20所述的装置,其特征在于,所述数据转化单元采用下述方式确定数据集中的各临床数据与所述目标临床事件之间的相对时间信息:
基于所述目标临床事件,确定所述数据集中的各临床数据对应的绝对时间信息以及时间转换关系;
基于所述时间转换关系,将所述数据集中的各临床数据对应的所述绝对时间信息进行转化,得到所述数据集中的各临床数据与所述目标临床事件之间的相对时间信息。
22.根据权利要求12所述的装置,其特征在于,所述数据信息获取装置还包括:
检测单元,用于基于预设检测标准,对任一所述数据元或对应于同一患者信息的任意多个所述数据元对应的所述标准数据进行数据检测。
23.根据权利要求22所述的装置,其特征在于,所述数据信息获取装置还包括:
治理单元,用于基于所述数据检测的结果,对存在异常的数据元对应的临床数据进行修正,使修正后的存在异常的临床数据符合所述检测标准。
24.根据权利要求12所述的装置,其特征在于,所述数据信息获取装置还包括:
数据保护单元,用于将获取的所述数据元对应的一个或多个临床数据进行数据脱敏。
25.一种数据分析装置,其特征在于,所述数据分析装置包括:
确定单元,用于基于目标疾病的数据库,确定需要调取的多个标准数据对应的一个或多个数据元;
调取单元,用于根据确定的各所述数据元,调取与各所述数据元关联的多个标准数据;
分析单元,用于基于调取的所述多个标准数据进行数据分析,得到数据分析结果;
其中,所述目标疾病的数据库中的各所述数据元对应的所述标准数据采用权利要求1-9任意一项所述的数据信息获取方法进行获取。
26.根据权利要求25所述的数据分析装置,其特征在于,
所述目标疾病的数据库还包括多个患者信息,其中,所述患者信息与所述标准数据相对应;
所述调取单元采用下述方式根据确定的各所述数据元,调取与各所述数据元关联的多个标准数据:
根据确定的各所述数据元和各所述患者信息,调取与各所述患者信息对应的且与各所述数据元关联的多个标准数据。
27.一种数据信息获取装置,其特征在于,所述数据信息获取装置包括:
存储器,用于存储指令;以及
处理器;用于调用所述存储器存储的指令执行权利要求1-9中任意一项所述的数据信息获取方法。
28.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-9中任意一项所述的数据信息获取方法。
29.一种数据分析装置,其特征在于,所述数据分析装置包括:
存储器,用于存储指令;以及
处理器;用于调用所述存储器存储的指令执行权利要求10-11中任意一项所述的数据分析方法。
30.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求10-11中任意一项所述的数据分析方法。
CN202010649096.XA 2020-07-08 2020-07-08 数据信息获取方法、数据分析方法、装置以及存储介质 Active CN111863267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010649096.XA CN111863267B (zh) 2020-07-08 2020-07-08 数据信息获取方法、数据分析方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010649096.XA CN111863267B (zh) 2020-07-08 2020-07-08 数据信息获取方法、数据分析方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN111863267A CN111863267A (zh) 2020-10-30
CN111863267B true CN111863267B (zh) 2024-01-26

Family

ID=73153110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010649096.XA Active CN111863267B (zh) 2020-07-08 2020-07-08 数据信息获取方法、数据分析方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN111863267B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700830B (zh) * 2020-12-30 2023-03-24 医渡云(北京)技术有限公司 从电子病历中提取结构化信息的方法、装置及存储介质
CN112801492B (zh) * 2021-01-22 2023-07-25 中国平安人寿保险股份有限公司 基于知识阶层的数据质检的方法、装置及计算机设备
CN112910923A (zh) * 2021-03-04 2021-06-04 麦荣章 一种智能金融大数据处理系统
CN113075381A (zh) * 2021-03-15 2021-07-06 华南理工大学 一种模拟岩溶地区地铁振动引发岩溶覆土塌陷的试验系统
CN113052220A (zh) * 2021-03-16 2021-06-29 洛阳城市建设勘察设计院有限公司郑州工程分公司 直埋供热管道研究用密封性强度检测系统、终端、介质
CN113042925A (zh) * 2021-03-17 2021-06-29 洛阳城市建设勘察设计院有限公司郑州工程分公司 智能化的大管径管网焊接加工机床、控制方法、处理终端
WO2022231518A1 (en) * 2021-04-28 2022-11-03 Kkt Technology Pte. Ltd. Systems and methods for retaining and analyzing health information
CN113409154A (zh) * 2021-05-10 2021-09-17 精英数智科技股份有限公司 一种基于可信存储的安责险处理方法和系统
CN113674868A (zh) * 2021-08-24 2021-11-19 联仁健康医疗大数据科技股份有限公司 一种临床研究数据的采集方法、装置、设备及存储介质
CN113871025A (zh) * 2021-09-08 2021-12-31 四川大学华西医院 一种皮肤科临床专病数据库建设方法和系统
CN113921128B (zh) * 2021-09-16 2022-07-26 天津流水线医疗器械有限公司 对医疗检测数据软件自动的审核方法及电子设备
CN114203289B (zh) * 2021-12-13 2023-03-21 杭州佑医科技有限公司 与院内急诊系统实时通信的方法及装置
CN116741392A (zh) * 2023-05-23 2023-09-12 南方医科大学南方医院 一种临床科研数据生成路径与导出方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009011736A1 (en) * 2007-07-17 2009-01-22 Eclipsys Corporation Analytical methods and software product for automated health care information systems
CN104834989A (zh) * 2015-03-27 2015-08-12 首都医科大学附属北京世纪坛医院 一种多病种慢性病信息管理系统
CN109766329A (zh) * 2018-12-29 2019-05-17 湖南网数科技有限公司 一种支持交换共享的临床数据单元生成方法和装置
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN110021405A (zh) * 2017-09-11 2019-07-16 首都医科大学附属北京天坛医院 一种医疗数据采集方法
CN110335647A (zh) * 2019-06-21 2019-10-15 上海市精神卫生中心(上海市心理咨询培训中心) 一种临床数据标准化系统及标准化数据采集方法
CN110853745A (zh) * 2019-09-23 2020-02-28 陈翔 一种皮肤病患者规范化系统
US10628553B1 (en) * 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190156947A1 (en) * 2017-11-22 2019-05-23 Vital Images, Inc. Automated information collection and evaluation of clinical data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009011736A1 (en) * 2007-07-17 2009-01-22 Eclipsys Corporation Analytical methods and software product for automated health care information systems
US10628553B1 (en) * 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system
CN104834989A (zh) * 2015-03-27 2015-08-12 首都医科大学附属北京世纪坛医院 一种多病种慢性病信息管理系统
CN110021405A (zh) * 2017-09-11 2019-07-16 首都医科大学附属北京天坛医院 一种医疗数据采集方法
CN109766329A (zh) * 2018-12-29 2019-05-17 湖南网数科技有限公司 一种支持交换共享的临床数据单元生成方法和装置
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN110335647A (zh) * 2019-06-21 2019-10-15 上海市精神卫生中心(上海市心理咨询培训中心) 一种临床数据标准化系统及标准化数据采集方法
CN110853745A (zh) * 2019-09-23 2020-02-28 陈翔 一种皮肤病患者规范化系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
临床数据中心的构建与应用;林琳等;中国数字医学;第11卷(第8期);31-33、37 *
基于单病种数据库的临床科研系统的设计与研发;高宇等;中国肿瘤;第26卷(第9期);677-682 *
应用于转化医学基础研究的临床数据整理流程设计;张弛;中国数字医学(第6期);摘要 *
心房颤动数据元标准化研究;李君等;北京生物医学工程;第32卷(第4期);363-369 *

Also Published As

Publication number Publication date
CN111863267A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111863267B (zh) 数据信息获取方法、数据分析方法、装置以及存储介质
CN111292821B (zh) 一种医学诊疗系统
Subrahmanya et al. The role of data science in healthcare advancements: applications, benefits, and future prospects
CN110415831B (zh) 一种医疗大数据云服务分析平台
Fang et al. Computational health informatics in the big data age: a survey
Alizadehsani et al. A database for using machine learning and data mining techniques for coronary artery disease diagnosis
KR101873926B1 (ko) 빅데이터 기반 의료자문 서비스 제공 방법
Taylor et al. Prediction of in‐hospital mortality in emergency department patients with sepsis: a local big data–driven, machine learning approach
CN112133445A (zh) 一种心血管疾病管理服务方法和系统
US20220044809A1 (en) Systems and methods for using deep learning to generate acuity scores for critically ill or injured patients
US20150073830A1 (en) Electrical Computing Devices for Recruiting a Patient Population for a Clinical Trial
Deshmukh et al. Evaluating the informatics for integrating biology and the bedside system for clinical research
Silvestri et al. A big data architecture for the extraction and analysis of EHR data
JP7437386B2 (ja) 医療記録を分類する方法
Begoli et al. Towards a heterogeneous, polystore-like data architecture for the US Department of Veteran Affairs (VA) enterprise analytics
Zhang et al. DBNet: a novel deep learning framework for mechanical ventilation prediction using electronic health records
Gowsalya et al. Predicting the risk of readmission of diabetic patients using MapReduce
Osop et al. Electronic health records: Improvement to healthcare decision-making
JP2020201697A (ja) 診断支援システム
CN114783557A (zh) 肿瘤患者数据的处理方法和装置、存储介质及处理器
EP3654339A1 (en) Method of classifying medical records
CN113096795A (zh) 多源数据辅助的临床决策支持系统及方法
Charitha et al. Big Data Analysis and Management in Healthcare
Subbhuraam Predictive analytics in healthcare
Bundi et al. The role of IoT, blockchain, artificial intelligence and machine learning in maternal health

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant