CN113345545B - 临床数据的稽查方法、装置、电子设备及可读存储介质 - Google Patents
临床数据的稽查方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113345545B CN113345545B CN202110853715.1A CN202110853715A CN113345545B CN 113345545 B CN113345545 B CN 113345545B CN 202110853715 A CN202110853715 A CN 202110853715A CN 113345545 B CN113345545 B CN 113345545B
- Authority
- CN
- China
- Prior art keywords
- medical record
- information
- patient
- standardized
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000007689 inspection Methods 0.000 claims abstract description 127
- 238000002372 labelling Methods 0.000 claims abstract description 31
- 238000003745 diagnosis Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 20
- 238000012550 audit Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 9
- 206010008479 Chest Pain Diseases 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 208000002193 Pain Diseases 0.000 description 2
- 208000032023 Signs and Symptoms Diseases 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000008961 swelling Effects 0.000 description 2
- 230000033772 system development Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种临床数据的稽查方法、装置、电子设备及可读存储介质,从医院异构系统的大数据中获取多个患者病历文本;按照预设标准格式,统一从医院异构系统的大数据中获取的每个患者病历文本中数据的书写格式,得到多个统一化病历文本;针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。这样,便能够准确地对来自于医院异构系统中的患者病历文本进行稽查。
Description
技术领域
本申请涉及数据核查技术领域,尤其是涉及一种临床数据的稽查方法、装置、电子设备及可读存储介质。
背景技术
随着科技的不断发展,各大医院在记录患者的诊断详情时,通常是通过计算机来录入的,但是,即使对于一个医院来说,各个诊室所使用的录入诊断详情的系统大多是由不同的程序开发商在不同的时间进行设计及部署的,而也正是由于异构系统的不同,使得录入的数据标准、交换协议等均不一致,进而,使得异构系统之间的信息交换难以进行,大大降低医院的工作效率,增加系统开发、维护成本,也增加病人反复确认的成本和医疗风险。因此,在异构系统中如何完成病历信息的稽查成为了亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种临床数据的稽查方法、装置、电子设备及可读存储介质,能够对从医院异构系统中获取到的多个患者病历文本进行标准化处理,并对标准化处理后的标准化病历信息进行稽查,得多个患者病历文本整体上的稽查报告,进而,准确的对来自于医院异构系统中的患者病历文本进行稽查。
本申请实施例提供了一种临床数据的稽查方法,所述稽查方法包括:
响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;
按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;
针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;
整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;
稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。
在一种可能的实施方式中,所述响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本,包括:
响应于病历稽查操作,确定所述病历稽查操作所指示的至少一个查询主题;
从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本。
在一种可能的实施方式中,当所述病历稽查操作包括患者病历稽查操作时,所述至少一个查询主题包括待稽查患者,所述从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本,包括:
基于所述待稽查患者的身份信息,从医院异构系统的大数据中获取出所述待稽查患者的多个患者病历文本。
在一种可能的实施方式中,当所述病历稽查操作包括科室病历稽查操作时,所述至少一个查询主题包括至少一个待查询科室,所述从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本,包括:
从医院异构系统的大数据中获取出每个待查询科室的多个患者病历文本。
在一种可能的实施方式中,所述稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告,包括:
针对于每个标准化病历信息,比对该标准化病历信息中每个病历字段与该标准化病历信息对应的患者病历文本所属科室的病历字典规范范围,生成该标准化病历信息的一致性稽查结果;
分别从每个标准化病历信息中确定出待稽查字段的属性信息值,并比对确定出的多个属性信息值,生成所述多个标准化病历信息的关联稽查结果;
确定每个标准化病历信息的诊断时间,并基于确定出的多个诊断时间,确定所述多个标准化病历信息之间的诊断时序的合理性,生成所述多个标准化病历信息的及时性稽查结果;
针对于每个标准化病历信息,确定该标准化病历信息中每种类别信息的分布占比,基于每种类别信息的分布占比,生成该标准化病历信息的分布稽查结果;
基于每个标准化病历信息的一致性稽查结果和分布稽查结果,以及所述多个标准化病历信息的关联稽查结果和时性稽查结果,生成所述多个患者病历文本的稽查报告。
在一种可能的实施方式中,通过以下步骤获取出每个查询主题下的多个患者病历文本:
针对于每个查询主题,确定该查询主题的初始聚类中心;
从医院异构系统的大数据中获取出多个候选病历文本;
针对于每个候选病历文本,计算该候选病历文本与所述初始聚类中心之间的相似度;
当所述相似度大于预设相似度阈值时,将该候选病历文本确定为所述患者病历文本,得到所述多个患者病历文本。
在一种可能的实施方式中,所述针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系,包括:
针对于每个统一化病历文本,将该统一化病历文本输入至预先训练好的术语关系模型中,从该统一化病历文本中提取出用以表征患者信息的多个关键术语;
将所述多个关键术语输入至预先训练好的关系提取模型中,确定每两个关键术语之间的标注关系。
本申请实施例还提供了一种临床数据的稽查装置,所述稽查装置包括:
病历获取模块,用于响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;
统一化处理模块,用于按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;
术语提取模块,用于针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;
整合模块,用于整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;
信息稽查模块,用于稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。
在一种可能的实施方式中,所述病历获取模块在用于响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本时,所述病历获取模块用于:
响应于病历稽查操作,确定所述病历稽查操作所指示的至少一个查询主题;
从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本。
在一种可能的实施方式中,当所述病历稽查操作包括患者病历稽查操作时,所述至少一个查询主题包括待稽查患者,所述病历获取模块在用于从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本时,所述病历获取模块用于:
基于所述待稽查患者的身份信息,从医院异构系统的大数据中获取出所述待稽查患者的多个患者病历文本。
在一种可能的实施方式中,当所述病历稽查操作包括科室病历稽查操作时,所述至少一个查询主题包括至少一个待查询科室,所述病历获取模块在用于从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本时,所述病历获取模块用于:
从医院异构系统的大数据中获取出每个待查询科室的多个患者病历文本。
在一种可能的实施方式中,所述信息稽查模块在用于稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告时,所述信息稽查模块用于:
针对于每个标准化病历信息,比对该标准化病历信息中每个病历字段与该标准化病历信息对应的患者病历文本所属科室的病历字典规范范围,生成该标准化病历信息的一致性稽查结果;
分别从每个标准化病历信息中确定出待稽查字段的属性信息值,并比对确定出的多个属性信息值,生成所述多个标准化病历信息的关联稽查结果;
确定每个标准化病历信息的诊断时间,并基于确定出的多个诊断时间,确定所述多个标准化病历信息之间的诊断时序的合理性,生成所述多个标准化病历信息的及时性稽查结果;
针对于每个标准化病历信息,确定该标准化病历信息中每种类别信息的分布占比,基于每种类别信息的分布占比,生成该标准化病历信息的分布稽查结果;
基于每个标准化病历信息的一致性稽查结果和分布稽查结果,以及所述多个标准化病历信息的关联稽查结果和时性稽查结果,生成所述多个患者病历文本的稽查报告。
在一种可能的实施方式中,所述病历获取模块用于通过以下步骤获取出每个查询主题下的多个患者病历文本:
针对于每个查询主题,确定该查询主题的初始聚类中心;
从医院异构系统的大数据中获取出多个候选病历文本;
针对于每个候选病历文本,计算该候选病历文本与所述初始聚类中心之间的相似度;
当所述相似度大于预设相似度阈值时,将该候选病历文本确定为所述患者病历文本,得到所述多个患者病历文本。
在一种可能的实施方式中,所述术语提取模块在用于针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系时,所述术语提取模块用于:
针对于每个统一化病历文本,将该统一化病历文本输入至预先训练好的术语关系模型中,从该统一化病历文本中提取出用以表征患者信息的多个关键术语;
将所述多个关键术语输入至预先训练好的关系提取模型中,确定每两个关键术语之间的标注关系。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的临床数据的稽查方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的临床数据的稽查方法的步骤。
本申请实施例提供的临床数据的稽查方法、装置、电子设备及可读存储介质,响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。这样,便能够对从医院异构系统中获取到的多个患者病历文本进行标准化处理,并对标准化处理后的标准化病历信息进行稽查,得多个患者病历文本整体上的稽查报告,进而,准确的对来自于异构系统中的患者病历文本进行稽查。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种临床数据的稽查系统的结构示意图;
图2为本申请实施例所提供的一种临床数据的稽查方法的流程图;
图3为本申请所提供的一种患者病例文本获取流程示意图;
图4为本申请实施例所提供的一种术语关系模型训练过程示意图;
图5为本申请实施例所提供的一种关系提取模型训练过程示意图;
图6为本申请实施例所提供的一种临床住院流程示意图;
图7为本申请实施例所提供的一种稽查流程示意图;
图8为本申请实施例所提供的一种临床数据的稽查装置的结构示意图;
图9为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,随着科技的不断发展,各大医院在记录患者的诊断详情时,通常是通过计算机来录入的,但是,即使对于一个医院来说,各个诊室所使用的录入诊断详情的系统大多是由不同的程序开发商在不同的时间进行设计及部署的,而也正是由于异构系统的不同,使得录入的数据标准、交换协议等均不一致,进而,使得异构系统之间的信息交换难以进行,大大降低医院的工作效率,增加系统开发、维护成本,也增加病人反复确认的成本和医疗风险。因此,在异构系统中如何完成病历信息的稽查成为了亟待解决的问题。
基于此,本申请实施例提供了一种临床数据的稽查方法,可以准确地对来自于医院异构系统中的多个患者病历文本进行稽查,进而,可以减少医生和/或患者稽查病历文本所花费的时间。
请参阅图1,图1为本申请实施例所提供的一种临床数据的稽查系统的结构示意图。如图1中所示,所述稽查系统1包括稽查装置100、关系型数据库200、医院异构系统300以及API管理模块400。
稽查装置100通过适配器适配来自于不同医院异构系统300中的患者病历文本,并对获取到的多个患者病历文本进行统一化、标准化处理,将得到的标准化病历信息存储至关系型数据库200;后续稽查装置100还可以对整合出的标准化病历信息进行稽查,得到多个患者病历文本的稽查报告;通过API管理模块400将稽查报告封装为HTTP接口API。
其中,医院异构系统300包括HID系统、EMR(Electronic Medical Record)系统、LIS(Laboratory Information Management System)系统、ICU(Intensive Care Unit)系统、PIVAS(Pharmacy Intravenous Admixture Services)系统等。
此外,稽查系统1中还包括有权限管理模块可以对用户的查询权限进行配置。
请参阅图2,图2为本申请实施例所提供的一种临床数据的稽查方法的流程图。如图2中所示,本申请实施例提供的临床数据的稽查方法,包括:
S201、响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;
S202、按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;
S203、针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;
S204、整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;
S205、稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。
本申请实施例提供的临床数据的稽查方法,能够对从医院异构系统中获取到的多个患者病历文本进行标准化处理,并对标准化处理后的标准化病历信息进行稽查,得多个患者病历文本整体上的稽查报告,进而,准确的对来自于异构系统中的患者病历文本进行稽查。
当医院的相关工作人员想要稽查患者病历文本,或者是患者想要稽查自己的病历文本时,可通过医院内的智能设备或者是智能手机等,以触控操作的方式执行病历稽查操作。
关键术语是指能够表明患者受伤部位、患者症状以及症状持续时间等医学概念词语,例如。患者病历文本“头面部破裂出血伴鼻部肿痛4小时”,可提取出关键术语“头面部”、“破裂”、“出血”、“鼻部”、“肿痛”、“4小时”。
标注关系是指两个关键术语之间的直接关系,例如,“4小时”为用于描述“破裂”的时间。
步骤S201、响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本。
该步骤中,由于多个患者病历文本是从医院异构系统中获取到的,因此,为了避免获取到的患者病历文本不能够适配,获取时通过适配器模块适配来自于不同系统中的患者病历文本。
在一种实施方式中,步骤S201包括:响应于病历稽查操作,确定所述病历稽查操作所指示的至少一个查询主题;按照所述至少一个查询主题,从医院异构系统的大数据中获取出多个患者病历文本。
在稽查过程中,可以按照病历稽查操作的指示针对性的稽查某一查询主题下的多个患者病历文本,具体的,首先,从病历稽查操作中确定出至少一个查询主题;然后,按照至少一个查询主题,从医院异构系统的大数据中获取每个查询主题下的至少一个患者病历文本;最后,在逐一获取每个查询主题下的患者病历文本后,得到多个患者病历文本。
在一种实施方式中,当所述病历稽查操作包括患者病历稽查操作时,所述至少一个查询主题包括待稽查患者,所述从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本,包括:基于所述待稽查患者的身份信息,从医院异构系统的大数据中获取出所述待稽查患者的多个患者病历文本。
该步骤中,当需要针对于某一待稽查患者,稽查该待稽查患者的病历文本时,根据该待稽查患者的身份信息,从医院异构系统的大数据中获取出于该待稽查患者相关的多个患者病历文本。
在另一种实施方式中,当所述病历稽查操作包括科室病历稽查操作时,所述至少一个查询主题包括至少一个待查询科室,所述从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本,包括:从医院异构系统的大数据中获取出每个待查询科室的多个患者病历文本。
该步骤中,当需要针对于至少一个待查询科室,稽查该待查询科室的病历文本时,从医院异构系统的大数据中获取出于每个待查询科室的多个患者病历文本。
这里,获取的每个患者病历文本可以是一定预设时间段内的,例如,获取每个待查询科室近一个月的患者病历文本;或者是,获取20XX年05月10日至20XX年05月30日的患者病历。
在一种实施方式中,通过以下步骤获取出每个查询主题下的多个患者病历文本:针对于每个查询主题,确定该查询主题的初始聚类中心;从医院异构系统的大数据中获取出多个候选病历文本;针对于每个候选病历文本,计算该候选病历文本与所述初始聚类中心之间的相似度;当所述相似度大于预设相似度阈值时,将该候选病历文本确定为所述患者病历文本,得到所述多个患者病历文本。
作为示例,如图3所示,图3为本申请所提供的一种患者病例文本获取流程示意图,如图3所示,首先,对于数据仓库中集成的不同医院异构系统的患者病历文本,通过Jaccard相似度计算方法计算患者病历文本与初始聚类中心之间元数据的相似度,可得到相似度矩阵;其次,通过Kmeans聚类算法聚类得到每个查询主题下的多个患者病例文本。
这里,数据仓库中集成的患者病历文本中存在有关联病历,即各个患者病历文本中记录有相同就诊ID的病历文本,就诊ID可以为患者就诊时,为该患者分配的ID号,或者是根据患者身份信息所确定出的ID号;在患者的就诊过程中,该就诊ID号是唯一的。
作为示例,结合图3进行说明,属于同一医院异构系统中的患者病历文本A.1与患者病历文本A.2中均存在有就诊ID为ID3患者的患者病历文本;同理,患者病历文本A.1中与患者病历文本B.1中均存在有就诊ID为ID1患者的患者病历文本;同理,患者病历文本B.1中与患者病历文本A.2中均存在有就诊ID为ID4患者的患者病历文本;同理,患者病历文本B.1中与患者病历文本C.1中均存在有就诊ID为ID2患者的患者病历文本。
通过以下公式计算每个候选病历文本与初始聚类中心之间的相似度:
步骤S202、按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本。
这里,由于从不同系统中获取到的患者病历文本中数据的书写格式的不一致,无法直接稽查获取到的多个患者病历文本;因此,为了便于后续的稽查操作,需通过智能路由整合获取到的多个患者病历文本,具体的,首先,按照预设标准格式,统一多个患者病历文本中相同数据的书写格式,例如,分别从门诊处和住院处获取到了患者A的患者病历文本,由于系统的不同,对于两个患者病历文本中患者A姓名的书写格式存在差异,这里,便需要统一患者A姓名的书写格式,统一后的患者A姓名在数据中具体表示为字符串的形式;然后,进一步的对统一后的数据进行数据清洗,例如,去除数据中部分字符串的前缀等;最后,得到多个统一化病历文本。
在得到多个统一化病历文本之后,采用Hadoop分布式文件系统进行存储,这里,Hadoop分布式文件系统可以支持PB级数据量的存储(约等于普通综合医院20年的数据量)。
步骤S203、针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系。
这里,由于采集到的患者病历文本为非结构化数据,因此,得到的多个统一化病历文本仍然是非结构化数据,此时,需要通过自然语言处理技术从非结构化的统一化病历文本中提取出关键术语,以及每两个关键术语间的标准关系,从而,在后续的过程中可以将非机构化的患者病历文本中的信息,转换为结构化信息。
在一种实施方式中,步骤S103包括:针对于每个统一化病历文本,将该统一化病历文本输入至预先训练好的术语关系模型中,从该统一化病历文本中提取出用以表征患者信息的多个关键术语;将所述多个关键术语输入至预先训练好的关系提取模型中,确定每两个关键术语之间的标注关系。
该步骤中,用于从统一化病例文本中提取出关键术语的术语关系模型,以及用于确定每两个关键术语之间的标注关系的关系提取模型,是通过机器学习方法训练得到的,具体的,基础模型可以选择深度神经网络IDCNN模型。
具体的,如图4所示,图4为本申请实施例所提供的一种术语关系模型训练过程示意图。如图4所示,通过以下步骤训练得到术语关系模型:
步骤S401:获取多个病例样本,以及每个病例样本中的关键术语标签;
步骤S402:将多个病例样本作为输入特征,将每个病例样本中的关键术语标签作为输出特征,训练构建好的深度神经网络IDCNN,得到训练好的术语关系模型。
具体的,如图5所示,图5为本申请实施例所提供的一种关系提取模型训练过程示意图。如图5所示,通过以下步骤训练得到关系提取模型:
步骤S501:获取多个关键术语样本,以及每两个关键术语样本之间的关系标签;
步骤S502:将对该关键术语样本作为输入特征,将每两个关键术语样本之间的关系标签作为输出特征,训练构建好的深度神经网络IDCNN,得到训练好的关系提取模型。
步骤S204、整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息。
该步骤中,根据每两个关键术语间的标注关系整个确定出的多个关键术语,将非结构化的统一化病历文本转换为结构化的标准化病历信息;最后,可以以表格的形式记录标准化病历信息。
作为示例,统一化病历文本“撕裂样胸痛持续3小时”,经转换后得到的结构化标准化病历信息为<症状=胸痛,持续时间=3小时, 性质=撕裂样>。
这里,在整合时对于具有相同含义的医学词语,可通过医学知识图谱进行归一化处理后再进行整合,例如,“胸部疼痛”和“胸痛”都通过医学知识图谱归一化为“胸痛”。
其中,支持离线整合和实时整合两种数据整合形式,离线整合是指在指定的时间(例如,每天22:00)批量整合所有数据;实时整合是指当从统一化病历文本中提取出关键术语以及每两个关键术语间的标注关系后立即进行整合。本申请在进行数据整合时采用的计算引擎是大数据技术中的Hive。
如表1所示,表1为标准化病历信息。
表1标准化病历信息
患者ID | 数据类型 | 标准词 | 时间(h) | 来源数据 | 来源ID | 来源字段 |
XXX | 症状 | 头部破裂 | 4 | 病历文书 | YYY | 主诉 |
XXX | 症状 | 鼻部肿痛 | 病历文书 | YYY | 主诉 |
步骤S205、稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。
该步骤中,在整合出多个标准化病历信息之后,为了确保各标准化病历信息的准确性以及合理性,对多个标准化病历信息进行稽查,生成多个患者病历文本的稽查报告。
在一种实施方式中,稽查包括一致性稽查、关联性稽查、及时性稽查、分布性稽查,具体的,步骤S205包括:
步骤1:针对于每个标准化病历信息,比对该标准化病历信息中每个病历字段与该标准化病历信息对应的患者病历文本所属科室的病历字典规范范围,生成该标准化病历信息的一致性稽查结果。
针对于医院的不同科室来说,每个科室所下达的病历文本中能够出现的字段并不相同,因此,预先针对于每个科室将其病历文本中可出现的字段规范至该科室的病历字典规范范围中;在进行一致性稽查时,针对于每个标准化病历信息通过比对该标准化病历信息中每个病历字段与该标准化病历信息对应的患者病历文本所属科室的病历字典规范范围,生成该标准化病历信息的一致性稽查结果。
步骤2:分别从每个标准化病历信息中确定出待稽查字段的属性信息值,并比对确定出的多个属性信息值,生成所述多个标准化病历信息的关联稽查结果。
对于同一患者来说,该患者在不同科室中所或得患者病历文本中表明该患者身份的待稽查字段的属性信息值应该是相同的,例如,患者名称的属性信息值,患者性别的属性信息值等;因此,在稽查过程中需要稽查多个标准化病历信息之间的关联性;在进行关联性稽查时,分别比对从不同标准化病历信息中确定出待稽查字段的属性信息值,并根据比对结果生成多个标准化病历信息的关联稽查结果,例如,比对从不同标准化病历信息中确定出的患者姓名和患者性别的属性信息值是否具有关联。
作为示例,可以通过相应的计算机语言实现属性信息值之间的比对:inpatient_record.INPATIENT_TIME<medical_order.CREATE_TIME WHERE inpatient_record.ID =medical_order.ID。
步骤3:确定每个标准化病历信息的诊断时间,并基于确定出的多个诊断时间,确定所述多个标准化病历信息之间的诊断时序的合理性,生成所述多个标准化病历信息的及时性稽查结果。
由于医院各流程之间的医疗关系,临床数据集成后存在数据之间的关联性,而且此关联性对于临床数据质量极为关键。如图6所示,图6为本申请实施例所提供的一种临床住院流程示意图。如图6所示,以住院登记数据和医生医嘱开具数据表为例,在流程上住院登记的业务系统和医生医嘱开具业务系统可能是不同的(即采购了不同信息系统),但数据质量上必须保证住院登记的时间应该早于医生医嘱开具时间。
因此,在稽查阶段中需根据每个标准化病历信息的诊断时间,对多个标准化病历信息的及时性进行稽查;在进行及时性稽查时,确定每个标准化病历信息的诊断时间,比对每个标准化病历信息的诊断时间,确定多个标准化病历信息之间的诊断时序的合理性,生成所述多个标准化病历信息的及时性稽查结果,例如,患者的住院医生开医嘱时间为20XX年06月20日,患者的住院时间为20XX年07月20日,显然,住院医生不能在患者住院之前开具医嘱,此时,及时性稽查结果便会将不合理的地方显示出来。
步骤4:针对于每个标准化病历信息,确定该标准化病历信息中每种类别信息的分布占比,基于每种类别信息的占比,生成该标准化病历信息的分布稽查结果。
对于患者来说医生所下发的病历中病症和药剂所占的比例应该合理,例如,医生不能够在没有任何病症的情况下为患者开药,因此,需要根据标准化病历信息中每种类别信息的分布占比,对患者病历文本的分布性进行稽查;在分布性稽查过程中,确定标准化病历信息中每种类别的类别信息在标准化病历信息中的分布占比,根据每种类别信息的分布占比确定该标准化病历信息是否合理,生成该标准化病历信息的分布稽查结果。
步骤5:基于每个标准化病历信息的一致性稽查结果和分布稽查结果,以及所述多个标准化病历信息的关联稽查结果和时性稽查结果,生成所述多个患者病历文本的稽查报告。
作为示例,如图7所示,图7为本申请实施例所提供的一种稽查流程示意图。如图7所示,首先,对于数据仓库中集成的不同医院异构系统的患者病历文本,进行统一化、标准化处理后,得到每个患者病历文本的标准化病历信息;其次,通过不同的稽查规则,对标准化病历信息进行一致性稽查、关联性稽查、及时性稽查、分布性稽查,得到多个患者病历文本的稽查报告。
这里,在一致性稽查过程中存在有多种一致性稽查规则,例如,规则1.1、规则1.2等;同理,在关联性稽查过程中存在有多种关联性稽查规则,例如,规则2.1、规则2.2等;同理,在及时性稽查过程中存在有多种及时性稽查规则,例如,规则3.1、规则3.2等;同理,在分布性稽查过程中存在有多种分布性稽查规则,例如,规则4.1、规则4.2等;在稽查过程中,可以按照每个规则对患者病历文本进行稽查,也可以根据实际情况选择出需要稽查的规则,对患者病历文本进行稽查,例如,在进行一致性稽查时,可仅选择稽查患者病历文本中患者的名称是否一致;或者是,稽查患者病历文本中患者的性别是否一致等等;再或者,稽查获取到的患者病历文本的开具科室是否一致等等。
本申请实施例提供的临床数据的稽查方法,响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。这样,便能够对从医院异构系统中获取到的多个患者病历文本进行标准化处理,并对标准化处理后的标准化病历信息进行稽查,得多个患者病历文本整体上的稽查报告,进而,准确的对来自于异构系统中的患者病历文本进行稽查。
请参阅图8,图8为本申请实施例所提供的一种临床数据的稽查装置的结构示意图。如图8中所示,所述稽查装置100包括:
病历获取模块110,用于响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;
统一化处理模块120,用于按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;
术语提取模块130,用于针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;
整合模块140,用于整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;
信息稽查模块150,用于稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。
进一步的,所述病历获取模块110在用于响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本时,所述病历获取模块110用于:
响应于病历稽查操作,确定所述病历稽查操作所指示的至少一个查询主题;
从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本。
进一步的,当所述病历稽查操作包括患者病历稽查操作时,所述至少一个查询主题包括待稽查患者,所述病历获取模块110在用于从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本时,所述病历获取模块110用于:
基于所述待稽查患者的身份信息,从医院异构系统的大数据中获取出所述待稽查患者的多个患者病历文本。
进一步的,当所述病历稽查操作包括科室病历稽查操作时,所述至少一个查询主题包括至少一个待查询科室,所述病历获取模块110在用于从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本时,所述病历获取模块110用于:
从医院异构系统的大数据中获取出每个待查询科室的多个患者病历文本。
进一步的,所述信息稽查模块150在用于稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告时,所述信息稽查模块150用于:
针对于每个标准化病历信息,比对该标准化病历信息中每个病历字段与该标准化病历信息对应的患者病历文本所属科室的病历字典规范范围,生成该标准化病历信息的一致性稽查结果;
分别从每个标准化病历信息中确定出待稽查字段的属性信息值,并比对确定出的多个属性信息值,生成所述多个标准化病历信息的关联稽查结果;
确定每个标准化病历信息的诊断时间,并基于确定出的多个诊断时间,确定所述多个标准化病历信息之间的诊断时序的合理性,生成所述多个标准化病历信息的及时性稽查结果;
针对于每个标准化病历信息,确定该标准化病历信息中每种类别信息的分布占比,基于每种类别信息的分布占比,生成该标准化病历信息的分布稽查结果;
基于每个标准化病历信息的一致性稽查结果和分布稽查结果,以及所述多个标准化病历信息的关联稽查结果和时性稽查结果,生成所述多个患者病历文本的稽查报告。
进一步的,所述病历获取模块110用于通过以下步骤获取出每个查询主题下的多个患者病历文本:
针对于每个查询主题,确定该查询主题的初始聚类中心;
从医院异构系统的大数据中获取出多个候选病历文本;
针对于每个候选病历文本,计算该候选病历文本与所述初始聚类中心之间的相似度;
当所述相似度大于预设相似度阈值时,将该候选病历文本确定为所述患者病历文本,得到所述多个患者病历文本。
进一步的,所述术语提取模块130在用于针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系时,所述术语提取模块130用于:
针对于每个统一化病历文本,将该统一化病历文本输入至预先训练好的术语关系模型中,从该统一化病历文本中提取出用以表征患者信息的多个关键术语;
将所述多个关键术语输入至预先训练好的关系提取模型中,确定每两个关键术语之间的标注关系。
本申请实施例提供的临床数据的稽查装置,响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告。这样,便能够对从医院异构系统中获取到的多个患者病历文本进行标准化处理,并对标准化处理后的标准化病历信息进行稽查,得多个患者病历文本整体上的稽查报告,进而,准确的对来自于异构系统中的患者病历文本进行稽查。
请参阅图9,图9为本申请实施例所提供的一种电子设备的结构示意图。如图9中所示,所述电子设备900包括处理器910、存储器920和总线930。
所述存储器920存储有所述处理器910可执行的机器可读指令,当电子设备900运行时,所述处理器910与所述存储器920之间通过总线530通信,所述机器可读指令被所述处理器910执行时,可以执行如上述图1以所示方法实施例中的临床数据的稽查方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的临床数据的稽查方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种临床数据的稽查方法,其特征在于,所述稽查方法包括:
响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;
按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;
针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;
整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;
稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告;
其中,所述稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告,包括:
针对于每个标准化病历信息,比对该标准化病历信息中每个病历字段与该标准化病历信息对应的患者病历文本所属科室的病历字典规范范围,生成该标准化病历信息的一致性稽查结果;
分别从每个标准化病历信息中确定出待稽查字段的属性信息值,并比对确定出的多个属性信息值,生成所述多个标准化病历信息的关联稽查结果;
确定每个标准化病历信息的诊断时间,并基于确定出的多个诊断时间,确定所述多个标准化病历信息之间的诊断时序的合理性,生成所述多个标准化病历信息的及时性稽查结果;
针对于每个标准化病历信息,确定该标准化病历信息中每种类别信息的分布占比,基于每种类别信息的分布占比,生成该标准化病历信息的分布稽查结果;
基于每个标准化病历信息的一致性稽查结果和分布稽查结果,以及所述多个标准化病历信息的关联稽查结果和时性稽查结果,生成所述多个患者病历文本的稽查报告。
2.根据权利要求1所述的稽查方法,其特征在于,所述响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本,包括:
响应于病历稽查操作,确定所述病历稽查操作所指示的至少一个查询主题;
从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本。
3.根据权利要求2所述的稽查方法,其特征在于,当所述病历稽查操作包括患者病历稽查操作时,所述至少一个查询主题包括待稽查患者,所述从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本,包括:
基于所述待稽查患者的身份信息,从医院异构系统的大数据中获取出所述待稽查患者的多个患者病历文本。
4.根据权利要求2所述的稽查方法,其特征在于,当所述病历稽查操作包括科室病历稽查操作时,所述至少一个查询主题包括至少一个待查询科室,所述从医院异构系统的大数据中获取出每个查询主题下的多个患者病历文本,包括:
从医院异构系统的大数据中获取出每个待查询科室的多个患者病历文本。
5.根据权利要求2所述的稽查方法,其特征在于,通过以下步骤获取出每个查询主题下的多个患者病历文本:
针对于每个查询主题,确定该查询主题的初始聚类中心;
从医院异构系统的大数据中获取出多个候选病历文本;
针对于每个候选病历文本,计算该候选病历文本与所述初始聚类中心之间的相似度;
当所述相似度大于预设相似度阈值时,将该候选病历文本确定为所述患者病历文本,得到所述多个患者病历文本。
6.根据权利要求1所述的稽查方法,其特征在于,所述针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系,包括:
针对于每个统一化病历文本,将该统一化病历文本输入至预先训练好的术语关系模型中,从该统一化病历文本中提取出用以表征患者信息的多个关键术语;
将所述多个关键术语输入至预先训练好的关系提取模型中,确定每两个关键术语之间的标注关系。
7.一种临床数据的稽查装置,其特征在于,所述稽查装置包括:
病历获取模块,用于响应于病历稽查操作,从医院异构系统的大数据中获取多个患者病历文本;
统一化处理模块,用于按照预设标准格式,统一每个患者病历文本中数据的书写格式,得到多个统一化病历文本;
术语提取模块,用于针对于每个统一化病历文本,从该统一化病历文本中确定出用以表征患者信息的多个关键术语,以及每两个关键术语间的标注关系;
整合模块,用于整合确定出的所述多个关键术语以及每两个关键术语间的标注关系,得到该统一化病历文本对应的标准化病历信息;
信息稽查模块,用于稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告;
其中,所述信息稽查模块在用于稽查整合出的多个标准化病历信息,生成所述多个患者病历文本的稽查报告时,所述信息稽查模块用于:
针对于每个标准化病历信息,比对该标准化病历信息中每个病历字段与该标准化病历信息对应的患者病历文本所属科室的病历字典规范范围,生成该标准化病历信息的一致性稽查结果;
分别从每个标准化病历信息中确定出待稽查字段的属性信息值,并比对确定出的多个属性信息值,生成所述多个标准化病历信息的关联稽查结果;
确定每个标准化病历信息的诊断时间,并基于确定出的多个诊断时间,确定所述多个标准化病历信息之间的诊断时序的合理性,生成所述多个标准化病历信息的及时性稽查结果;
针对于每个标准化病历信息,确定该标准化病历信息中每种类别信息的分布占比,基于每种类别信息的分布占比,生成该标准化病历信息的分布稽查结果;
基于每个标准化病历信息的一致性稽查结果和分布稽查结果,以及所述多个标准化病历信息的关联稽查结果和时性稽查结果,生成所述多个患者病历文本的稽查报告。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的临床数据的稽查方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的临床数据的稽查方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853715.1A CN113345545B (zh) | 2021-07-28 | 2021-07-28 | 临床数据的稽查方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853715.1A CN113345545B (zh) | 2021-07-28 | 2021-07-28 | 临床数据的稽查方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345545A CN113345545A (zh) | 2021-09-03 |
CN113345545B true CN113345545B (zh) | 2021-10-29 |
Family
ID=77480420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110853715.1A Active CN113345545B (zh) | 2021-07-28 | 2021-07-28 | 临床数据的稽查方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345545B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111554369B (zh) * | 2020-04-29 | 2023-08-04 | 杭州依图医疗技术有限公司 | 医学数据的处理方法、交互方法及存储介质 |
CN113656604B (zh) | 2021-10-19 | 2022-02-22 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN114741438A (zh) * | 2022-03-03 | 2022-07-12 | 清华大学 | 多中心研究数据的提取方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335647A (zh) * | 2019-06-21 | 2019-10-15 | 上海市精神卫生中心(上海市心理咨询培训中心) | 一种临床数据标准化系统及标准化数据采集方法 |
CN110826309A (zh) * | 2019-10-25 | 2020-02-21 | 上海市第六人民医院 | 一种临床试验电子病例报告表的生成系统及方法 |
CN111640475A (zh) * | 2020-04-29 | 2020-09-08 | 上海米帝信息技术有限公司 | 一种临床试验的管理系统 |
CN111916161A (zh) * | 2020-06-23 | 2020-11-10 | 上海用正医药科技有限公司 | 用于临床试验过程中多数据源采集转换的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140330578A1 (en) * | 2012-03-13 | 2014-11-06 | Theodore Pincus | Electronic medical history (emh) data management system for standard medical care, clinical medical research, and analysis of long-term outcomes |
-
2021
- 2021-07-28 CN CN202110853715.1A patent/CN113345545B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335647A (zh) * | 2019-06-21 | 2019-10-15 | 上海市精神卫生中心(上海市心理咨询培训中心) | 一种临床数据标准化系统及标准化数据采集方法 |
CN110826309A (zh) * | 2019-10-25 | 2020-02-21 | 上海市第六人民医院 | 一种临床试验电子病例报告表的生成系统及方法 |
CN111640475A (zh) * | 2020-04-29 | 2020-09-08 | 上海米帝信息技术有限公司 | 一种临床试验的管理系统 |
CN111916161A (zh) * | 2020-06-23 | 2020-11-10 | 上海用正医药科技有限公司 | 用于临床试验过程中多数据源采集转换的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113345545A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113345545B (zh) | 临床数据的稽查方法、装置、电子设备及可读存储介质 | |
US11881293B2 (en) | Methods for automatic cohort selection in epidemiologic studies and clinical trials | |
CN110827941B (zh) | 电子病历信息校正方法及系统 | |
US20110295595A1 (en) | Document processing, template generation and concept library generation method and apparatus | |
Dorr et al. | Assessing the difficulty and time cost of de-identification in clinical narratives | |
US20200311610A1 (en) | Rule-based feature engineering, model creation and hosting | |
CN113257377B (zh) | 确定目标用户的方法、装置、电子设备及存储介质 | |
EP3596620A1 (en) | Interoperable record matching process | |
Meystre et al. | Natural language processing enabling COVID-19 predictive analytics to support data-driven patient advising and pooled testing | |
Wulff et al. | Designing an openEHR-based pipeline for extracting and standardizing unstructured clinical data using natural language processing | |
CN114818720A (zh) | 一种专病数据集构建方法、装置、电子设备及存储介质 | |
CN115346634A (zh) | 一种体检报告解读预测方法、系统、电子设备和存储介质 | |
CN114830079A (zh) | 用于识别信息和重新格式化数据文件的高效数据处理及其应用 | |
CN111597789A (zh) | 一种电子病历文本的评估方法及设备 | |
JP2023527290A (ja) | 露出可能なクラウドベースのレジストリを使用した治療のためのインテリジェントなワークフロー分析 | |
CN109299214B (zh) | 文本信息提取方法、装置、介质及电子设备 | |
CN112699669B (zh) | 流行病学调查报告的自然语言处理方法、装置及存储介质 | |
Kim et al. | Information extraction from patient care reports for intelligent emergency medical services | |
WO2024026259A1 (en) | Biomedical knowledge graph | |
Satti et al. | Unsupervised semantic mapping for healthcare data storage schema | |
Huff et al. | Evaluation and verification of the global rapid identification of threats system for infectious diseases in textual data sources | |
US20230377697A1 (en) | System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history | |
CN113988082A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
CN112786132B (zh) | 病历文本数据分割方法、装置、可读存储介质及电子设备 | |
US11636933B2 (en) | Summarization of clinical documents with end points thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |