CN110335647B - 一种临床数据标准化系统及标准化数据采集方法 - Google Patents
一种临床数据标准化系统及标准化数据采集方法 Download PDFInfo
- Publication number
- CN110335647B CN110335647B CN201910540514.9A CN201910540514A CN110335647B CN 110335647 B CN110335647 B CN 110335647B CN 201910540514 A CN201910540514 A CN 201910540514A CN 110335647 B CN110335647 B CN 110335647B
- Authority
- CN
- China
- Prior art keywords
- module
- data
- acquisition
- scientific research
- standardized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000011160 research Methods 0.000 claims abstract description 153
- 201000010099 disease Diseases 0.000 claims abstract description 50
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000004140 cleaning Methods 0.000 claims abstract description 18
- 238000012423 maintenance Methods 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000007726 management method Methods 0.000 claims description 102
- 238000004458 analytical method Methods 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 30
- 239000003814 drug Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 238000005516 engineering process Methods 0.000 claims description 22
- 238000007689 inspection Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 20
- 230000007170 pathology Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000003759 clinical diagnosis Methods 0.000 claims description 15
- 238000003745 diagnosis Methods 0.000 claims description 15
- 229940079593 drug Drugs 0.000 claims description 13
- 238000011161 development Methods 0.000 claims description 10
- 230000018109 developmental process Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 7
- 206010020751 Hypersensitivity Diseases 0.000 claims description 6
- 208000026935 allergic disease Diseases 0.000 claims description 6
- 230000007815 allergy Effects 0.000 claims description 6
- 230000005802 health problem Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 210000003484 anatomy Anatomy 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000026676 system process Effects 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 230000008520 organization Effects 0.000 claims 1
- 238000012827 research and development Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种临床数据标准化系统及标准化数据采集方法。该系统包括标准化数据采集平台、数据稽查平台、业务系统;标准化数据采集平台包括:入排标准配置模块、随访计划配置模块、科研元数据管理模块、科研病例管理模块、标准化维护模块、采集模块、服务接口模块、eCRF管理模块。数据采集方法为:医生工作站基于患者要随访的内容生成业务申请单及业务系统数据,再通过标准化池进行数据清洗转换,标准化处理后自动填充进eCRF管理模块的病种库。本发明在充分融合国内外生物医学领域标准编码和服务接口的条件下,对差异化的标准进行后台注释并整合为字典,对于不同的标准后台进行编译,再通过算法进行校正,缩小了误差,降低了偏倚率。
Description
技术领域
本发明属于临床数据标准化技术领域,涉及一种临床数据标准化系统及标准化数据采集方法。
背景技术
近年来,随着信息技术的发展,电子数据采集技术在临床试验中越来越多地被采用。电子数据采集(Electronic Data Capture,EDC)是一种基于计算机网络的用于临床试验数据采集的技术,通过软件、硬件、标准操作程序和人员配置的有机结合,以电子化的形式直接采集和传递临床数据。目前,移动电子设备如平板电脑、智能手机、扫描仪等已具备作为EDC终端的条件,EDC系统已能将基于网络的交互应答系统(IWRS)、药物警戒系统、数据分析和报告系统、试验药品管理系统等整合成一体;同时,国际公认的数据标准(如CDISC)也正在EDC中得以应用。许多医疗部门都建立了eCRF(电子化病历报告表,Electronic-casereport form)管理系统。临床试验的各个阶段(从准备到研究结束)都离不开计算机化系统的辅助,而确保临床试验数据质量及其真实完整性是使用EDC系统的根本要求。
在医学信息系统中,由于医学术语涵盖了医学领域数量庞大、构词复杂的分词库,在缺乏信息规划的情况下,不同的临床信息标准会阻碍临床数据进行交互,相互独立的临床信息系统产生的数据名称和数据格式各不相同,难以进一步利用临床数据来指导当前的医疗管理工作及临床科研研究,而临床数据标准化可以解决该问题,并为临床数据采集提供方案。
现有的临床信息标准体系复杂且良莠不齐,临床数据标准化工具贫乏,临床数据标准化工作难以实施,口径的不统一造成标准的滥读,最终致使临床数据存在较大的偏倚。
发明内容
本发明的目的在于,克服现有技术的不足,提供一种误差小,偏倚率低,信息存储和采集方便的临床数据标准化系统及标准化数据采集方法。
本发明的目的是通过如下技术方案实现的:
本发明一种临床数据标准化系统,它包括临床标准化数据采集平台,还包括科研项目临床数据稽查平台、业务系统(后面两个是独立系统,其中,科研项目临床数据稽查平台是新建的,业务系统是经过改造的);所述的临床标准化数据采集平台包括以下功能模块:入排标准配置模块、随访计划配置模块、科研元数据管理模块、科研病例管理模块、标准化维护模块、采集模块、服务接口模块、eCRF管理模块;其中,
所述的入排标准配置模块,用于配置科研课题的患者入组或出组规则;
所述的随访计划配置模块,用于配置科研课题在患者随访时要做哪些事的计划配置;
所述的科研元数据管理模块,用于定义科研课题的eCRF表单采集点及关联标准是什么;
所述的标准化维护模块,用于维护标准化池里的词库字典信息,如ICD10等;
所述的科研病例管理模块,用于定义科研课题要采集点的科研病例处理逻辑;
所述的采集模块,用于基于随访计划配置,采集科研课题相关的临床诊疗数据;采集模块包括采集映射模块和采集服务模块;
采集映射模块,用于定义要采集那些内容,采集的内容与eCRF管理模块里的eCRF表单的映射关系。
采集服务模块,基于采集映射模块的定义,根据采集频率定时从业务系统提取要采集的内容,并基于采集映射模块定义的与eCRF表单的映射关系将采集的内容填入eCRF表单对应条目;
采集服务模块包括手动采集模块和嵌入式自动采集模块;手动采集和嵌入式自动采集,是两种不同的采集数据的处理方式,都是采集模块的内容。
手动采集模块,用于由科研评估员确认当次随访结束需要将业务系统数据提取到eCRF表单时,由科研评估员在系统中通过点击“采集”按钮发启采集服务。
嵌入式自动采集模块,基于采集映射模块定义的采集内容及采集频率,当采集时间到了,系统自动根据采集映射模块所定义的采集内容,从业务系统提取要采集的内容,并基于采集映射模块所定义的与eCRF表单的映射关系,将采集的内容填入eCRF表单对应条目。
嵌入式自动采集模块,包括切词模块、NLP自然语义处理模块,还包括机器学习模块、语料训练模块;
切词模块,用于对病历文书进行清洗切词;
NLP自然语义处理模块,用于对病历文书中已标注好的要采集的内容,进行后结构化处理;
NLP自然语义处理模块包括电子病历文书语义分析模块、病理报告内容语义分析模块;
电子病历文书语义分析模块,用于对电子病历文书进行语义分析;
病理报告内容语义分析模块,用于对病理报告内容进行语义分析;
机器学习模块,用于对电子病历文书或病理报告内容进行学习新词或新语义;
语料训练模块,用于对电子病历文书或病理报告内容进行新词或新语义的训练;
所述的服务接口模块,用于提供医生工作站有哪些患者入组了科研课题,患者的当次随访计划有哪些等相关服务接口开发;
所述的eCRF管理模块,用于管理eCRF表单,包括eCRF表单设计和eCRF表单维护;eCRF即科研病历的电子化病历。eCRF管理模块也就是eCRF管理系统,即电子化病历报告表管理系统,亦即,科研病历的电子病历业务系统;在eCRF管理系统的底层有一个病种库(病种库是关于某病种所有数据的数据库,也是eCRF管理模块的数据储存库),也就是说,eCRF管理系统包括病种库。
所述的科研项目临床数据稽查平台,是软件新建的一个平台,用于将病人的基本信息、就医信息、健康问题、用药信息、过敏信息、手术信息、检验检查报告、既往病史等诊疗信息组织起来,供后续科研项目数据真实性审查使用;
所述的业务系统,即医生工作站,包括门诊工作站、住院工作站等。
所述的入排标准配置模块通过所述的服务接口模块与所述的业务系统连接并进行数据交换,所述的随访计划配置模块通过所述的服务接口模块与所述的业务系统连接并进行数据交换,所述的科研元数据管理模块与所述的eCRF管理模块连接并进行数据交换,所述的科研病例管理模块与所述的eCRF管理模块连接并进行数据交换,所述的标准化维护模块与所述的采集模块连接并进行数据交换,所述的采集模块与所述的服务接口模块连接并进行数据交换,所述的采集模块通过所述的服务接口模块与所述的eCRF管理模块连接并进行数据交换,所述的采集模块通过所述的服务接口模块与所述的业务系统连接并进行数据交换;所述的科研项目临床数据稽查平台与医院原建设的RDR科研数据中心连接并进行数据交换。上述连接都是通过互联网连接并进行数据交换的。
本发明所述的临床数据标准化系统,在系统架构上包括:业务层、数据层、支撑环境层、应用层;
1业务层:主要是临床业务系统库,包括:LIS实验室信息管理系统(LaboratoryInformation Management System)、RIS放射科信息管理系统(Radiology InformationSystem)、PACS医学影像存档与通讯系统(Picture Archiving And CommunicationSystems)、EMR计算机化的病案系统(Electronic Medical Record)、HIS医院信息系统(Hospital Information System)等。
2数据层:主要是通过ETL(抽取-转换-加载,Extract-Transform-Load)工具,技术整合、清洗临床业务系统库的数据,形成RDR科研数据中心;然后,基于RDR科研数据中心,进一步地根据病种主题,形成单病种的数据仓库即病种库。
3支撑环境层(即应用支撑):主要是一些标准化的词库字典,如:SNOMED CT医学系统命名法-临床术语、ICD10国际疾病分类、CDISC临床数据交换标准协会、LOINC基本简介观测指标标识符逻辑命名与编码系统、ATC药物解剖学、治疗学及化学分类法等;系统基于eCRF表单要求,采集临床业务数据后,基于这些标准化的词库字典(也叫标准化池),通过语义分析、知识发现,处理数据层的临床业务相关数据,并进行后结构化标识,最后,嵌入eCRF管理系统的病种库。
4应用层:主要是对eCRF管理模块的eCRF表单数据进行标准化管理、定义采集规则,并对门诊工作站、住院工作站的业务系统进一步流程化、标准化采集处理。
本发明提供的一种临床标准化数据采集平台软件,该平台软件的技术架构包括:
应用层:采用B/S模式,应用展示端要采用HTML5技术,支持跨平台(Windows、IOS、Android平台)的应用展示;
组织层(即后台开发框架):采用业内最先进的MVC框架模式,以保证开发技术和技术架构的先进性和可持续性;
实施层(即数据层):实现对电子病历数据元素的提取、清洗、标准化处理,并可以生成科研元数据为临床科研系统使用;
技术层:结合UI引擎软件配置eCRF表单,要求实现随访计划的配置管理,支持用户通过科研元数据控件自行定义eCRF表单,支持自定义的数据库的建立及科研随访工作的开展。
本发明中的标准化数据采集方法(即利用本发明的临床数据标准化系统进行临床数据采集及标准化处理的方法)的整个工作过程大致如下:患者到院随访时,临床医生在医生工作站,基于当前患者参与的科研项目当次要随访的内容,生成检查、检验、药品等相关业务申请单;患者基于开好的业务申请单去做检查、检验项目或领取药品服用;患者去做检查、检验项目时,LIS、RIS等业务系统基于诊疗流程要生成相关报告文档,这些数据都存储在LIS、RIS等业务系统对应的数据库里;之后再通过复制订阅和ETL会定时将业务系统数据库里的数据同步到RDR科研数据中心;临床标准化数据采集平台软件每天会定时将RDR科研数据中心的数据通过标准化池进行数据清洗转换,通过采集服务模块进行语义分析、后结构化等标准化处理,最后将标准化后的数据自动填充到eCRF管理模块的eCRF表单对应的单病种为主题的数据仓库形成病种库。
本发明中的标准化数据采集方法(即利用本发明的临床数据标准化系统进行临床数据采集及标准化处理的方法)的具体过程步骤(亦即本发明中的临床数据标准化系统及临床标准化数据采集平台的工作流程)如下:
(1)通过入排标准配置模块,配置科研课题的患者入组或出组规则;通过随访计划配置模块,配置科研课题随访时要做哪些事;通过科研元数据管理模块,定义科研课题的eCRF表单采集点及关联标准是什么;
(2)随访患者(即科研受试者)到院随访(接诊)时,医生工作站基于标准化系统的随访计划配置模块提供的当次随访计划需要采集的检验、检查、处方医嘱相关业务项目(即医院的电子化诊疗业务),读取当前随访内容,生成对应的随访需要的检查、检验、药品等业务申请单,再将这些业务申请单信息发送给相关业务系统即医生工作站;之后,eCRF管理模块基于元数据管理模块的定义生成随访电子病历文书模板;
(3)医生工作站在临床诊疗中,书写电子病历文书;本次随访结束;
亦即,患者基于开好的业务申请单去做检查、检验项目或领取药品服用;患者去做检查、检验项目时,LIS、RIS等业务系统(医生工作站)基于诊疗流程生成相关的报告文档(即电子病历文书),这些数据都存储在LIS、RIS等业务系统对应的数据库里;每隔几分钟有复制订阅和ETL会定时将业务系统数据库里的原始数据同步到RDR科研数据中心;
(4)采集模块,基于业务申请单号及项目号,根据科研病例管理模块所定义的科研课题要采集点的科研病历处理逻辑,并根据随访计划配置模块的配置和科研元数据管理模块所定义的科研课题的eCRF表单采集点及关联标准,采集获取业务系统数据库中当次临床诊疗发生的原始数据(即自动采集数据);系统会定时将采集到的业务系统数据库中当次临床诊疗发生的原始数据,通过ETL工具进行初级技术整合后同步到RDR科研数据中心;然后,系统会定时对采集到的并进入RDR科研数据中心内的原始数据,基于标准化池里的词库字典信息,进行清洗转换,进行标准化处理,变成标准统一的数据之后,自动填充进入eCRF管理模块的科研eCRF表单(即eCRF表单配置基于元数据管理模块的定义进行配置并生成eCRF表单),形成单病种的数据仓库即病种库;
(5)另外,新建一个科研项目临床数据稽查平台(临床标准化数据采集平台新建的一个功能),将病人的基本信息、就医信息、健康问题、用药信息、过敏信息、手术信息、检验检查报告、既往病史等临床业务真实诊疗信息组织起来,数据来源还是原始的未做标准化转化的临床业务数据,供后续科研项目数据真实性审查使用。
进一步地,上述步骤(4)中,自动采集数据并进行标准化处理的具体方法步骤如下:
首先,定时通过复制订阅,并通过ETL工具进行初级技术整合(主要是将业务系统各部门的信息进行归档整合,将一些通用术语进行规范化)定制的临床业务系统库中的原始数据,形成RDR科研数据中心(这是原有的);
然后,系统的标准化维护模块,基于RDR科研数据中心原有的数据,进一步地根据病种主题,对差异化的标准进行后台注释,再将注释好的差异化的标准整合为标准化的词库字典;
之后,采集模块里的嵌入式自动采集模块,根据入排标准模块的配置,基于业务申请单号及项目号,从临床业务系统库获取当次临床诊疗发生的原始数据(即自动采集数据);获取的这些原始数据先通过ETL进行初级技术整合后进入RDR科研数据中心;然后,对基于配置的eCRF表单对应的RDR科研数据中心的数据进行清洗转换,即对病历文书进行清洗切词、后结构化处理(亦即,基于标准化的词库字典,通过语义分析、知识发现,处理数据层的临床业务系统库中的相关数据,并进行后结构化标识);之后,对具有不同后台标准的文档通过信息化手段进行编译,再将编译好的标准化文档通过HMM算法进行校正;最后,将校正的数据自动填充到eCRF病历表表单,形成单病种的数据仓库即病种库;亦即,将校正的数据导入eCRF管理模块的病种库。
更进一步地,如eCRF表单需要采集病历文书内容,切词模块先对病历文书自行清洗切词;切词完成后,NLP自然语义处理模块(包括电子病历文书语义分析模块、病理报告内容语义分析模块)再对病历文书基于已标注好的eCRF表单要采集的内容,进行后结构化处理;然后,通过机器学习模块进行学习;之后,语料训练模块基于已定义的eCRF表单要采集的后结构化内容,通过监督机器学习与标准化内容是否匹配,将新内容转为标准化描述内容(这些工作是由机器学习模块和语料训练模块处理的);之后,再将标准化描述内容自动填充到eCRF病历表表单。此处加入监督式的机器学习与标准化内容是否匹配,形成学习后的采集标注点,可减少人工标注工作量。
更进一步地,具体的进行后台注释、进行编译、进行校正的方法如下:采用基于HMM统计模型的词性标注方法对差异化的标准进行后台注释,即采用基于隐马尔可夫模型HMM的词性标注方法去实现词性标注;在实现基于HMM的词性标注方法中,利用词典信息约束模型的参数,方法如下:假设输出符号表由单词构成(即词序列为HMM的观察序列),如果某个对应的『词汇-词性标记』没有被包含在词典中,那该词汇被标记为该词性标记的概率就为0;如果存在,那该词汇被标记为某词汇标记的概率为其所有可能被标记的所有词性个数的倒数;然后,根据训练语料给定的词性标记生成词的概率,对于某词性标记j生成词wl的概率,分子用词wl出现的次数乘以该词汇被标记为该词汇标记的概率,分母是在训练语料范围内,所有词被标记为该词汇标记的概率乘以该词出现的次数;通过采用以上方法的训练模型来合理地估计模型概率(约束模型的参数)。
本发明的有益效果:
本发明与现有技术相比,具有如下优点:
本发明在充分融合了国内外生物医学领域标准编码和服务接口的条件下,对差异化的标准进行后台注释,将注释好的元数据整合为字典,对于不同的标准后台通过信息化手段进行编译,将编译好的标准化文档通过一定算法进行校正,缩小了误差,降低了偏倚率。在元数据编译的同时,也方便了信息存储和采集,构成了一体化系统。
附图说明
图1是利用本发明的临床数据标准化系统进行临床数据标准化的方法示意图(临床数据标准化系统各职能部门的交互流程图);
图2是本发明中的采集模块进行临床数据采集处理的过程即采集模块的工作流程图;
图3是本发明中的采集模块里的嵌入式自动采集的工作流程图;
图4是本发明所述的临床数据标准化系统的系统框架图;
图5是本发明一种临床数据标准化系统中各模块之间的交互连接关系图。
具体实施方式
以下结合附图和实施例对本发明作进一步的说明。
实施例
如图1、图5所示,本发明一种临床数据标准化系统,它包括临床标准化数据采集平台,还包括科研项目临床数据稽查平台和业务系统(后面两个是独立系统,其中,科研项目临床数据稽查平台是新建的,业务系统是经过改造的);
所述的临床标准化数据采集平台包括以下功能模块:①入排标准配置模块、②随访计划配置模块、③科研元数据管理模块、④科研病例管理模块、⑤标准化维护模块、⑥采集模块、⑦服务接口模块和⑧eCRF管理模块。
上述每个功能模块的作用(即功能)如下:
①入排标准配置模块,用于配置科研课题的患者入组或出组规则。
②随访计划配置模块,用于配置科研课题在患者随访时要做哪些事的计划配置。
③科研元数据管理模块,用于定义科研课题的eCRF表单采集点及关联标准是什么。(元数据为描述eCRF存储数据的数据)
④科研病例管理模块,用于定义科研课题要采集点的科研病例处理逻辑。此处的科研病例是指科研受试者(即患者)。
⑤标准化维护模块,用维护标准化池里的词库字典信息,如ICD10等;
⑥采集模块,用于基于随访计划配置,采集科研课题相关的临床诊疗数据;
采集模块包括采集映射模块和采集服务模块;
采集映射模块,用于定义要采集那些内容,采集的内容与eCRF管理模块里的eCRF表单的映射关系。
采集服务模块,基于采集映射模块的定义,根据采集频率定时从业务系统提取要采集的内容,并基于采集映射模块定义的与eCRF表单的映射关系将采集的内容填入eCRF表单对应条目;
采集服务模块包括手动采集模块和嵌入式自动采集模块;手动采集和嵌入式自动采集,是两种不同的采集数据的处理方式,都是采集模块的内容。
手动采集模块,用于由科研评估员确认当次随访结束需要将业务系统数据提取到eCRF表单时,由科研评估员在系统中通过点击“采集”按钮发启采集服务。
嵌入式自动采集模块,基于采集映射模块定义的采集内容及采集频率,当采集时间到了,系统自动根据采集映射模块所定义的采集内容,从业务系统提取要采集的内容,并基于采集映射模块所定义的与eCRF表单的映射关系,将采集的内容填入eCRF表单对应条目。
嵌入式自动采集模块,包括切词模块、NLP自然语义处理模块,还包括机器学习模块、语料训练模块;
切词模块,用于对病历文书进行清洗切词;
NLP自然语义处理模块,用于对病历文书中已标注好的要采集的内容,进行后结构化处理;
NLP自然语义处理模块包括电子病历文书语义分析模块、病理报告内容语义分析模块;
电子病历文书语义分析模块,用于对电子病历文书进行语义分析;
病理报告内容语义分析模块,用于对病理报告内容进行语义分析;
机器学习模块,用于对电子病历文书或病理报告内容进行学习新词或新语义;
语料训练模块,用于对电子病历文书或病理报告内容进行新词或新语义的训练;
⑦服务接口模块,用于提供医生工作站有哪些患者入组了科研课题,患者的当次随访计划有哪些等相关服务接口开发。
⑧eCRF管理模块,用于管理eCRF表单,包括eCRF表单设计和eCRF表单维护;eCRF即科研病历的电子化病历。eCRF管理模块也就是eCRF管理系统,即电子化病历报告表管理系统,亦即,科研病历的电子病历业务系统;在eCRF管理系统的底层有一个病种库(病种库是关于某病种所有数据的数据库,也是eCRF管理模块的数据储存库),也就是说,eCRF管理系统包括病种库。
⑨科研项目临床数据稽查平台,是临床标准化数据采集平台软件的一个功能,新建了一个平台,用于将病人的基本信息、就医信息、健康问题、用药信息、过敏信息、手术信息、检验检查报告、既往病史等临床业务真实诊疗信息组织起来,数据来源还是原始的未做标准化转化的临床业务数据,供后续科研项目数据真实性审查使用。
⑩业务系统,即医生工作站,包括门诊工作站、住院工作站等。
上述各个功能模块之间的交互连接关系如下:(参见图5)
①入排标准配置模块通过⑦服务接口模块与⑩业务系统连接并进行数据交换,②随访计划配置模块通过⑦服务接口模块与⑩业务系统连接并进行数据交换,③科研元数据管理模块与⑧eCRF管理模块连接并进行数据交换(图5中看不出这个连接关系,最好修改成一致),④科研病例管理模块与⑧eCRF管理模块连接并进行数据交换,⑤标准化维护模块与⑥采集模块连接并进行数据交换,⑥采集模块与⑦服务接口模块连接并进行数据交换,⑥采集模块通过⑦服务接口模块与⑧eCRF管理模块连接并进行数据交换,⑥采集模块通过⑦服务接口模块与⑩业务系统连接并进行数据交换;⑨科研项目临床数据稽查平台与医院原建设的RDR科研数据中心连接并进行数据交换。
上述①-⑧这些功能模块、⑨科研项目临床数据稽查平台和⑩业务系统都是属于应用层的,它们之间的连接都是通过互联网连接并进行数据交换的。
本发明所述的临床数据标准化系统,该系统框架包括:业务层、数据层、支撑环境层、应用层;该系统中的临床标准化数据采集平台,平台各层次之间是这样进行交互衔接的:(参见图4)
1业务层:主要是临床业务系统库,包括:LIS实验室信息管理系统(LaboratoryInformation Management System)、RIS放射科信息管理系统(Radiology InformationSystem)、PACS医学影像存档与通讯系统(Picture Archiving And CommunicationSystems)、EMR计算机化的病案系统(Electronic Medical Record)、HIS医院信息系统(Hospital Information System)等。
2数据层:主要是通过ETL(抽取-转换-加载,Extract-Transform-Load)工具,技术整合、清洗临床业务系统库的数据,形成RDR科研数据中心;然后,基于RDR科研数据中心,进一步地根据病种主题,形成单病种的数据仓库即病种库。
3支撑环境层(即应用支撑):主要是一些标准化的词库字典,如:SNOMED CT医学系统命名法-临床术语(Systematized Nomenclature of Medicine--Clinical Terms)、ICD10国际疾病分类(international Classification of diseases)、CDISC临床数据交换标准协会(Clinical Data Interchange Standards Consortium)、LOINC基本简介观测指标标识符逻辑命名与编码系统(Logical Observation Identifiers Names and Codes)、ATC药物解剖学、治疗学及化学分类法(Anatomical Therapeutic Chemical)等;基于这些标准化的词库字典(也叫标准化池),通过语义分析、知识发现,处理数据层的临床业务相关数据(即病种库中的数据),并进行后结构化标识,最后,嵌入eCRF(电子化病历报告表)管理系统,基于eCRF表单要求,采集临床业务数据。
4应用层:主要是对eCRF管理模块的eCRF表单数据进行标准化管理、定义采集规则,并对门诊工作站、住院工作站的业务系统进一步流程化、标准化采集处理。
本发明提供的一种临床标准化数据采集平台软件,该平台软件的技术架构包括:
应用层:采用B/S模式(即Browser/Server,浏览器/服务器模式,用户通过互联网和浏览器访问服务器上的数据信息),应用展示端要采用HTML5技术,支持跨平台(Windows、IOS、Android平台)的应用展示;
组织层(即后台开发框架):采用业内最先进的MVC框架模式(即模型(model)-视图(view)-控制器(controller)),以保证开发技术和技术架构的先进性和可持续性;
实施层(即数据层):实现对电子病历数据元素的提取、清洗、标准化处理,并可以生成科研元数据为临床科研系统使用;
技术层:结合UI引擎(界面引擎)软件配置eCRF表单,要求实现随访计划的配置管理,支持用户通过科研元数据控件自行定义eCRF表单,支持自定义的数据库的建立及科研随访工作的开展。
本发明的临床数据标准化系统的工作流程(程序)如下:(参见图2)
S01开始;
S02门诊(住院)患者接诊;
S03根据病历号,请求科研路径服务;
S04判断是否入组患者?如果是,进入S05;如果否,进入S09结束;
S05是否书写文书?如果是,进入S06;如果否,进入E01;
S06根据科研路径要求,生成科研文书电子病历子域;
S07根据科研路径要求,填写文书;
S08科研系统数据采集;
S09结束;
E01根据科研路径要求开处方(医嘱);
E02进入S08;
S08科研系统数据采集;
S09结束。
(注:科研路径是指入排标准配置模块配置的科研课题的患者入组或出组规则,随访计划配置模块配置的科研随访流程路径。)
本发明的临床数据标准化系统的采集模块中的嵌入式自动采集模块进行临床数据采集处理(即图2中的S08科研系统数据采集)的过程如下:(参见图3)
(A)临床标准化数据采集平台的数据采集工作流程(程序步骤)如下:
A01随访患者临床数据;
A02获取当次患者随访计划的检验采集项目;获取当次患者随访计划的检查采集项目;获取当次患者随访计划的处方医嘱药品;
A03填充进入科研eCRF病例表单(即eCRF采集,是嵌入式自动采集);
A04基于模糊检索、病历分析后的标准化内容是否是eCRF病例表单需要的;
(B)采集模块里的嵌入式自动采集模块进行临床数据采集及处理的工作流程(程序步骤)如下:
B01随访患者临床数据;
B02门诊/住院病历采集;
B03病历内容切词;
B04句法依存分析;
B05是否标准化描述内容;如果是,进入C01;如果否,进入B06;
B06机器学习与标准化的关系处理;
B07监督机器学习方式,将新内容转为标准化描述内容关系。
C01标准化病历元模块输入;
A03填充进入科研eCRF病例表单(即eCRF采集,亦即嵌入式自动采集)。
本发明中的标准化数据采集方法(即利用本发明的临床数据标准化系统进行临床数据采集及标准化处理的方法)的整个工作过程大致如下:患者到院随访时,临床医生会在接诊室接诊,在接诊室会使用门诊(住院)工作站;在门诊(住院)工作站基于当前患者参与的科研项目当次要随访的内容,如果涉及到检查、检验、药品相关申请,那么,临床医生在门诊(住院)工作站生成检查、检验、药品等业务申请单,患者基于开好的业务申请单去做检查、检验项目或领取药品服用;患者去做检查、检验项目时,LIS、RIS等业务系统基于诊疗流程要生成相关报告文档,这些数据都存储在LIS、RIS等业务系统对应的数据库里,每五分钟有复制订阅和ETL会定时将业务系统数据库里的数据同步到RDR科研数据中心;临床标准化数据采集平台软件每天会定时将RDR科研数据中心的数据通过标准化池进行数据清洗转换,通过采集服务模块进行语义分析、后结构化等标准化处理,最后将标准化后的数据自动填充到eCRF管理模块的eCRF表单对应的单病种为主题的数据仓库形成病种库。
本发明中的标准化数据采集方法(即利用本发明的临床数据标准化系统进行临床数据标准化的方法)的每一步的具体过程步骤(亦即本发明中的临床数据标准化系统及临床标准化数据采集平台的工作流程)如下:
(1)通过入排标准配置模块,配置科研课题的患者入组或出组规则;通过随访计划配置模块,配置科研课题随访时要做哪些事;通过科研元数据管理模块,定义科研课题的eCRF表单采集点及关联标准是什么;
(2)随访患者(即科研受试者)到院随访(接诊)时,医生工作站基于标准化系统的随访计划配置模块提供的当次随访计划需要采集的检验、检查、处方医嘱相关业务项目(即医院的电子化诊疗业务),读取当前随访内容,生成对应的随访需要的检查、检验、药品等业务申请单,再将这些业务申请单信息发送给相关业务系统即医生工作站;之后,eCRF管理模块基于元数据管理模块的定义生成随访电子病历文书模板;
(3)医生工作站在临床诊疗中,书写电子病历文书;本次随访结束;
亦即,患者基于开好的业务申请单去做检查、检验项目或领取药品服用;患者去做检查、检验项目时,LIS、RIS等业务系统(医生工作站)基于诊疗流程生成相关的报告文档(书写电子病历文书),这些数据都存储在LIS、RIS等业务系统对应的数据库里;每五分钟有复制订阅和ETL会定时将业务系统数据库里的原始数据同步到RDR科研数据中心;
(4)采集模块,基于业务申请单号及项目号,根据科研病例管理模块所定义的科研课题要采集点的科研病历处理逻辑,并根据随访计划配置模块的配置和科研元数据管理模块所定义的科研课题的eCRF表单采集点及关联标准,采集获取业务系统数据库中当次临床诊疗发生的原始数据(即自动采集数据);系统会定时将采集到的业务系统数据库中当次临床诊疗发生的原始数据,通过ETL工具进行初级技术整合后同步到RDR科研数据中心;然后,系统会定时对采集到的并进入RDR科研数据中心内的原始数据,基于标准化池里的词库字典信息,进行清洗转换,进行标准化处理,变成标准统一的数据之后,自动填充进入eCRF管理模块的科研eCRF表单(即eCRF表单配置基于元数据管理模块的定义进行配置并生成eCRF表单),形成单病种的数据仓库即病种库;
具体的自动采集数据并进行标准化处理的方法如下:
首先,定时通过复制订阅,并通过ETL(抽取-转换-加载)工具进行初级技术整合(主要是将业务系统各部门的信息进行归档整合,将一些通用术语进行规范化)定制的临床业务系统库中的原始数据,形成RDR科研数据中心(这是原有的);
然后,系统的标准化维护模块,基于RDR科研数据中心原有的数据,进一步地根据病种主题,对差异化的标准进行后台注释,再将注释好的差异化的标准整合为标准化的词库字典;
之后,采集模块里的嵌入式自动采集模块,根据入排标准模块的配置,基于业务申请单号及项目号,从临床业务系统库获取当次临床诊疗发生的原始数据(即自动采集数据);获取的这些原始数据先通过ETL进行初级技术整合后进入RDR科研数据中心;然后,对基于配置的eCRF表单对应的RDR科研数据中心的数据进行清洗转换,即对病历文书进行清洗切词、后结构化处理(亦即,基于标准化的词库字典,通过语义分析、知识发现,处理数据层的临床业务系统库中的相关数据,并进行后结构化标识);之后,对具有不同后台标准的文档通过信息化手段进行编译,再将编译好的标准化文档通过HMM算法进行校正;最后,将校正的数据自动填充到eCRF病历表表单,形成单病种的数据仓库即病种库(病种库是关于某病种所有数据的数据库);亦即,将校正的数据导入eCRF管理模块的病种库。
如eCRF表单需要采集病历文书内容,切词模块先对病历文书自行清洗切词;切词完成后,NLP自然语义处理模块(包括电子病历文书语义分析模块、病理报告内容语义分析模块)再对病历文书基于已标注好的eCRF表单要采集的内容,进行后结构化处理;然后,通过机器学习模块进行学习;之后,语料训练模块基于已定义的eCRF表单要采集的后结构化内容,通过监督机器学习与标准化内容是否匹配,将新内容转为标准化描述内容(这些工作是由机器学习模块和语料训练模块处理的);之后,再将标准化描述内容自动填充到eCRF病历表表单。此处加入监督式的机器学习与标准化内容是否匹配,形成学习后的采集标注点,可减少人工标注工作量。
本发明中具体的进行后台注释、进行编译、进行校正的方法如下:
本发明采用基于HMM统计模型的词性标注方法对差异化的标准进行后台注释,即采用基于隐马尔可夫模型HMM的词性标注方法去实现词性标注;在实现基于HMM的词性标注方法中,利用词典信息约束模型的参数,方法如下:假设输出符号表由单词构成(即词序列为HMM的观察序列),如果某个对应的『词汇-词性标记』没有被包含在词典中,那该词汇被标记为该词性标记的概率就为0;如果存在,那该词汇被标记为某词汇标记的概率为其所有可能被标记的所有词性个数的倒数;然后,根据训练语料给定的词性标记生成词的概率,对于某词性标记j生成词wl的概率,分子用词wl出现的次数乘以该词汇被标记为该词汇标记的概率,分母是在训练语料范围内,所有词被标记为该词汇标记的概率乘以该词出现的次数,通过以上方法的训练模型来合理地估计模型概率(约束模型的参数)。
(5)另外,新建一个科研项目临床数据稽查平台(临床标准化数据采集平台新建的一个功能),将病人的基本信息、就医信息、健康问题、用药信息、过敏信息、手术信息、检验检查报告、既往病史等临床业务真实诊疗信息组织起来,数据来源还是原始的未做标准化转化的临床业务数据,供后续科研项目数据真实性审查使用。
该科研项目临床数据稽查平台,就是新建了一个便于查询回溯的功能,可以简单地把很多指标融合起来进行多条件查询的功能,由于这个功能设计的比较庞大,可以衍生出去做一套专门的平台,所以名称不能叫功能模块,但衍生出去做成一套专门的平台后,可以再添加很多额外的功能。
利用本发明的临床数据标准化系统进行的标准化数据采集方法,它包括利用临床标准化数据采集平台进行临床标准化数据采集,还包括利用科研项目临床数据稽查平台进行数据稽查,还包括对eCRF管理系统进行整合改造,以及对业务系统进行改造。
本发明的优点:
本发明在充分融合了国内外生物医学领域标准编码和服务接口的条件下,对差异化的标准进行后台注释,再将注释好的元数据整合为字典,对于不同的标准后台通过信息化手段进行编译,再将编译好的标准化文档通过一定算法进行校正,缩小误差,降低偏倚率。在元数据编译的同时,也方便了信息存储和采集,构成了一体化系统。
Claims (8)
1.一种临床数据标准化系统,其特征在于,包括临床标准化数据采集平台,还包括科研项目临床数据稽查平台、业务系统;所述的临床标准化数据采集平台包括以下功能模块:入排标准配置模块、随访计划配置模块、科研元数据管理模块、科研病例管理模块、标准化维护模块、采集模块、服务接口模块、eCRF管理模块;其中,
所述的入排标准配置模块,用于配置科研课题的患者入组或出组规则;
所述的随访计划配置模块,用于配置科研课题在患者随访时要做哪些事的计划配置;
所述的科研元数据管理模块,用于定义科研课题的eCRF表单采集点及关联标准;
所述的标准化维护模块,用于维护标准化池里的词库字典信息;
所述的科研病例管理模块,用于定义科研课题要采集点的科研病例处理逻辑;
所述的采集模块,用于基于随访计划配置,采集科研课题相关的临床诊疗数据;采集模块包括采集映射模块和采集服务模块;
采集映射模块,用于定义要采集那些内容,采集的内容与eCRF管理模块里的eCRF表单的映射关系;
采集服务模块,基于采集映射模块的定义,根据采集频率定时从业务系统提取要采集的内容,并基于采集映射模块定义的与eCRF表单的映射关系将采集的内容填入eCRF表单对应条目;
采集服务模块包括手动采集模块和嵌入式自动采集模块;
手动采集模块,用于由科研评估员确认当次随访结束需要将业务系统数据提取到eCRF表单时,由科研评估员在系统中通过点击“采集”按钮发启采集服务;
嵌入式自动采集模块,基于采集映射模块定义的采集内容及采集频率,当采集时间到了,系统自动根据采集映射模块所定义的采集内容,从业务系统提取要采集的内容,并基于采集映射模块所定义的与eCRF表单的映射关系,将采集的内容填入eCRF表单对应条目;
嵌入式自动采集模块,包括切词模块、NLP自然语义处理模块,还包括机器学习模块、语料训练模块;
切词模块,用于对病历文书进行清洗切词;
NLP自然语义处理模块,用于对病历文书中已标注好的要采集的内容,进行后结构化处理;
NLP自然语义处理模块包括电子病历文书语义分析模块、病理报告内容语义分析模块;
电子病历文书语义分析模块,用于对电子病历文书进行语义分析;
病理报告内容语义分析模块,用于对病理报告内容进行语义分析;
机器学习模块,用于对电子病历文书或病理报告内容进行学习新词或新语义;
语料训练模块,用于对电子病历文书或病理报告内容进行新词或新语义的训练;
所述的服务接口模块,用于提供医生工作站有哪些患者入组了科研课题,患者的当次随访计划有哪些之类的相关服务接口开发;
所述的eCRF管理模块,用于管理eCRF表单,包括eCRF表单设计和eCRF表单维护;在eCRF管理系统的底层有一个病种库;
所述的科研项目临床数据稽查平台,用于将包括病人的基本信息、就医信息、健康问题、用药信息、过敏信息、手术信息、检验检查报告、既往病史在内的诊疗信息组织起来,供后续科研项目数据真实性审查使用;
所述的业务系统,即医生工作站,包括门诊工作站、住院工作站;
所述的入排标准配置模块通过所述的服务接口模块与所述的业务系统连接并进行数据交换, 所述的随访计划配置模块通过所述的服务接口模块与所述的业务系统连接并进行数据交换, 所述的科研元数据管理模块与所述的 eCRF管理模块连接并进行数据交换,所述的科研病例管理模块与所述的eCRF管理模块连接并进行数据交换,所述的标准化维护模块与所述的采集模块连接并进行数据交换,所述的采集模块与所述的服务接口模块连接并进行数据交换,所述的采集模块通过所述的服务接口模块与所述的 eCRF管理模块连接并进行数据交换,所述的采集模块通过所述的服务接口模块与所述的业务系统连接并进行数据交换;所述的科研项目临床数据稽查平台与医院原建设的RDR科研数据中心连接并进行数据交换。
2.如权利要求1所述的临床数据标准化系统,其特征在于,该系统在系统架构上包括:业务层、数据层、支撑环境层、应用层;业务层主要是临床业务系统库;数据层包括RDR科研数据中心和病种库;支撑环境层主要是一些标准化的词库字典,包括SNOMED CT医学系统命名法-临床术语、ICD10国际疾病分类、CDISC临床数据交换标准协会、LOINC基本简介观测指标标识符逻辑命名与编码系统、ATC药物解剖学、治疗学及化学分类法;系统基于eCRF表单要求,采集临床业务数据后,基于这些标准化的词库字典,也叫标准化池,通过语义分析、知识发现,处理数据层的临床业务相关数据,并进行后结构化标识,最后,嵌入eCRF管理系统的病种库;应用层主要是对eCRF管理模块的eCRF表单数据进行标准化管理、定义采集规则,并对门诊工作站、住院工作站的业务系统进一步流程化、标准化采集处理。
3.如权利要求1所述的临床数据标准化系统,其特征在于,所述的临床标准化数据采集平台,该平台软件的技术架构包括:
应用层:采用B/S模式,应用展示端采用HTML5技术,支持跨平台包括Windows、IOS、Android平台的应用展示;
组织层,即后台开发框架:采用MVC框架模式,以保证开发技术和技术架构的先进性和可持续性;
实施层,即数据层:实现对电子病历数据元素的提取、清洗、标准化处理,并可以生成科研元数据为临床科研系统使用;
技术层:结合UI引擎软件配置eCRF表单,实现随访计划的配置管理,支持用户通过科研元数据控件自行定义eCRF表单,支持自定义的数据库的建立及科研随访工作的开展。
4.一种利用如权利要求1-3任一所述的临床数据标准化系统进行的标准化数据采集方法,其特征在于,该标准化数据采集方法的工作流程如下:患者到院随访时,临床医生通过医生工作站,基于当前患者参与的科研项目当次要随访的内容,生成相关业务申请单,包括检查、检验项目或药品处方;患者基于开好的业务申请单去做检查、检验项目或领取药品服用;患者去做检查、检验项目时,业务系统基于诊疗流程生成相关报告文档,这些数据都存储在业务系统对应的数据库里;之后再通过复制订阅和ETL定时将业务系统数据库里的数据同步到RDR科研数据中心;临床标准化数据采集平台软件每天定时将RDR科研数据中心的数据通过标准化池进行数据清洗转换,通过采集服务模块进行包括语义分析、后结构化处理在内的标准化处理,最后将标准化后的数据自动填充到eCRF管理模块的eCRF表单对应的单病种为主题的数据仓库形成病种库。
5.如权利要求4所述的标准化数据采集方法,其特征在于,该标准化数据采集方法的具体过程步骤如下:
(1)通过入排标准配置模块,配置科研课题的患者入组或出组规则;通过随访计划配置模块,配置科研课题随访时要做哪些事;通过科研元数据管理模块,定义科研课题的eCRF表单采集点及关联标准是什么;
(2)随访患者即科研受试者到院随访接诊时,医生工作站基于标准化系统的随访计划配置模块提供的当次随访计划需要采集的检验、检查、处方医嘱相关业务项目,读取当前随访内容,生成对应的随访需要的业务申请单包括检查、检验项目、药品处方,再将这些业务申请单信息发送给相关业务系统即医生工作站;之后,eCRF管理模块基于元数据管理模块的定义生成随访电子病历文书模板;
(3)医生工作站在临床诊疗中,书写电子病历文书;本次随访结束;
亦即,患者基于开好的业务申请单去做检查、检验项目或领取药品服用;患者去做检查、检验项目时,业务系统基于诊疗流程生成相关的报告文档即电子病历文书,这些数据都存储在业务系统对应的数据库里;每隔几分钟有复制订阅和ETL会定时将业务系统数据库里的原始数据同步到RDR科研数据中心;
(4)采集模块,基于业务申请单号及项目号,根据科研病例管理模块所定义的科研课题要采集点的科研病历处理逻辑,并根据随访计划配置模块的配置和科研元数据管理模块所定义的科研课题的eCRF表单采集点及关联标准,采集获取业务系统数据库中当次临床诊疗发生的原始数据,即自动采集数据;系统定时将采集到的业务系统数据库中当次临床诊疗发生的原始数据,通过ETL工具进行初级技术整合后同步到RDR科研数据中心;然后,系统定时对采集到的并进入RDR科研数据中心内的原始数据,基于标准化池里的词库字典信息,进行清洗转换,进行标准化处理,变成标准统一的数据之后,自动填充进入eCRF管理模块的科研eCRF表单,即eCRF表单配置基于元数据管理模块的定义进行配置并生成eCRF表单,形成单病种的数据仓库即病种库;
(5)另外新建一个科研项目临床数据稽查平台,将包括病人的基本信息、就医信息、健康问题、用药信息、过敏信息、手术信息、检验检查报告、既往病史在内的临床业务真实诊疗信息组织起来,数据来源还是原始的未做标准化转化的临床业务数据,供后续科研项目数据真实性审查使用。
6.如权利要求5所述的标准化数据采集方法,其特征在于,上述步骤(4)中,自动采集数据并进行标准化处理的具体方法步骤如下:
首先,定时通过复制订阅,并通过ETL工具进行初级技术整合定制的临床业务系统库中的原始数据,形成RDR科研数据中心;
然后,系统的标准化维护模块,基于RDR科研数据中心原有的数据,进一步地根据病种主题,对差异化的标准进行后台注释,再将注释好的差异化的标准整合为标准化的词库字典;
之后,采集模块里的嵌入式自动采集模块,根据入排标准模块的配置,基于业务申请单号及项目号,从临床业务系统库获取当次临床诊疗发生的原始数据;获取的这些原始数据先通过ETL进行初级技术整合后进入RDR科研数据中心;然后,对基于配置的eCRF表单对应的RDR科研数据中心的数据进行清洗转换,即对病历文书进行清洗切词、后结构化处理,亦即,基于标准化的词库字典,通过语义分析、知识发现,处理数据层的临床业务系统库中的相关数据,并进行后结构化标识;之后,对具有不同后台标准的文档通过信息化手段进行编译,再将编译好的标准化文档通过HMM算法进行校正;最后,将校正的数据自动填充到eCRF病历表表单, 形成单病种的数据仓库即病种库;亦即,将校正的数据导入eCRF管理模块的病种库。
7.如权利要求6所述的标准化数据采集方法,其特征在于,
如eCRF表单需要采集病历文书内容,切词模块先对病历文书自行清洗切词;切词完成后,NLP自然语义处理模块,包括电子病历文书语义分析模块、病理报告内容语义分析模块,再对病历文书基于已标注好的eCRF表单要采集的内容,进行后结构化处理;然后,通过机器学习模块进行学习;之后,语料训练模块基于已定义的eCRF表单要采集的后结构化内容,通过监督机器学习与标准化内容是否匹配,将新内容转为标准化描述内容;之后,再将标准化描述内容自动填充到eCRF病历表表单。
8.如权利要求6所述的标准化数据采集方法,其特征在于,采用基于HMM统计模型的词性标注方法对差异化的标准进行后台注释,即采用基于隐马尔可夫模型HMM的词性标注方法去实现词性标注;在实现基于HMM的词性标注方法中,利用词典信息约束模型的参数,方法如下:假设输出符号表由单词构成,即词序列为HMM的观察序列,如果某个对应的『词汇-词性标记』没有被包含在词典中,那该词汇被标记为该词性标记的概率就为0;如果存在,那该词汇被标记为某词汇标记的概率为其所有可能被标记的所有词性个数的倒数;然后,根据训练语料给定的词性标记生成词的概率,对于某词性标记j生成词wl的概率,分子用词wl出现的次数乘以该词汇被标记为该词汇标记的概率,分母是在训练语料范围内,所有词被标记为该词汇标记的概率乘以该词出现的次数;通过采用以上方法的训练模型来合理地估计模型概率,即约束模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540514.9A CN110335647B (zh) | 2019-06-21 | 2019-06-21 | 一种临床数据标准化系统及标准化数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540514.9A CN110335647B (zh) | 2019-06-21 | 2019-06-21 | 一种临床数据标准化系统及标准化数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110335647A CN110335647A (zh) | 2019-10-15 |
CN110335647B true CN110335647B (zh) | 2023-04-28 |
Family
ID=68142892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910540514.9A Active CN110335647B (zh) | 2019-06-21 | 2019-06-21 | 一种临床数据标准化系统及标准化数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335647B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102171436B1 (ko) * | 2019-12-16 | 2020-10-29 | 주식회사 레몬헬스케어 | Api 통합관리를 위한 클라우드 기반의 api 메타데이터 관리방법 및 시스템 |
CN111180087A (zh) * | 2020-01-02 | 2020-05-19 | 中国中医科学院中医药信息研究所 | 上市药品信息标准化方法、设备、服务器及存储介质 |
CN111739594B (zh) * | 2020-04-09 | 2021-06-04 | 卫宁健康科技集团股份有限公司 | 临床科研数据的采集方法及系统 |
CN111292820B (zh) * | 2020-05-08 | 2020-08-21 | 成都金盘电子科大多媒体技术有限公司 | 医疗信息化数据标准体系快速构建系统、方法及服务器 |
CN111737533B (zh) * | 2020-06-19 | 2024-02-09 | 东软集团股份有限公司 | 一种检验项目的处理方法、装置、存储介质及设备 |
CN111863267B (zh) * | 2020-07-08 | 2024-01-26 | 首都医科大学附属北京天坛医院 | 数据信息获取方法、数据分析方法、装置以及存储介质 |
CN112084245B (zh) * | 2020-09-03 | 2024-03-12 | 深圳力维智联技术有限公司 | 基于微服务架构的数据管理方法、装置、设备及存储介质 |
CN112380189A (zh) * | 2020-11-17 | 2021-02-19 | 国网福建省电力有限公司信息通信分公司 | 一种数据模型的在线管理系统 |
CN112434200B (zh) * | 2020-11-30 | 2024-06-04 | 北京思特奇信息技术股份有限公司 | 一种数据展示方法、系统及电子设备 |
CN112509693A (zh) * | 2020-12-11 | 2021-03-16 | 北京目人生殖医学科技有限公司 | 一种临床数据统计分析方法、系统、设备及存储介质 |
CN112669939A (zh) * | 2020-12-24 | 2021-04-16 | 中电通商数字技术(上海)有限公司 | 一种医学影像检查部位标准化方法及系统 |
CN112735607A (zh) * | 2021-01-26 | 2021-04-30 | 杭州联众医疗科技股份有限公司 | 一种全数据化的罕见病病例库及mdt讨论平台 |
CN112817978A (zh) * | 2021-01-29 | 2021-05-18 | 泽恩科技有限公司 | 一种基于业务风险点的智能表单系统 |
CN112883033A (zh) * | 2021-02-25 | 2021-06-01 | 嘉兴易迪希计算机技术有限公司 | Edc系统中自动编码和历史编码自动匹配方法 |
CN113555075A (zh) * | 2021-07-21 | 2021-10-26 | 南京脑科医院 | 一种基于etl数据处理的老年疾病数据管理系统 |
CN113345545B (zh) * | 2021-07-28 | 2021-10-29 | 北京惠每云科技有限公司 | 临床数据的稽查方法、装置、电子设备及可读存储介质 |
CN113871025A (zh) * | 2021-09-08 | 2021-12-31 | 四川大学华西医院 | 一种皮肤科临床专病数据库建设方法和系统 |
CN113887175B (zh) * | 2021-09-15 | 2023-05-12 | 南京海泰医疗信息系统有限公司 | 一种电子病历编辑器及其调用方法 |
CN114049925A (zh) * | 2022-01-12 | 2022-02-15 | 科临达康医药生物科技(北京)有限公司 | 临床试验开发计划生成方法、系统和设备 |
CN114627994A (zh) * | 2022-03-23 | 2022-06-14 | 中山大学附属第八医院(深圳福田) | 一种泌尿系结石诊疗随访数据的存储方法 |
CN116386799B (zh) * | 2023-06-05 | 2023-08-18 | 数据空间研究院 | 一种医疗数据采集与标准转换方法及系统 |
CN116525124B (zh) * | 2023-07-03 | 2023-08-29 | 中电科大数据研究院有限公司 | 用于医疗大数据的数据标准化治理方法及系统 |
CN117271903A (zh) * | 2023-11-17 | 2023-12-22 | 神州医疗科技股份有限公司 | 基于医院临床大数据的事件搜索方法及装置 |
CN117438025B (zh) * | 2023-12-19 | 2024-03-22 | 南京江北新区生物医药公共服务平台有限公司 | 一种基于深度学习的单病种电子病历数据库构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441686A (zh) * | 2008-11-26 | 2009-05-27 | 复旦大学附属中山医院 | 基于自然语言编写的医疗文档的信息抽提及格式转换系统 |
CN109785918A (zh) * | 2018-12-29 | 2019-05-21 | 南京海泰医疗信息系统有限公司 | 一种应用于临床科研的数据采集系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI601087B (zh) * | 2016-08-29 | 2017-10-01 | 國立陽明大學 | 產生標準臨床電子表單系統及方法 |
-
2019
- 2019-06-21 CN CN201910540514.9A patent/CN110335647B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441686A (zh) * | 2008-11-26 | 2009-05-27 | 复旦大学附属中山医院 | 基于自然语言编写的医疗文档的信息抽提及格式转换系统 |
CN109785918A (zh) * | 2018-12-29 | 2019-05-21 | 南京海泰医疗信息系统有限公司 | 一种应用于临床科研的数据采集系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110335647A (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335647B (zh) | 一种临床数据标准化系统及标准化数据采集方法 | |
CN109584975B (zh) | 医疗数据标准化处理方法及装置 | |
CN101107607B (zh) | 程序性医学工作流管理 | |
US9703927B2 (en) | System and method for optimizing and routing health information | |
US8612261B1 (en) | Automated learning for medical data processing system | |
US8086468B2 (en) | Method for computerising and standardizing medical information | |
US20110119089A1 (en) | System and Method for Personal Electronic Medical Records | |
US20140149132A1 (en) | Adaptive medical documentation and document management | |
US20030233251A1 (en) | Dynamic dictionary and term repository system | |
CN114026651A (zh) | 结构化患者数据记录的自动生成 | |
CN111081329A (zh) | 临床数据自动录入方法及装置、电子设备、存储介质 | |
CN110223739A (zh) | 临床发现的主动追踪观察 | |
CN111341455A (zh) | 临床试验一体化云平台管理系统、方法及存储介质 | |
US20150294088A1 (en) | Patient Summary Generation | |
CN114664463A (zh) | 一种全科医生诊疗辅助系统 | |
Pecoraro et al. | Designing ETL tools to feed a data warehouse based on electronic healthcare record infrastructure | |
US11875884B2 (en) | Expression of clinical logic with positive and negative explainability | |
KR102563038B1 (ko) | 치료영역 별 임상시험 데이터의 표준화 처리 시스템 | |
CA2904656A1 (en) | Dynamic superbill coding workflow | |
US20110035206A1 (en) | System and Method for Generating Radiological Prose Text Utilizing Radiological Prose Text Definition Ontology | |
CN117216322A (zh) | 一种电子病历的生成方法、装置、设备及存储介质 | |
El Fadly et al. | The REUSE project: EHR as single datasource for biomedical research | |
Kaloyanova et al. | Addressing data quality in healthcare | |
US12027269B2 (en) | Intelligent system and methods for automatically recommending patient-customized instructions | |
Mandell et al. | Development of a visualization tool for healthcare decision-making using electronic medical records: A systems approach to viewing a patient record |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |