CN113539404A - 跨医院电子病历数据采集方法、系统及存储设备 - Google Patents
跨医院电子病历数据采集方法、系统及存储设备 Download PDFInfo
- Publication number
- CN113539404A CN113539404A CN202110910271.0A CN202110910271A CN113539404A CN 113539404 A CN113539404 A CN 113539404A CN 202110910271 A CN202110910271 A CN 202110910271A CN 113539404 A CN113539404 A CN 113539404A
- Authority
- CN
- China
- Prior art keywords
- data
- data acquisition
- hospital
- item
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 238000013480 data collection Methods 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims description 21
- 239000012634 fragment Substances 0.000 claims description 15
- 238000000586 desensitisation Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000004140 cleaning Methods 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供的跨医院电子病历数据采集方法、系统及存储设备,包括:建立数据采集模板,并根据数据采集模板生成一例探测数据;模拟用户访问操作,输入探测数据,并将探测数据存储至采集端医院的后台数据库中;在采集端医院的后台数据库中,依据数据库结构完成该探测数据在后台数据库中的数据对齐;在采集端医院,根据数据采集模板和数据库结构,进行数据的采集;对采集端医院采集的每个数据采集项,进行重复性鉴别,当数据采集项重复时,删除重复的数据采集项,否则将采集的数据采集项存储至后台数据库中;能够自动实现跨医院之间的电子病历数据采集、清洗与存储,提升跨院数据交互的效率与质量;适用于医疗信息化领域。
Description
技术领域
本发明涉及医疗信息化的技术领域,具体涉及跨医院电子病历数据采集方法、系统及存储设备。
背景技术
医疗信息化的快速发展为医疗服务效率的提升、就医流程的改善提供了有力支撑,多个医院间的业务协作已经成为趋势。
然而,医院间的业务协作不可避免的会涉及到跨医院的电子病历数据的交互,但由于不同医院的信息化系统建设规范不一致,不同医院电子病历的数据库表结构也不一致,形成了“数据孤岛”现象;且在许多基层医疗机构中,由于医院信息系统上线时间较久,难以再得到信息系统厂商的技术支持,导致跨院的数据交互困难,在出现新的系统数据共享需求时候,由于不清楚现有数据库的字段名称与表结构,导致无法通过数据库视图方式进行共享,给跨医院间的数据共享造成障碍。
发明内容
针对相关技术中存在的不足,本发明所要解决的技术问题在于:提供一种跨医院电子病历数据采集方法、系统及存储设备,能够自动实现跨医院之间的电子病历数据采集、清洗与存储,提升跨院数据交互的效率与质量。
为解决上述技术问题,本发明采用的技术方案为:
跨医院电子病历数据采集方法,包括:S10,在中心端医院建立数据采集模板,并根据数据采集模板生成一例探测数据;S20,在采集端医院模拟用户访问操作,输入探测数据,并将所述探测数据存储至采集端医院的后台数据库中;S30,在采集端医院的后台数据库中,依据数据库结构完成该探测数据在后台数据库中的数据对齐,以建立中心端医院和采集端医院之间的数据采集通道;S40,在采集端医院,根据数据采集模板和数据库结构,进行数据的采集;S50,对采集端医院采集的每个数据采集项,进行重复性鉴别,当数据采集项重复时,删除重复的数据采集项,否则将采集的数据采集项存储至后台数据库中。
优选地,所述步骤S10,在中心端医院建立数据采集模板,并根据数据采集模板生成一例探测数据;具体包括:S101,定义数据采集模板中包含有至少一个数据采集项,每个所述的数据采集项为三元组数据,所述三元组数据包括:序号、字段名称、所述序号和字段名称对应的数据值;将代表每一个病例数据唯一值的数据采集项设定为主键;S102,根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据。
优选地,所述S102,根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据;具体包括:S1021,在数据库中随机采集一例数据作为原始数据采集模板;将原始数据采集模板中每一个数据采集项的字段名称记录为一一对应的一组原始字段名称;采用原始数据采集模板和与原始数据采集模板对应的一组原始字段名称生成映射表;S1022,对原始数据采集模板中每一个数据采集项进行脱敏处理,并根据脱敏处理结果更新映射表;S1023,从更新后的映射表中提取出数据值字段,并拼接成XML格式,生成探测数据。
优选地,所述步骤S1022,对原始数据采集模板中每一个数据采集项进行脱敏处理,并根据脱敏处理结果更新映射表;具体包括:S1022-1,将数据采集项中的存储数据值转换为字符串;S1022-2,获取字符串的长度N;S1022-3,判断字符串的长度N,如为1,则不需要执行脱敏处理,直接输出;当字符串的长度N大于1时,执行步骤S1022-4;S1022-4,对字符串进行倒序间隔替换字符操作,使字符串顺序打乱;形成新的字符串;S1022-5,将映射表中的字符串用新的字符串进行替换,对映射表进行更新。
优选地,所述步骤S50,对采集端医院采集并存储的每个数据采集项,进行重复性鉴别,当数据重复时,删除重复的数据;具体包括:
S501,分别对每个采集的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较,若所述采集并存储的数据采集项的主键对应的数据值与某一已入库的数据采集项中的主键对应的数据值一致,则执行步骤S502,若没有出现一致的数据采集项,则执行步骤S503;
S502,认定为重复数据,将采集的数据采集项进行遗弃处理;
S503,认定为非重复数据,将新采集的数据采集项存储至后台数据库中。
优选地,S501,分别对每个采集并存储的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较;具体包括:
S5011,将待比较的两个数据值分别转换成字符串String1和字符串String2;S5012,判断字符串String1和字符串String2的长度是否相同,若相同,则执行步骤S5013,若不相同,则判定待比较的两个数据值不一致;S5013,计算每次对比片段的长度值step_size;
step_size=Floor(log10Length(String))+bias;
其中:Length(String)表示函数返回String的长度;log10Length(String)表示以10为基数的Length(String)的对数;
FloorLog10(Length(String))表示不大于Log10(Length(String))的最大整数;bias表示偏移量,设为1;
S5014,分别将字符串String1、字符串String2从各自的字符串中首尾各截取长度为step_size的字符串:将String1截取的字符串拼接在一起,组成新的字符串String1-1,将String2截取的字符串拼接在一起,组成新的字符串String2-1;
其中:String1截取的字符串为:String1_Left_fragment、String1_Right_fragment;
String2截取的字符串为:String2_Left_fragment、String2_Right_fragment;
S5015,将新字符串String1-1与新字符串String2-1进行比较,判断二者是否一致,若是,则执行步骤S506,否则,判定待比较的两个数据值不一致;
S5016、判断字符串String1或字符串String2的左侧段中未被提取过的字符总长度是否小于step_size,若是,则执行S5019,否则,执行步骤S5017;
S5017,跳过已被截取过的字符,重新从字符串String1、字符串String2中首尾各截取长度为step_size的字符串;并将String1截取的字符串拼接在一起,组成新的字符串String1-2,将String2截取的字符串拼接在一起,组成新的字符串String2-2;
S5018,将新字符串String1-2与新字符串String2-2进行比较,判断二者是否一致,若是,则循环执行步骤S5016,否则,判定待比较的两个数据值不一;
S5019,跳过已被提取过的字符,重新从字符串String1、字符串String2中首尾各截取未被截取过的所有字符;并将String1截取的字符串拼接在一起,组成新的字符串String1-N,将String2截取的字符串拼接在一起,组成新的字符串String2-N;
S50110、将新字符串String1-N与新字符串String2-N进行比较,判断二者是否一致,若是,则判定待比较的两个数据值一致,否则,判定待比较的两个数据值不一致。
相应地,跨医院电子病历数据采集系统,包括:中心端医院装置和采集端医院装置,所述中心端医院装置和采集端医院装置通信连接;所述中心端医院装置包括:建立单元,用于建立数据采集模板,并根据数据采集模板生成一例探测数据;
所述采集端医院包括:模拟单元,用于模拟用户访问操作,输入探测数据,并将所述探测数据存储至采集端医院的后台数据库中;数据对齐单元,依据数据库结构完成模拟单元采集的探测数据在后台数据库中的数据对齐,以建立中心端医院和采集端医院之间的数据采集通道;采集单元,根据数据采集模板和数据库结构,进行数据的采集;重复性鉴别单元,用于对采集端医院采集的每个数据采集项,进行重复性鉴别,当数据采集项重复时,删除重复的数据采集项,否则将采集的数据采集项存储至后台数据库中。
优选地,所述建立单元具体包括:定义单元,用于定义数据采集模板中包含有至少一个数据采集项,每个所述的数据采集项为三元组数据,所述三元组数据包括:序号、字段名称、所述序号和字段名称对应的数据值;将代表每一个病例数据唯一值的数据采集项设定为主键;生成单元,根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据。
优选地,所述重复性鉴别单元具体包括:比较单元,用于分别对每个采集的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较;判断单元,若所述采集并存储的数据采集项的主键对应的数据值与某一已入库的数据采集项中的主键对应的数据值一致,则认定为重复数据,将采集的数据采集项进行遗弃处理;若没有出现一致的数据采集项,则认定为非重复数据,将新采集的数据采集项存储至后台数据库中。
相应地,存储设备其中存储有多条指令,所述指令适于由处理器加载并执行如上述的跨医院电子病历数据采集方法。
本发明的有益技术效果在于:
本发明提供了跨医院电子病历数据采集方法、装置和存储设备,通过制定数据采集的模板,根据模板生成探测数据,向对端医院电子病历系统填写或者输入探测数据,依据采集端医院后台数据库的数据库结构进行数据的对齐,从而实现了不同医院电子病历系统的数据库字段的自动对齐;在数据库字段对齐的基础上,工作人员即可通过自定义数据库视图的方式实现数据采集,进而实现跨院的电子病历数据交互,自动实现跨医院之间的电子病历数据采集、清洗与存储,极大的提升跨院数据交互的效率与质量,减少人力工作。
附图说明
图1是本发明实施例提供的跨医院电子病历数据采集方法的第一个流程示意图;
图2是本发明实施例提供的跨医院电子病历数据采集方法中步骤S10的流程示意图;
图3是本发明实施例提供的跨医院电子病历数据采集方法中数据采集模板的示例图;
图4是本发明实施例提供的跨医院电子病历数据采集方法中步骤S102的流程示意图;
图5是本发明实施例提供的跨医院电子病历数据采集方法中映射表的示例图;
图6是本发明实施例提供的跨医院电子病历数据采集方法中对照表的示例图;
图7是本发明实施例提供的跨医院电子病历数据采集方法中步骤S1022的流程示意图;
图8是本发明实施例提供的跨医院电子病历数据采集方法中步骤S50的流程示意图;
图9是本发明实施例提供的跨医院电子病历数据采集方法中步骤S501的流程示意图;
图10是本发明实施例提供的跨医院电子病历数据采集系统的第一个结构示意图;
图11是本发明实施例提供的跨医院电子病历数据采集系统的第二个结构示意图;
图12是本发明实施例提供的跨医院电子病历数据采集系统的第三个结构示意图;
图中:10为中心端医院装置,20为采集端医院装置;
101为建立单元;
1011为定义单元,1012为生成单元;
201为模拟单元,202为数据对齐单元,203为采集单元,204为重复性鉴别单元;
2041为比较单元,2042为判断单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
以下结合附图详细说明本发明的一个实施例。
如图1所示,本实施例公开的跨医院电子病历数据采集方法,可包括:
S10,在中心端医院建立数据采集模板,并根据数据采集模板生成一例探测数据;
S20,在采集端医院模拟用户访问操作,输入探测数据,并将所述探测数据存储至采集端医院的后台数据库中;
S30,在采集端医院的后台数据库中,依据数据库结构完成该探测数据在后台数据库中的数据对齐,以建立中心端医院和采集端医院之间的数据采集通道;
S40,在采集端医院,根据数据采集模板和数据库结构,进行数据的采集;
S50,对采集端医院采集的每个数据采集项,进行重复性鉴别,当数据采集项重复时,删除重复的数据采集项,否则将采集的数据采集项存储至后台数据库中。
本发明在使用时,
首先,在中心端根据数据采集的需求,制定数据采集模板,并根据该模板自动生成一例探测数据;
其次,在采采集端医院系统,模拟用户访问操作进行数据的录入,其中数据录入的内容为如上生成的探测数据;模拟录入完成后,采集端医院的后台数据库中依据数据库结构完成该探测数据在后台数据库中的数据对齐,以建立中心端医院和采集端医院之间的数据采集通道,实现数据的自动获取;
再次,在完成数据的对齐后,在采集端医院即可进行常规的数据采集录入;常规录入完成后,对采集端医院采集的每个数据采集项,进行重复性鉴别,当数据采集项重复时,删除重复的数据采集项,否则将采集的数据采集项存储至后台数据库中。
本实施例中,通过制定数据采集的模板,根据模板生成探测数据,向对端医院电子病历系统填写或者输入探测数据,依据采集端医院后台数据库的数据库结构进行数据的对齐,从而实现了不同医院电子病历系统的数据库字段的自动对齐;在数据库字段对齐的基础上,工作人员即可通过自定义数据库视图的方式实现数据采集,进而实现跨院的电子病历数据交互,自动实现跨医院之间的电子病历数据采集、清洗与存储,极大的提升跨院数据交互的效率与质量,减少人力工作。
如图2所示,所述步骤S10,在中心端医院建立数据采集模板,并根据数据采集模板生成一例探测数据;具体可包括:
S101,定义数据采集模板中包含有至少一个数据采集项,每个所述的数据采集项为三元组数据,所述三元组数据包括:序号、字段名称、所述序号和字段名称对应的数据值;将代表每一个病例数据唯一值的数据采集项设定为主键;
S102,根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据。
本实施例中,所述数据采集模板中可根据具体需要采集的数据,规定每个需要采集数据的相关信息。
如图3所示,本实施例中,所述数据采集模板可定义为EHR_data,数据采集模板中包含有数据采集项,每一个数据采集项为三元组EHR_data_item=(itemNo,itemName,itemValue);其中:itemNo表示该数据三元组的序号,itemName表示字段名称,itemValue表示存储的数据值;
因此,所定义的数据采集模板,为由N个EHR_data_item元素组成的结构;即:EHR_data={EHR_data_item1,EHR_data_item2,EHR_data_item3,……,EHR_data_itemN}。
其中,对于数据采集模板中EHR_data,必须设置一项三元组EHR_data_item作为数据采集的主键(Primary_key),主键是区分每一个病例数据的唯一值,不可重复。
在数据采集模板EHR_data中,其itemValue为空,在生成探测数据时,会对该字段进行填充;在该示例中,选取了itemNo=1的EHR_data_item为Primary_key,通过该EHR_data_item可唯一索引每一例探测数据。
如图4所示,所述S102,根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据;具体包括:
S1021,在数据库中随机采集一例数据作为原始数据采集模板;
将原始数据采集模板中每一个数据采集项的字段名称记录为一一对应的一组原始字段名称;
采用原始数据采集模板和与原始数据采集模板对应的一组原始字段名称生成映射表;
S1022,对原始数据采集模板中每一个数据采集项进行脱敏处理,并根据脱敏处理结果更新映射表;
S1023,从更新后的映射表中提取出数据值字段,并拼接成XML格式,生成探测数据。
具体地,如图5所示,依据数据采集模板,在数据库中随机采集一例数据作为原始数据采集模板,记为Origin_EHR_data,将原始数据采集模板中每一个数据采集项的字段名称记录为一一对应的一组原始字段名称;记为originName,此时生成映射表;
进一步地,如图6所示,本实施例,所述步骤S30中,依据探测数据(TestData),在采集端医院模拟真实用户访问,手动输入或导入探测数据后,到采集端医院的数据管理模块(后台数据库)中,依据主键找到探测数据后,根据映射表中的对照表,逐项填充采集医院的数据库字段到对照表的targetName中,完成数据对齐。
如图7所示,所述步骤S1022,对原始数据采集模板中每一个数据采集项进行脱敏处理,并根据脱敏处理结果更新映射表;具体可包括:
S1022-1,将除主键之外的其它数据采集项中的存储数据值转换为字符串;
S1022-2,获取字符串的长度N;
S1022-3,判断字符串的长度N,如为1,则不需要执行脱敏处理,直接输出;当字符串的长度N大于1时,执行步骤S1022-4;
S1022-4,对字符串进行倒序间隔替换字符操作,使字符串顺序打乱;形成新的字符串;
S1022-5,将映射表中的字符串用新的字符串进行替换,对映射表进行更新。
本实施例中,执行完脱敏操作之后,得到的新的字符串即为无实际意义的字符串。
如图8所示,所述步骤S50,对采集端医院采集并存储的每个数据采集项,进行重复性鉴别,当数据重复时,删除重复的数据;具体可包括:
S501,分别对每个采集的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较,若所述采集并存储的数据采集项的主键对应的数据值与某一已入库的数据采集项中的主键对应的数据值一致,则执行步骤S502,若没有出现一致的数据采集项,则执行步骤S503;
S502,认定为重复数据,将采集的数据采集项进行遗弃处理;
S503,认定为非重复数据,将新采集的数据采集项存储至后台数据库中。
如图9所示,S501,分别对每个采集并存储的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较;具体包括:
S5011,将待比较的两个数据值分别转换成字符串String1和字符串String2;
S5012,判断字符串String1和字符串String2的长度是否相同,若相同,则执行步骤S5013,若不相同,则判定待比较的两个数据值不一致;
S5013,计算每次对比片段的长度值step_size;
step_size=Floor(log10Length(String))+bias;
其中:Length(String)表示函数返回String的长度;log10Length(String)表示以10为基数的Length(String)的对数;
FloorLog10(Length(String))表示不大于Log10(Length(String))的最大整数;bias表示偏移量,设为1;
S5014,分别将字符串String1、字符串String2从各自的字符串中首尾各截取长度为step_size的字符串:将String1截取的字符串拼接在一起,组成新的字符串String1-1,将String2截取的字符串拼接在一起,组成新的字符串String2-1;
其中:String1截取的字符串为:String1_Left_fragment、String1_Right_fragment;
String2截取的字符串为:String2_Left_fragment、String2_Right_fragment;
S5015,将新字符串String1-1与新字符串String2-1进行比较,判断二者是否一致,若是,则执行步骤S506,否则,判定待比较的两个数据值不一致;
S5016、判断字符串String1或字符串String2的左侧段中未被提取过的字符总长度是否小于step_size,若是,则执行S5019,否则,执行步骤S5017;
S5017,跳过已被截取过的字符,重新从字符串String1、字符串String2中首尾各截取长度为step_size的字符串;并将String1截取的字符串拼接在一起,组成新的字符串String1-2,将String2截取的字符串拼接在一起,组成新的字符串String2-2;
S5018,将新字符串String1-2与新字符串String2-2进行比较,判断二者是否一致,若是,则循环执行步骤S5016,否则,判定待比较的两个数据值不一;
S5019,跳过已被提取过的字符,重新从字符串String1、字符串String2中首尾各截取未被截取过的所有字符;并将String1截取的字符串拼接在一起,组成新的字符串String1-N,将String2截取的字符串拼接在一起,组成新的字符串String2-N;
S50110、将新字符串String1-N与新字符串String2-N进行比较,判断二者是否一致,若是,则判定待比较的两个数据值一致,否则,判定待比较的两个数据值不一致。
本发明在进行数据的重复性鉴别时,先将待比较的两个数据值转换成字符串格式,然后判断两个字符串的长度是否一致,不一致的话说明待比较的两个数据值是不一样的,一致的话再去判断具体的数值是不一致;在对两个字符串具体数据的一致性判断时,分别在两个字符串的相同位置处进行相同的截取操作,截取出相同数量的字符,重新组合成新的字符串后再进行比较,这样迭代比较,直到对比出两个字符串出现不一致或对比完所有的字符为止;通过上述方法,可以解决当待比较的两个数据值长度过长时采用一个一个依次比较的方式所带来的检查时间冗长、计算内存空间占用较大的问题,迎合了不一致之处在字符串中随机存在的特性,能够更快速地查找出两个待比较数据值的不一致之处,较大程度地节省检查时间和空间,保证了较高的检查效率。
本发明采用了每次对比片段的长度值step_size计算公式,根据字符串的长度来合理计算出每次片段长度的值,最大程度地保证检查效率。
本发明还提供了跨医院电子病历数据采集系统,以下结合附图详细说明所述文本数据采集装置的实施例。
如图10所示,跨医院电子病历数据采集系统,包括:中心端医院装置10和采集端医院装置20,所述中心端医院装置10和采集端医院装置20通信连接;
所述中心端医院装置10可包括:
建立单元101,用于建立数据采集模板,并根据数据采集模板生成一例探测数据;
所述采集端医院装置20可包括:
模拟单元201,用于模拟用户访问操作,输入探测数据,并将所述探测数据存储至采集端医院的后台数据库中;
数据对齐单元202,依据数据库结构完成模拟单元201采集的探测数据在后台数据库中的数据对齐,以建立中心端医院和采集端医院之间的数据采集通道;
采集单元203,根据数据采集模板和数据库结构,进行数据的采集;
重复性鉴别单元204,用于对采集端医院采集的每个数据采集项,进行重复性鉴别,当数据采集项重复时,删除重复的数据采集项,否则将采集的数据采集项存储至后台数据库中。
如图11所示,所述建立单元101具体可包括:
定义单元1011,用于定义数据采集模板中包含有至少一个数据采集项,每个所述的数据采集项为三元组数据,所述三元组数据包括:序号、字段名称、所述序号和字段名称对应的数据值;将代表每一个病例数据唯一值的数据采集项设定为主键;
生成单元1012,根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据。
如图12所示,所述重复性鉴别单元204具体可包括:
比较单元2041,用于分别对每个采集的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较;若所述采集并存储的数据采集项的主键对应的数据值与某一已入库的数据采集项中的主键对应的数据值一致,则执行步骤S502,若没有出现一致的数据采集项,则执行步骤S503;
判断单元2042,若所述采集并存储的数据采集项的主键对应的数据值与某一已入库的数据采集项中的主键对应的数据值一致,则认定为重复数据,将采集的数据采集项进行遗弃处理;
若没有出现一致的数据采集项,则认定为非重复数据,将新采集的数据采集项存储至后台数据库中。
本发明还提供了一种存储设备,其中存储有多条指令,所述指令适于由处理器加载并执行如上述的跨医院电子病历数据采集方法。
本发明还提供了一种终端,所述终端可包括:
一个或多个处理器,适于实现各指令;以及
一个或多个存储设备,适于存储多条指令,所述指令适于由所述一个或多个处理器加载并执行如上述的文本数据采集方法。
所述终端可为任意能够实现跨医院电子病历数据采集系统(例如前述的中心端医院装置和采集端医院装置),该装置可以是各种终端设备,例如:台式电脑、手提电脑等,具体可以通过软件和/或硬件来实现。
本发明还提供了一种计算机程序,当其被计算执行时,实现如上文本数据采集的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。可以理解的是,上述方法、装置中的相关特征可以相互参考。所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定的编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.跨医院电子病历数据采集方法,其特征在于:包括:
S10,在中心端医院建立数据采集模板,并根据数据采集模板生成一例探测数据;
S20,在采集端医院模拟用户访问操作,输入探测数据,并将所述探测数据存储至采集端医院的后台数据库中;
S30,在采集端医院的后台数据库中,依据数据库结构完成该探测数据在后台数据库中的数据对齐,以建立中心端医院和采集端医院之间的数据采集通道;
S40,在采集端医院,根据数据采集模板和数据库结构,进行数据的采集;
S50,对采集端医院采集的每个数据采集项,进行重复性鉴别,当数据采集项重复时,删除重复的数据采集项,否则将采集的数据采集项存储至后台数据库中。
2.根据权利要求1所述的跨医院电子病历数据采集方法,其特征在于:所述步骤S10,在中心端医院建立数据采集模板,并根据数据采集模板生成一例探测数据;具体包括:
S101,定义数据采集模板中包含有至少一个数据采集项,每个所述的数据采集项为三元组数据,所述三元组数据包括:序号、字段名称、所述序号和字段名称对应的数据值;将代表每一个病例数据唯一值的数据采集项设定为主键;
S102,根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据。
3.根据权利要求2所述的跨医院电子病历数据采集方法,其特征在于:所述S102,根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据;具体包括:
S1021,在数据库中随机采集一例数据作为原始数据采集模板;
将原始数据采集模板中每一个数据采集项的字段名称记录为一一对应的一组原始字段名称;
采用原始数据采集模板和与原始数据采集模板对应的一组原始字段名称生成映射表;
S1022,对原始数据采集模板中每一个数据采集项进行脱敏处理,并根据脱敏处理结果更新映射表;
S1023,从更新后的映射表中提取出数据值字段,并拼接成XML格式,生成探测数据。
4.根据权利要求3所述的跨医院电子病历数据采集方法,其特征在于:所述步骤S1022,对原始数据采集模板中每一个数据采集项进行脱敏处理,并根据脱敏处理结果更新映射表;具体包括:
S1022-1,将除主键之外的其它数据采集项中的存储数据值转换为字符串;
S1022-2,获取字符串的长度N;
S1022-3,判断字符串的长度N,如为1,则不需要执行脱敏处理,直接输出;当字符串的长度N大于1时,执行步骤S1022-4;
S1022-4,对字符串进行倒序间隔替换字符操作,使字符串顺序打乱;形成新的字符串;
S1022-5,将映射表中的字符串用新的字符串进行替换,对映射表进行更新。
5.根据权利要求1所述的跨医院电子病历数据采集方法,其特征在于:所述步骤S50,对采集端医院采集并存储的每个数据采集项,进行重复性鉴别,当数据重复时,删除重复的数据;具体包括:
S501,分别对每个采集的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较,若所述采集并存储的数据采集项的主键对应的数据值与某一已入库的数据采集项中的主键对应的数据值一致,则执行步骤S502,若没有出现一致的数据采集项,则执行步骤S503;
S502,认定为重复数据,将采集的数据采集项进行遗弃处理;
S503,认定为非重复数据,将新采集的数据采集项存储至后台数据库中。
6.根据权利要求5所述的跨医院电子病历数据采集方法,其特征在于:S501,分别对每个采集并存储的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较;具体包括:
S5011,将待比较的两个数据值分别转换成字符串String1和字符串String2;
S5012,判断字符串String1和字符串String2的长度是否相同,若相同,则执行步骤S5013,若不相同,则判定待比较的两个数据值不一致;
S5013,计算每次对比片段的长度值step_size;
step_size=Floor(log10Length(String))+bias;
其中:Length(String)表示函数返回String的长度;log10Length(String)表示以10为基数的Length(String)的对数;
FloorLog10(Length(String))表示不大于Log10(Length(String))的最大整数;bias表示偏移量,设为1;
S5014,分别将字符串String1、字符串String2从各自的字符串中首尾各截取长度为step_size的字符串:将String1截取的字符串拼接在一起,组成新的字符串String1-1,将String2截取的字符串拼接在一起,组成新的字符串String2-1;
其中:String1截取的字符串为:String1_Left_fragment、String1_Right_fragment;
String2截取的字符串为:String2_Left_fragment、String2_Right_fragment;
S5015,将新字符串String1-1与新字符串String2-1进行比较,判断二者是否一致,若是,则执行步骤S506,否则,判定待比较的两个数据值不一致;
S5016、判断字符串String1或字符串String2的左侧段中未被提取过的字符总长度是否小于step_size,若是,则执行S5019,否则,执行步骤S5017;
S5017,跳过已被截取过的字符,重新从字符串String1、字符串String2中首尾各截取长度为step_size的字符串;并将String1截取的字符串拼接在一起,组成新的字符串String1-2,将String2截取的字符串拼接在一起,组成新的字符串String2-2;
S5018,将新字符串String1-2与新字符串String2-2进行比较,判断二者是否一致,若是,则循环执行步骤S5016,否则,判定待比较的两个数据值不一;
S5019,跳过已被提取过的字符,重新从字符串String1、字符串String2中首尾各截取未被截取过的所有字符;并将String1截取的字符串拼接在一起,组成新的字符串String1-N,将String2截取的字符串拼接在一起,组成新的字符串String2-N;
S5010、将新字符串String1-N与新字符串String2-N进行比较,判断二者是否一致,若是,则判定待比较的两个数据值一致,否则,判定待比较的两个数据值不一致。
7.跨医院电子病历数据采集系统,其特征在于:包括:中心端医院装置(10)和采集端医院装置(20),所述中心端医院装置(10)和采集端医院装置(20)通信连接;
所述中心端医院装置(10)包括:
建立单元(101),用于建立数据采集模板,并根据数据采集模板生成一例探测数据;
所述采集端医院装置(20)包括:
模拟单元(201),用于模拟用户访问操作,输入探测数据,并将所述探测数据存储至采集端医院的后台数据库中;
数据对齐单元(202),依据数据库结构完成模拟单元(201)采集的探测数据在后台数据库中的数据对齐,以建立中心端医院和采集端医院之间的数据采集通道;
采集单元(203),根据数据采集模板和数据库结构,进行数据的采集;
重复性鉴别单元(204),用于对采集端医院采集的每个数据采集项,进行重复性鉴别,当数据采集项重复时,删除重复的数据采集项,否则将采集的数据采集项存储至后台数据库中。
8.根据权利要求7所述的跨医院电子病历数据采集系统,其特征在于:所述建立单元(101)具体包括:
定义单元(1011),用于定义数据采集模板中包含有至少一个数据采集项,每个所述的数据采集项为三元组数据,所述三元组数据包括:序号、字段名称、所述序号和字段名称对应的数据值;将代表每一个病例数据唯一值的数据采集项设定为主键;
生成单元(1012),根据数据采集模板,自动完成每个数据采集项中的数据值的填充,生成一例探测数据。
9.根据权利要求7所述的跨医院电子病历数据采集系统,其特征在于:所述重复性鉴别单元(204)具体包括:
比较单元(2041),用于分别对每个采集的数据采集项的主键对应的数据值分别与已入库的所有的数据采集项中的主键对应的数据值一一进行比较;若所述采集并存储的数据采集项的主键对应的数据值与某一已入库的数据采集项中的主键对应的数据值一致,则执行步骤S502,若没有出现一致的数据采集项,则执行步骤S503;
判断单元(2042),若所述采集并存储的数据采集项的主键对应的数据值与某一已入库的数据采集项中的主键对应的数据值一致,则认定为重复数据,将采集的数据采集项进行遗弃处理;
若没有出现一致的数据采集项,则认定为非重复数据,将新采集的数据采集项存储至后台数据库中。
10.存储设备,其特征在于:其中存储有多条指令,所述指令适于由处理器加载并执行如上述的跨医院电子病历数据采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110910271.0A CN113539404B (zh) | 2021-08-09 | 2021-08-09 | 跨医院电子病历数据采集方法、系统及存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110910271.0A CN113539404B (zh) | 2021-08-09 | 2021-08-09 | 跨医院电子病历数据采集方法、系统及存储设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539404A true CN113539404A (zh) | 2021-10-22 |
CN113539404B CN113539404B (zh) | 2024-07-12 |
Family
ID=78090751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110910271.0A Active CN113539404B (zh) | 2021-08-09 | 2021-08-09 | 跨医院电子病历数据采集方法、系统及存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539404B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110106564A1 (en) * | 2009-10-30 | 2011-05-05 | Don Hachmeister | Electronic medical records interoperability |
CN102509012A (zh) * | 2011-11-04 | 2012-06-20 | 厦门市智业软件工程有限公司 | 将电子病历的内容映射电子病历标准数据库的方法 |
CN109801690A (zh) * | 2017-11-17 | 2019-05-24 | 深圳市前海安测信息技术有限公司 | 区域医疗电子病历共享整合查询系统及方法 |
CN109859808A (zh) * | 2018-07-25 | 2019-06-07 | 武汉心络科技有限公司 | 一种医疗数据采集方法及系统 |
JP2020086617A (ja) * | 2018-11-16 | 2020-06-04 | 大 益満 | データベースおよび情報処理システム |
CN112164433A (zh) * | 2020-10-21 | 2021-01-01 | 汪金玲 | 一种医院后台数据的处理方法及系统 |
CN112560424A (zh) * | 2020-12-23 | 2021-03-26 | 江苏达实久信数字医疗科技有限公司 | 一种适用于医院手术电子病历的表单生成方法、装置及系统 |
CN113094730A (zh) * | 2021-04-16 | 2021-07-09 | 杭州卓健信息科技有限公司 | 一种基于互联网的医疗数据安全管理平台 |
-
2021
- 2021-08-09 CN CN202110910271.0A patent/CN113539404B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110106564A1 (en) * | 2009-10-30 | 2011-05-05 | Don Hachmeister | Electronic medical records interoperability |
CN102509012A (zh) * | 2011-11-04 | 2012-06-20 | 厦门市智业软件工程有限公司 | 将电子病历的内容映射电子病历标准数据库的方法 |
CN109801690A (zh) * | 2017-11-17 | 2019-05-24 | 深圳市前海安测信息技术有限公司 | 区域医疗电子病历共享整合查询系统及方法 |
CN109859808A (zh) * | 2018-07-25 | 2019-06-07 | 武汉心络科技有限公司 | 一种医疗数据采集方法及系统 |
JP2020086617A (ja) * | 2018-11-16 | 2020-06-04 | 大 益満 | データベースおよび情報処理システム |
CN112164433A (zh) * | 2020-10-21 | 2021-01-01 | 汪金玲 | 一种医院后台数据的处理方法及系统 |
CN112560424A (zh) * | 2020-12-23 | 2021-03-26 | 江苏达实久信数字医疗科技有限公司 | 一种适用于医院手术电子病历的表单生成方法、装置及系统 |
CN113094730A (zh) * | 2021-04-16 | 2021-07-09 | 杭州卓健信息科技有限公司 | 一种基于互联网的医疗数据安全管理平台 |
Non-Patent Citations (5)
Title |
---|
HONG-JIE DAI等: "Cancer Registry Coding via Hybrid Neural Symbolic Systems in the Cross-Hospital Setting", IEEE ACCESS, 26 July 2021 (2021-07-26) * |
刘旭红;王春莲;施运梅;: "异构医疗数据集成中的查询解析技术", 计算机应用, no. 2, 31 December 2010 (2010-12-31) * |
刘淑珍;骆岩林;黄永峰;: "基于XML的电子病历存储管理系统的实现", 医疗设备信息, no. 07, 15 July 2007 (2007-07-15) * |
吕旭东;: "一种电子病历系统体系结构及其关键技术", 中国生物医学工程学报, no. 02, 20 April 2008 (2008-04-20) * |
赵孛: "基于知识图谱的智能病历管理应用研究", 中国优秀硕士学位论文全文数据库 医药卫生科技辑, pages 55 - 5 * |
Also Published As
Publication number | Publication date |
---|---|
CN113539404B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108519967B (zh) | 图表可视化方法、装置、终端和存储介质 | |
CN110292775B (zh) | 获取差异数据的方法及装置 | |
CN109376153B (zh) | 一种基于NiFi的数据写入图数据库的系统及方法 | |
WO2023241519A1 (zh) | Bim构件创建方法、数字设计资源库应用方法和装置 | |
CN106294128B (zh) | 一种导出报表数据的自动化测试方法及装置 | |
CN109308258A (zh) | 测试数据的构造方法、装置、计算机设备和存储介质 | |
CN113807062A (zh) | 一种组合密度图在线绘制方法、装置和电子设备 | |
JP5651050B2 (ja) | データ生成装置及びデータ生成プログラム | |
CN115081414A (zh) | 基于数据模型的电子表格生成方法、装置、设备及介质 | |
CN109636303B (zh) | 一种半自动提取和结构化文档信息的存储方法及系统 | |
CN111061478A (zh) | 一种页面表单修改方法、装置、设备及可读存储介质 | |
CN113420080A (zh) | 一种毒理学实验数据管理系统 | |
CN113268485A (zh) | 数据表关联分析方法、装置、设备及存储介质 | |
CN110826306B (zh) | 数据采集的方法、装置、计算机可读存储介质及电子设备 | |
CN109725973B (zh) | 一种数据处理方法和数据处理装置 | |
CN113539404A (zh) | 跨医院电子病历数据采集方法、系统及存储设备 | |
CN114692055A (zh) | 表单处理方法、装置、存储介质与电子设备 | |
CN110334055B (zh) | 一种获取材料计算数据的方法 | |
CN113627816A (zh) | 一种评估管理方法、装置、电子设备及存储介质 | |
EP3591481A1 (en) | Device configuration management apparatus, system, and program | |
JP2018109898A (ja) | データマイグレーションシステム | |
CN112396343A (zh) | 一种数据质量核查方法及装置 | |
CN107533559A (zh) | 数据结构、用于填充数据结构的模型以及使用数据结构对处理装置进行编程的方法 | |
CN104243201A (zh) | 网络设备测试用例对应拓扑图的存储方法及系统 | |
CN110737939A (zh) | 建筑信息模型的拼接方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |