CN109063507A - 一种用于医院信息系统分析的通用设计模型 - Google Patents
一种用于医院信息系统分析的通用设计模型 Download PDFInfo
- Publication number
- CN109063507A CN109063507A CN201810769526.4A CN201810769526A CN109063507A CN 109063507 A CN109063507 A CN 109063507A CN 201810769526 A CN201810769526 A CN 201810769526A CN 109063507 A CN109063507 A CN 109063507A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- model
- hospital
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013461 design Methods 0.000 title claims abstract description 33
- 238000004458 analytical method Methods 0.000 title claims abstract description 11
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 238000000586 desensitisation Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000010224 classification analysis Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 8
- 238000003745 diagnosis Methods 0.000 claims description 7
- 239000003814 drug Substances 0.000 claims description 7
- 238000013499 data model Methods 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 5
- 238000009533 lab test Methods 0.000 claims description 2
- 238000003908 quality control method Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 6
- 230000004048 modification Effects 0.000 abstract description 4
- 238000001356 surgical procedure Methods 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 241000027036 Hippa Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种用于医院信息系统分析的通用设计模型,其特征在于,包括以下步骤:S1,通过对不同医院的信息系统进行深入分析,结合常规的数据分析需求,提取其中通用的、核心的信息,建立基础的通用设计模型。S2,对医院和制药企业的需求进行分类分析,提炼出需求的通用场景。用通用场景来确定和完善通用需求,进一步完善基础的通用设计模型。S3,对分析出的通用需求,结合不同医院的信息系统。本发明经过脱敏后的数据,保护了患者和医疗机构的隐私数据,使用标准化的数据能提高用户数据的处理速度。对不同医院的数据进行同样的分析时,只需要使用不同的数据集,而不用修改程序代码,大幅提高数据分析的效率。
Description
技术领域
本发明涉及计算机应用技术技术领域,尤其涉及一种用于医院信 息系统分析的通用设计模型。
背景技术
通用设计模型参考HIPPA对PHI的定义,比如就诊日期,出生 日期等。但为了最大化满足数据分析的需要,某些日期还是被按照原 始数据值进行了保存。数据分析会使用到这些日期信息,但是查询 或者分析的结果应包括最可能少的这类信息,分析或者查询的结果, 应该是被汇总的信息并且不包括PHI。
通用设计模型中不包括患者的真实信息,患者信息必须是脱敏的(anonymizing)。脱敏的规将单独定义。通用设计模型中为每一个 患者信息设置一个虚假的ID(pseudo-identifier),通用设计模型 中的患者信息及其他信息,均通过这个虚假的ID进行关联。
为了支持能够回溯到原始数据提供者(Data Provider)中患者的详 细信息,维护一个虚假ID和真实ID的对照关系表,这个真实ID 也不是患者的真实信息(如身份证号),而是数据提供方数据集(Data Mart)中定义的唯一的患者标识(Patient_ID或者Patient_No)。这 个对照关系,不参与任何的数据查询,仅在授权的情况下,允许获取 患者在数据提供方的真实ID,并仅能通过数据提供方的对应系统, 才能通过其ID获取真实信息。
医院信息系统具有高度的复杂性和动态性。复杂性表现在医学概 念繁杂,包含人体的各个系统,以及各个系统之间复杂的概念网。现 代医学愈发发达,医学信息系统包含了大量关于疾病、诊断、手术、 药品等信息,构成了一个复杂的信息集合,精细的专科分工以及多样 的诊疗手段,在患者就诊的过程中产生了大量的数据需要记录和存储。 动态性体现在现代医学发展迅猛,医学信息更新迅速,新的医疗理论 和诊断、治疗手段层出不穷,信息化程度不断加深,医院信息获取能 力持续增强,记录信息的细节特征也随之不断加强。医院系统的高度 复杂性和动态性,导致医院中的数据可能存在数据孤岛,各种系统之间的关系也比较复杂,不利于直接对医院中的数据进行直接的分析。 同时,不同的医院之间的数据结构也存在着很大的差异,对不同医院 的系统进行分析时,异构的数据对于数据的分析带来了很大的障碍。
一家医院的信息系统通常由非常多的子系统组成,子系统由不同 的软件开发商或设备提供商提供,子系统版本也可能经过多次版本更 新,不同的子系统之间存在着复杂的关系,兼容性上也会带来一些隐 患。在使用系统一段时间以后,会不同程度的存在一些数据信息的冗 余、丢失、甚至冲突,这些问题都不利于直接对医院的数据进行分析。
不同医院由于规模和定位的不同,科室规划、业务流程、信息化 程度各不相同。
医院信息系统在进行数据分析时,需要对医院中各信息系统数据 收集和处理,而医院的信息系统种类较多、数据量也较大,各医院以 及医院不同时期的信息系统存在着或多或少的差异。
对医院数据分析时,常规解决方案是根据具体的项目建立一个设 计模型,并耗费大量时间的从各个系统中选取该项目所需求的数据, 然后根据模型进行数据分析。
上述常规解决方案会带来以下几个问题:首先,根据具体项目创 建的设计模型主要针对的是当前的项目,不利于之后的项目进行重用, 耗费大量时间在重复的数据处理上;其次,当对多家医院进行数据分 析时,由于多家医院数据差异性比较大,使用的数据库类型也有差异, 设计模型很难在其它医院使用,通用性比较差。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种 用于医院信息系统分析的通用设计模型,以及数据从医院系统到通用 设计模型中的数据脱敏、数据标准化。
为了实现上述目的,本发明采用了如下技术方案:
一种用于医院信息系统分析的通用设计模型,其特征在于,包括 以下步骤:
S1,通过对不同医院的信息系统进行深入分析,结合常规的数据 分析需求,提取其中通用的、核心的信息,建立基础的通用设计模型。
S2,对医院和制药企业的需求进行分类分析,提炼出需求的通用 场景。用通用场景来确定和完善通用需求,进一步完善基础的通用设 计模型。
S3,对分析出的通用需求,结合不同医院的信息系统,对常用的 住院类型,性别,民族,药物剂量,就诊科室等字段进行标准化,并 将标准化信息存入数据库。
S4,提取出核心的数据模型,生成核心的数据表,包括患者信息 表、就诊记录表、诊断信息表、体格信息表、手术检查信息表、药物 处方表、化验申请表、化验结果表、ICU信息表。
S5,在增加新的数据需求时,根据数据的使用频率和重要程度, 决定是否放入设计模型的数据模型中。不同源数据有明显差异时,可 以增加一些专属的数据项。
S6,设计模型不严格遵循传统RDMS的范式设计,存储了部分重 要的冗余数据,数据的扁平化更利于快速的查询。
S7,设计模型中的数据进行标准化处理,按照标准编码体系对数 据进行编码,同时对重要的源数据保留原始值。经过标准编码后,使 用者可以透明的使用数据,不用关心源数据中的巨大差异。非敏感的 原始数据会保留,保证数据的原始性和进行质量控制,在分析遇到异 常数据时,可以参考源数据中的数据。
S8,设计模型中避免抓取敏感信息,患者姓名等非必需数据不予 抓取,患者出生日期等字段进行脱敏处理,避免敏感信息泄露,一些 含有地名的字段直接去除地名部分。
S9,对源数据进行ETL,把异构数据结构转换为标准的数据结构, 并存入设计模型的数据模型中。数据的ETL过程会被完整保存下来, 用于后续源数据增量导入、相同系统ETL的复用,同时便于后期检查 ETL处理逻辑。
与现有技术相比,本发明的有益效果是:
1.经过脱敏后的数据,保护了患者和医疗机构的隐私数据。用户 不能根据数据得到医疗机构和患者的敏感信息。
2.在正常情况下,使用标准化的数据能提高用户数据的处理速度。 对不同医院的数据进行同样的分析时,只需要使用不同的数据集,而 不用修改程序代码,大幅提高数据分析的效率。
具体实施方式
实施例1:下表为患者信息表的主要字段,用于记录患者的基本 信息。
实施例1:下表为患者信息表的主要字段,用于记录患者的基本 信息。
实施例2:医院数据包含了大量的真实数据,其中含有大量医院 和患者的真实信息。为了保护医院和患者的隐私数据,需要把隐私数 据进行脱敏处理。敏感数据脱敏主要采用了以下几种方式:
1)删除敏感数据,使用其它数据代替。患者的姓名是敏感信息, 可以直接使用生成的随机32位UUID来代替,在数据平台上,根据 UUID是无法得到患者的姓名等信息。
2)对敏感数据进行模糊化处理。患者的生日信息是敏感数据,但 是分析患者信息时,年龄也是一个重要的信息。因此,对原始数据中 的患者生日字段进行模糊化处理,只保留出生年和月,既能去除掉敏 感信息,又能保留有用的信息。例如,生日为1970-07-15的患者, 经过脱敏后,患者生日脱敏后为1970-07-01。
3)对敏感数据进行部分修改。部分医院系统中部门字段含有包含 地名的敏感信息,如“外科(AA分院)”,AA是一个地名,通过AA可 能能反推出该医院的地址,甚至是该医院的名字。需要直接对该字段 含有的敏感信息进行修改,把“外科(AA分院)”修改为“外科”。修改后的信息既去掉了敏感信息,又不影响对数据的使用。
实施例3:由于各医院系统的差异,一些字段没有做过标准化处 理;或者数据做了标准化处理,但是不同医院使用的是不同的标准。 若对数据不进行标准化处理,模型中的数据会杂乱无章,不利于对系 统进行分析。数据标准化后,用户可以透明的使用标准化的数据。
下面以患者类型PTY(Patient Type)为例,如下表格:
类别 | 代码 | 存储字段 | 描述 |
PTY | 1 | PTY1 | 住院患者 |
PTY | 2 | PTY2 | 门诊患者 |
PTY | 3 | PTY3 | 急诊患者 |
PTY | 4 | PTY4 | 体检人员 |
PTY | 5 | PTY5 | 急诊留观 |
PTY | NI | PTYNI | 无信息 |
PTY | OT | PTYOT | 其它 |
PTY | UN | PTYUN | 不明 |
根据对医院数据的了解,常用患者类型主要有五类,不同医院对 这几类患者类型描述可能存在一定差异,在导入数据到通用设计模型 的时候,需要进行相应的映射。针对于患者类型字段为的记录,在模 型中转换为PTYNI;针对于患者类型字段不在五类内的记录,需要根 据具体情况,在模型中转换为PTYOT,或在字典里添加一条新的记录; 针对于患者类型字段填“未知”,“不明”等内容的,在模型中转换为 PTYUN。
进行标准化处理的字段,一般要保留原始的字段内容,方便用户 在特殊情况下,需要查看原始的字段内容。在正常情况下,使用标准 化的数据能提高用户数据的处理速度。对不同医院的数据进行同样的 分析时,只需要使用不同的数据集,而不用修改程序代码,大幅提高 数据分析的效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范 围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技 术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变, 都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种用于医院信息系统分析的通用设计模型,其特征在于,包括以下步骤:
S1,通过对不同医院的信息系统进行深入分析,结合常规的数据分析需求,提取其中通用的、核心的信息,建立基础的通用设计模型。
S2,对医院和制药企业的需求进行分类分析,提炼出需求的通用场景。用通用场景来确定和完善通用需求,进一步完善基础的通用设计模型。
S3,对分析出的通用需求,结合不同医院的信息系统,对常用的住院类型,性别,民族,药物剂量,就诊科室等字段进行标准化,并将标准化信息存入数据库。
S4,提取出核心的数据模型,生成核心的数据表,包括患者信息表、就诊记录表、诊断信息表、体格信息表、手术检查信息表、药物处方表、化验申请表、化验结果表、ICU信息表。
S5,在增加新的数据需求时,根据数据的使用频率和重要程度,决定是否放入设计模型的数据模型中。不同源数据有明显差异时,可以增加一些专属的数据项。
S6,设计模型不严格遵循传统RDMS的范式设计,存储了部分重要的冗余数据,数据的扁平化更利于快速的查询。
S7,设计模型中的数据进行标准化处理,按照标准编码体系对数据进行编码,同时对重要的源数据保留原始值。经过标准编码后,使用者可以透明的使用数据,不用关心源数据中的巨大差异。非敏感的原始数据会保留,保证数据的原始性和进行质量控制,在分析遇到异常数据时,可以参考源数据中的数据。
S8,设计模型中避免抓取敏感信息,患者姓名等非必需数据不予抓取,患者出生日期等字段进行脱敏处理,避免敏感信息泄露,一些含有地名的字段直接去除地名部分。
S9,对源数据进行ETL,把异构数据结构转换为标准的数据结构,并存入设计模型的数据模型中。数据的ETL过程会被完整保存下来,用于后续源数据增量导入、相同系统ETL的复用,同时便于后期检查ETL处理逻辑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810769526.4A CN109063507A (zh) | 2018-07-13 | 2018-07-13 | 一种用于医院信息系统分析的通用设计模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810769526.4A CN109063507A (zh) | 2018-07-13 | 2018-07-13 | 一种用于医院信息系统分析的通用设计模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109063507A true CN109063507A (zh) | 2018-12-21 |
Family
ID=64816504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810769526.4A Pending CN109063507A (zh) | 2018-07-13 | 2018-07-13 | 一种用于医院信息系统分析的通用设计模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063507A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109935285A (zh) * | 2019-01-30 | 2019-06-25 | 杭州脉兴医疗科技有限公司 | 一种icu护理单数据的结构化处理方法及处理系统 |
CN111522842A (zh) * | 2020-07-04 | 2020-08-11 | 杭州城市大数据运营有限公司 | 一种etl数据处理方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101766001A (zh) * | 2007-06-05 | 2010-06-30 | 阿斯特里姆有限公司 | 远程测试系统和方法 |
US20130339060A1 (en) * | 2011-02-17 | 2013-12-19 | University Hospitals Of Cleveland | Method and system for extraction and analysis of inpatient and outpatient encounters from one or more healthcare related information systems |
CN106126547A (zh) * | 2016-06-08 | 2016-11-16 | 樊永正 | 结构化大数据通信协议 |
CN107358121A (zh) * | 2017-07-12 | 2017-11-17 | 张�诚 | 一种脱敏数据集的数据融合方法及装置 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合系统、方法、电子设备及存储介质 |
CN108009443A (zh) * | 2017-11-30 | 2018-05-08 | 广州天鹏计算机科技有限公司 | 数据的访问方法和系统 |
-
2018
- 2018-07-13 CN CN201810769526.4A patent/CN109063507A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101766001A (zh) * | 2007-06-05 | 2010-06-30 | 阿斯特里姆有限公司 | 远程测试系统和方法 |
US20130339060A1 (en) * | 2011-02-17 | 2013-12-19 | University Hospitals Of Cleveland | Method and system for extraction and analysis of inpatient and outpatient encounters from one or more healthcare related information systems |
CN106126547A (zh) * | 2016-06-08 | 2016-11-16 | 樊永正 | 结构化大数据通信协议 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN107358121A (zh) * | 2017-07-12 | 2017-11-17 | 张�诚 | 一种脱敏数据集的数据融合方法及装置 |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合系统、方法、电子设备及存储介质 |
CN108009443A (zh) * | 2017-11-30 | 2018-05-08 | 广州天鹏计算机科技有限公司 | 数据的访问方法和系统 |
Non-Patent Citations (2)
Title |
---|
王玲: ""数据挖掘学习方法"", 冶金工业出版社, pages: 21 - 22 * |
陈力心;: "基于商业智能的医院分析型系统设计", no. 08 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109935285A (zh) * | 2019-01-30 | 2019-06-25 | 杭州脉兴医疗科技有限公司 | 一种icu护理单数据的结构化处理方法及处理系统 |
CN111522842A (zh) * | 2020-07-04 | 2020-08-11 | 杭州城市大数据运营有限公司 | 一种etl数据处理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Diamond et al. | The truth is out there: Accuracy in recall of verifiable real-world events | |
Maier et al. | Towards implementation of OMOP in a German university hospital consortium | |
CN109346145B (zh) | 一种药物不良反应的主动监测方法和系统 | |
Nutt et al. | Incomplete laboratory request forms: the extent and impact on critical results at a tertiary hospital in South Africa | |
Smith et al. | Incidence and significance of errors in a patient ‘track and trigger’system during an epidemic of Legionnaires' disease: retrospective casenote analysis | |
Liaw et al. | Data extraction from electronic health records-existing tools may be unreliable and potentially unsafe | |
González‐Aguña et al. | Nursing diagnoses for coronavirus disease, COVID‐19: Identification by taxonomic triangulation | |
Wijnands et al. | Prodrome in relapsing‐remitting and primary progressive multiple sclerosis | |
CN114580007A (zh) | 医疗数据脱敏方法和装置 | |
EP3596620A1 (en) | Interoperable record matching process | |
Khan et al. | Health data integration with Secured Record Linkage: A practical solution for Bangladesh and other developing countries | |
Ogasawara et al. | The impact of social workers on infant mortality in inter-war Tokyo: Bayesian dynamic panel quantile regression with endogenous variables | |
Thompson et al. | Coded chief complaints—automated analysis of free‐text complaints | |
CN110752027B (zh) | 电子病历数据推送方法、装置、计算机设备和存储介质 | |
US20220310219A1 (en) | Medical record digest | |
CN109063507A (zh) | 一种用于医院信息系统分析的通用设计模型 | |
Brixval et al. | Validity of a hospital-based obstetric register using medical records as reference | |
Ivory | Mapping perinatal nursing process measurement concepts to standard terminologies | |
Burrows et al. | Standardizing clinical diagnoses: evaluating alternate terminology selection | |
CN107680636B (zh) | 一种基于元数据的临床信息处理系统及方法 | |
Berchialla et al. | Adverse events in hospitalized paediatric patients: a systematic review and a meta‐regression analysis | |
Kaloyanova et al. | Addressing data quality in healthcare | |
Abrahamsson et al. | Danderyd hospital computer system: II. Total regional system for medical care | |
CN113921103A (zh) | 鉴别诊断病种敏感性测量方法、装置、电子设备及介质 | |
Porter et al. | Physical deterioration in an acute mental health unit: a quantitative retrospective analysis of medical emergencies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181221 |