CN111063448A

CN111063448A - 输血不良反应数据库建立方法、存储系统以及主动预警系统

Info

Publication number: CN111063448A
Application number: CN202010027477.4A
Authority: CN
Inventors: 汪德清; 于洋; 江颖; 封彦楠; 程世军
Original assignee: Beijing Healsci Chuanglian Health Technology Co ltd; Chinese PLA General Hospital
Current assignee: Beijing Healsci Chuanglian Health Technology Co ltd; Chinese PLA General Hospital
Priority date: 2019-09-06
Filing date: 2020-01-10
Publication date: 2020-04-24

Abstract

本发明公开了一种建立输血不良反应数据库的方法，该方法包括：通过第一接口获取主索引信息；通过多个不同的第二接口与不同系统建立连接，并根据所述主索引信息从不同系统获取对应的诊疗数据，所述诊疗数据包括结构化数据、非结构化数据；根据所述主索引信息将所获取的诊疗数据进行关联，将所述结构化数据存储在数据库集群和搜索引擎集群中，非结构化的数据存储在分布式对象存储服务器中。通过本发明，有望改善输血不良反应漏报、误报的几率，对可疑的不良反应及时介入处理，可降低输血风险、减少患者平均住院日、节约医疗成本，增加经济效益和社会效益。

Description

输血不良反应数据库建立方法、存储系统以及主动预警系统

技术领域

本发明涉及医疗技术领域，尤其涉及一种输血不良反应数据库建立方法、存储系统以及主动预警系统。

背景技术

输血已成为临床抢救、治疗中不可替代的治疗手段之一，但同时也存在巨大的风险。输血不良反应是输注血液成分后发生的最常见的不良事件，不仅可以导致患者严重不适、影响输注疗效甚至威胁患者生命，而且给社会卫生保健系统带来额外的成本负担。密切监测输血过程是临床用血质量管理中关乎输血安全的核心要素。尽管输血相关不良反应发生率相对较低，大约10万次输血中有77.5次发生输血不良反应，但其中25％为严重事件，若不能及时识别、对症处理，可能威胁患者生命。

现行医疗环境下，各种血液预警系统通过临床上报获取数据。不同临床医师对于输血不良反应的认识和重视程度存在差异；不同临床医师之间不良反应的上报意识不同，上报形式为自愿形式，严重程度为中度至重度，医护人员为避免医患矛盾，对于做简单处理即可解决的输血不良反应有可能选择不上报。

现有技术中采用的技术方案有如下几种：

a我国于2012年8月1日颁布实施国家卫生与计划生育委员会(原卫生部)85号部长85令《医疗机构临床用血管理办法》第二十五条明确规定：医疗机构应当根据国家有关法律法规和规范建立临床用血不良事件监测报告制度。

b2017年发布《输血不良反应诊断与分级标准》。

虽然国家对临床用血有规定，但是尚无国家血液监测系统，系统的输血不良反应基线流行病学资料缺乏。为了对输血不良反应进行监测，目前主要是让临床医生主动上报的形式。对于自愿上报的形式，一些轻微的反应可能不上报或临床医护人员对专业知识的掌握不充分，误诊漏诊的情况不可避免。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案。本发明的一个方面，提供了一种建立输血不良反应数据库的方法，其特征在于，该方法包括：

通过第一接口获取主索引信息；

通过多个不同的第二接口与不同信息系统建立连接，并根据所述主索引信息从不同系统获取对应的诊疗数据，所述诊疗数据包括结构化数据、非结构化数据；根据所述主索引信息将所获取的诊疗数据进行关联，将所述结构化数据存储在数据库集群和搜索引擎集群中，非结构化的数据存储在分布式对象存储服务器中。

可选的，该方法还包括：

利用自然语言处理手段对所述非结构化数据进行信息提取，以获取症状、体征相关信息；

对所述症状、体征相关信息进行结构化表示，并将结构化的信息存储在数据库中。

可选的，该方法还包括：对所述结构化信息、结构化数据中的变量进行编码转换。

本发明提供一种基于前面所述方法建立的不良反应数据库进行输血不良反应主动预警的方法，该方法包括：

将所有症状、体征相关信息分为四类特征：描述性症状、结构化阳性指标、影像/图像报告结论、医嘱用药信息；

根据参考知识对不同类的信息及其权重进行优化；

基于优化后的不同类的信息及其权重利用XGBoost算法进模型训练；

实时采集患者的所有输血和诊疗数据；

根据训练的模型对输血不良反应进行预测，生成预测结果。

可选的，该方法还包括：

接收人工对预测结果的反馈数据；

自动利用所述反馈数据训练模型。

本发明提供一种输血不良反应数据存储系统，该系统包括：

第一接口，用于获取主索引信息；

多个第二接口，用于与不同信息系统建立连接，并根据所述主索引信息从不同系统获取对应的诊疗数据，所述诊疗数据包括结构化数据、非结构化数据；关联模块，用于根据所述主索引信息将所获取的诊疗数据进行关联；

存储模块，用于将所述结构化数据存储在数据库集群和搜索引擎集群中，非结构化的数据存储在分布式对象存储服务器中。

可选的，该系统还包括：

自然语言处理模块，用于利用自然语言处理手段对所述非结构化数据进行信息提取，以获取症状、体征相关信息；

结构化表示单元，用于对所述症状、体征相关信息进行结构化表示，并将结构化的信息存储在数据库中。

可选的，该系统还包括编码转换单元，用于对所述结构化信息、结构化数据中的变量进行编码转换。

本发明提供一种基于前面所述输血不良反应数据存储系统的输血不良反应主动预警系统，包括：

特征工程单元，用于将所有症状、体征相关信息分为四类特征：描述性症状、结构化阳性指标、影像/图像报告结论、医嘱用药信息；

优化单元，用于根据参考知识对不同类的信息及其权重进行优化；

模型建立单元，用于基于优化后的不同类的信息及其权重利用XGBoost算法进模型训练；

通信单元，用于实时采集患者的所有输血和诊疗数据；

预测模块，用于根据训练的模型对输血不良反应进行预测，生成预测结果。

可选的，该系统还包括：

接收单元，用于接收人工对预测结果的反馈数据；

模型修正单元，用于自动利用所述反馈数据训练模型。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：通过本发明有望改善输血不良反应漏报、误报的几率，对可疑的不良反应及时介入处理，可降低输血风险、减少患者平均住院日、节约医疗成本，增加经济效益和社会效益。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清晰明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明提出的建立输血不良反应数据库的方法的流程图；

图2示出了在建立输血不良反应数据库时对各不同来源数据的处理过程；

图3示出了构建输血不良反应主动预警及监控系统的过程；

图4示出了一种优选方式的构建以及优化输血不良反应主动预警及监控系统的过程。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的一个方面，如图1所示，提供了一种建立输血不良反应数据库的方法，其特征在于，该方法包括：

S1.通过第一接口获取主索引信息；

S2.通过多个不同的第二接口与不同信息系统建立连接，并根据所述主索引信息从不同系统获取对应的诊疗数据，所述诊疗数据包括结构化数据、非结构化数据；

S3.根据所述主索引信息将所获取的诊疗数据进行关联，将所述结构化数据存储在数据库集群和搜索引擎集群中，非结构化的数据存储在分布式对象存储服务器中。

通过查阅输血不良反应相关的国内外文献，确定纳入输血不良反应症状体征库的内容，所有输血患者临床电子病历中非结构化数据(如电子病历、护理记录、病程记录、影像学检查等)和流数据(检验记录，如血常规、血气、生化指标、尿常规、凝血功能检测的动态数据)都属于可纳入输血不良反应症状体征库的内容。其他诊疗数据也属于可纳入输血不良反应症状体征库的内容，主要包括患者的基本信息，入院/出院记录、手术记录、输血记录、生命体征数据、用药记录等。首先通过医院提供的接口获取患者主索引信息(如患者ID，住院号，住院次数等)，然后通过不同的接口方式(主要接口方式为：数据库JDBC接口，WebService接口，数据推送接口等)连接医院内HIS/EMR系统、LIS系统、RIS/PACS系统、配发血系统、电子病历等IT系统，同时连接医院数据中心和集成平台，将从不同系统和平台中获取的患者诊疗数据进行关联和整合，统一保存在输血不良反应症状体征库中。其中，结构化的数据存储在Mysql数据库集群和Elastic Search搜索引擎集群中，非结构化的数据存储在分布式对象存储服务器中。通过步骤S2，本发明综合所有可能与输血不良反应有关的受血者、供血者因素构建输血不良反应症状体征库。

如图2所示，示出了建立输血不良反应大数据库的技术路线图。前面已经说明，从广泛的数据来源中，确定数据范围。对于可获取的数据中，对于结构化文本、非结构化文本进行不同的处理，对于非结构化文本进行预处理，然后利用自然语言处理技术手段进行处理获取特征，并对对特征进行组合或者进行有效处理生成具有输血不良反应表征功能的新特征，对各特征进行聚合；对于结构化文本进行异常结构化数据识别并进行清洗，根据清洗后的结构化数据、聚合后的特征构建输血不良反应大数据库。

电子病历、影像报告等非结构化文本中包含大量有用信息，比如患者的症状、体征、用药信息等，可用于判断输血不良反应的发生，然而计算机无法直接识别和处理这些大段的自由文本。在本发明中，利用自然语言处理手段对所述非结构化数据进行信息提取，以获取症状、体征相关信息；对所述症状、体征相关信息进行结构化表示，并将结构化的信息存储在数据库中。

对所述非结构化数据进行信息提取的过程如下：

(1)对电子病历文本进行NLP预处理，包括自动分词处理，去除停用词。

分词过程中使用自定义的医学词典，包含疾病名称、药品名称、症状和体征等。

(2)使用LDA等主题提取技术对分词后的文本进行主题提取，定位包含“临床症状”主题的段落。

(3)使用CRF(条件随机场)和LSTM神经网络技术进行命名实体识别(Named EntityRecognition)，提取文本中出现的患者症状和体征，以及它们之间的关联关系。同时利用正则表达式方法，提取体征对应的具体值。

为了将所提取的与输血不良反应相关的症状、体征相关信息能够被计算机理解、识别，对所提取的变量进行编码转换。比如对分类变量进行数值化，将分类变量进行one-hot编码，提供给计算机进行理解并用于人工智能建模。比如性别有三个可能的取值：男/女/未知，那么男就可以转换为[1,0,0]，女转变为[0,1,0]，未知转变为[0,0,1]。这样就可以把分类变量转化为数值变量了。

前面已经说明，患者诊疗数据分散在院内不同的IT系统中，通过大数据技术将这些异构系统中不同格式、不同内容的数据汇总到统一的大数据平台中，提取有用信息，然后进行统一清洗、聚合、存储和建模。在清洗完的输血不良反应相关大数据基础上，引入结合机器学习和深度学习的人工智能技术，探索一种基于人工智能技术的输血不良反应监控及预警模型。

本发明提供一种基于前面所述方法建立的不良反应数据库进行输血不良反应主动预警的方法，如图3所示，该方法包括：

S21.将所有症状、体征相关信息分为四类特征：描述性症状、结构化阳性指标、影像/图像报告结论、医嘱用药信息；

S22.根据参考知识对不同类的信息及其权重进行优化；

S23.基于优化后的不同类的信息及其权重利用XGBoost算法进模型训练；

S24.实时采集患者的所有输血和诊疗数据；

S25.根据训练的模型对输血不良反应进行预测，生成预测结果，及时传递给输血科医师和经治医师。

特征工程是建模过程中最重要的步骤之一，由于输血不良反应类型多达十几种，首先将所有特征分为四大类型：描述性(非结构化)症状、结构化阳性指标、影像/图像报告结论、医嘱用药信息。与传统的特征工程实现方式不同，对每一类输血不良反应，首先通过NLP技术从不良反应文献、数据中学习和提取上述四大类型的特征，同时利用德尔菲法把输血专家的重要经验和专业知识加入到系统中，对特征及其权重进行优化。

以“急性肺损伤”不良反应类型为例，其对应的特征包括：

描述性(非结构化)症状：肺水肿、肺损伤、肺浸润、急性肺水肿、肺泡、肺挫伤、肺炎、肺栓塞、重症肺炎、粉红色泡沫痰、心衰、左心房、奔马律、肺动脉压、心率增快(加快)、急性心衰、湿(性)啰音、低氧血症、呼吸增快(加快)、呼吸急促、呼吸困难、呼吸窘迫、机械通气，等等。结构化阳性指标：脉氧饱和度、血氧饱和度、二氧化碳分压、氧分压、氧合指数、血清白细胞介素8(IL-8)，等等。影像/图像报告结论：X线显示双侧肺浸润；医嘱用药：地塞米松磷酸钠注射液、盐酸肾上腺素注射液、盐酸多巴胺注射液、氨茶碱片、二羟丙茶碱片，等等。

特征工程完成后，采用XGBoost算法进模型训练。模型训练完成后，可用于实时监控医疗机构内发生的输血不良反应案例(疑似)，及时主动预警，通知输血科医生和临床医生进行有效干预和治疗，提高患者预后。如图4所示，医生对模型预测的结果进行确认和排除，生成新的标注数据，这部分数据重新用于模型训练，自动和持续优化监控模型。具体步骤如下：

实时采集患者所有输血和诊疗数据；

传入模型进行预测，返回预测结果，包括疑似不良反应类型和疑似程度(确定、很可能、可能、疑似、不确定、排除)；

输血科医生和临床医生可以通过系统页面进行预测结果查看，同时提供反馈数据，确认或排除疑似不良反应病例；

增加增量和临床反馈数据到模型的训练数据中；

自动使用增量和反馈数据定期训练模型，持续优化。

通过上述持续优化过程，输血不良反应模型预测准确率在增量训练过程中持续提升。

为了验证模型预测的准确性。将标记的不良反应病例数据划分为训练集和测试集，比如70％作为训练集，30％作为测试集，用于测试模型的准确率。预先设定的比例值可以是7：3或者8:2或者12:4，还可以是其他比例值，这里不作限定。分析预测结果，对预测不准确的病历查找原因，不断积累数据对模型进行校准，实现对输血不良反应的智能监控及主动预警。

本发明通过利用人工对预测结果的反馈数据以及将标记的不良反应病例数据作为测试集和训练集对模型不断校准，能够建立具有高度预测性的输血不良反应监控及主动预警模型。

本发明提供一种输血不良反应数据存储系统，该系统包括：

第一接口，用于获取主索引信息；

该系统还包括：

该系统还包括编码转换单元，用于对所述结构化信息、结构化数据中的变量进行编码转换。

通信单元，用于实时采集患者的所有输血和诊疗数据；

作为一种优选的实施方式，该系统还包括：

接收单元，用于接收人工对预测结果的反馈数据；

模型修正单元，用于自动利用所述反馈数据训练模型。

建立一个监控及主动预警系统，通过构建输血不良反应大数据库，对数据进行脱敏、清洗、转换，建立一种结合机器学习和人工智能算法的新模型，实现自动实时数据验证和模型优化；最终研发出一套输血不良反应智能监控及主动预警模系统。通过大数据建立的模型，每次输血过程中及输血后自动分析输血不良反应的可能性结论(确定、很可能、可能、疑似、不确定、排除)。既可弥补临床医生输血方面专业知识的不足，又可收集和评估因输血引起的不良事件的信息，避免不报、漏报或误报的发生。系统涵盖输血不良反应的综合、全面的数据，贯穿整个输血链的监督管理，最终目的是防止输血不良反应的发生或再次发生。

上述方法、系统通过计算机软件程序实现，能够运行于具有处理装置的终端和服务器，为医生、医院提供用于诊断的辅助参考信息。

患者每一次输血结束后，上述系统通过分析自动输出发生输血不良反应的可能性结论(确定、很可能、可能、疑似、不确定、排除)。结合积累的临床数据对系统不断校准验证准确性。该系统软件可连接于手机、电脑或云端，准确、快捷地辅助临床医师及输血科医师做出输血不良反应的诊断性结论。建立一种全新的输血不良反应智能监控及主动预警体系。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：通过本发明有望改善输血不良反应不报、漏报、误报的几率，对可疑的不良反应及时介入处理，可降低输血风险、减少患者平均住院日、节约医疗成本，增加经济效益和社会效益。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

Claims

1.一种建立输血不良反应数据库的方法，其特征在于，该方法包括：通过第一接口获取主索引信息；

通过多个不同的第二接口与不同信息系统建立连接，并根据所述主索引信息从不同系统获取对应的诊疗数据，所述诊疗数据包括结构化数据、非结构化数据；

根据所述主索引信息将所获取的诊疗数据进行关联，将所述结构化数据存储在数据库集群和搜索引擎集群中，非结构化的数据存储在分布式对象存储服务器中。

2.根据权利要求1所述的方法，该方法还包括：

3.根据权利要求1或2所述的方法，该方法还包括：对所述结构化信息、结构化数据中的变量进行编码转换。

4.一种基于权利要求1-3任一项所述方法建立的不良反应数据库进行输血不良反应主动预警的方法，该方法包括：

根据参考知识对不同类的信息及其权重进行优化；

实时采集患者的所有输血和诊疗数据；

根据训练的模型对输血不良反应进行预测，生成预测结果。

5.根据权利要求4所述的方法，该方法还包括：

接收人工对预测结果的反馈数据；

自动利用所述反馈数据训练模型。

6.一种输血不良反应数据存储系统，其特征在于，该系统包括：

第一接口，用于获取主索引信息；

多个第二接口，用于与不同信息系统建立连接，并根据所述主索引信息从不同系统获取对应的诊疗数据，所述诊疗数据包括结构化数据、非结构化数据；

关联模块，用于根据所述主索引信息将所获取的诊疗数据进行关联；

7.根据权利要求6所述的输血不良反应数据存储系统，该系统还包括：

8.根据权利要求6或7所述的系统，该系统还包括编码转换单元，用于对所述结构化信息、结构化数据中的变量进行编码转换。

9.一种基于权利要求6-8任一项所述输血不良反应数据存储系统的输血不良反应主动预警系统，包括：

通信单元，用于实时采集患者的所有输血和诊疗数据；

10.根据权利要求9所述的输血不良反应主动预警系统，该系统还包括：

接受单元，用于接收人工对预测结果的反馈数据；

模型修正单元，用于自动利用所述反馈数据训练模型。