CN113539414A

CN113539414A - 一种抗生素用药合理性预测方法及系统

Info

Publication number: CN113539414A
Application number: CN202110888646.8A
Authority: CN
Inventors: 邱文; 高妍; 王昕昱; 王晓芳; 孙一君
Original assignee: Zhongdian Yaoming Data Technology Chengdu Co ltd
Current assignee: Zhongdian Yaoming Data Technology Chengdu Co ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-22

Abstract

本发明涉及一种抗生素用药合理性预测方法及系统，该方法包括：获取既往抗生素使用患者的结构化和非结构化相关数据；将患者的非结构化数据进行自然语言处理，包括分词处理和信息抽取；将结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理，形成数据集；将数据集输入随机森林算法，对随机森林算法进行训练；将新患者的相关数据输入训练完成的随机森林算法，输出结果即为抗生素是否合理的判别结果。本发明基于既往患者的真实数据，为新患者提供了更合理的抗生素治疗方案，为医生积累了治疗经验，也提高临床诊疗的效率，为患者带来了更大的福利。

Description

一种抗生素用药合理性预测方法及系统

技术领域

本申请涉及医疗技术领域，尤其涉及一种抗生素用药合理性预测方法及系统。

背景技术

抗生素是治疗感染性疾病的主要药物，正确使用抗生素可以使感染性疾病达到良好的转归和预后。随着抗生素的普及和在临床的大量使用，近些年来，由于抗生素的不合理和错误使用，使耐药菌株，毒性反应，过敏性反应以及二重感染等不良反应增多，给病人带来了额外的生理和经济负担，给医疗资源的合理配置和使用带来了阻碍。

如何指导临床有效合理使用抗生素是一项亟需解决的问题。指导临床医务工作者为患者使用合理有效的抗生素，可以使患者感染性疾病得到正确的治疗，减轻患者的生理和经济负担，使医疗资源得到合理的配置和使用。

因此，提供一种抗生素用药合理性预测方法及系统，是目前需要解决的主要问题。

发明内容

本申请提供了一种抗生素用药合理性预测方法及系统，以指导临床医务工作者为患者使用合理有效的抗生素，可以使患者感染性疾病得到正确的治疗，减轻患者的生理和经济负担，使医疗资源得到合理的配置和使用。

本申请采用的技术方案如下：

第一方面，本发明提供了一种抗生素用药合理性预测方法，包括：

获取既往抗生素使用患者的结构化和非结构化相关数据，所述结构化相关数据包括：性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据，所述非结构化数据包括：基本信息、主诉、现病史、既往史、查房记录和X线检查报告单；

将所述非结构化数据进行自然语言处理，包括分词处理和信息抽取；

将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理，形成数据集；

将所述数据集输入随机森林算法，对所述随机森林算法进行训练；

将新患者的相关数据输入训练完成的随机森林算法，输出结果即为抗生素是否合理的判别结果。

进一步地，所述相关数据可以从医院信息系统、检验信息系统、放射科信息系统和电子病历中获取。

进一步地，所述结构化相关数据具体包括：性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据；

所述非结构化数据包括：基本信息、主诉、现病史、既往史、查房记录和X线检查报告单。

进一步地，所述分词处理包括：

将患者的主诉中的症状处理为症状名称/症状的形式；

将患者的现病史中的用药信息处理为药品名称/药品的形式；

将除症状和用药信息以外的词处理为文本/词性的形式。

进一步地，所述信息抽取包括：

将所述分词处理结果输入正则表达式，得到的输出结果为结构化相关数据的形式；

所述正则表达式预设有待抽取的匹配模式，所述匹配模式为：,.*\/症状和,.*\/药品；

输出的结构化相关数据包括：,.*\/症状对应的症状名称和,.*\/药品对应的药品名称。

进一步地，所述信息抽取包括：

所述正则表达式预设有待抽取的词语，所述词语为：症状和药品；

输出的结构化相关数据包括：症状对应的症状名称和药品对应的药品名称。

进一步地，所述中心化处理包括：对血小板计数进行中心化处理：所述离散化处理包括：患者的年龄、体温、C反应蛋白进行离散化处理；所述数据降维处理包括：对患者的基因检测数据和临床评分量表数据通过主成分抽取的方法进行数据降维处理。

在一种可实现的实施例中，将所述数据集输入随机森林算法，对所述数据集进行训练，包括：

创建多个决策树，并分别对每个决策树，使用有放回的随机抽样方法从数据集中抽取预设数量的样本，分别对每个决策树进行训练；

使用袋外错误率对决策树性能进行评估，所述袋外错误率的计算方法为：对每个样本，计算它作为袋外样本的树对它的分类情况，然后以简单多数投票作为该样本的分类结果，最后用错误分类个数占样本总数的比率作为随机森林的袋外错误率；

若袋外错误率不符合预期，则重新设置随机森林算法的参数，所述参数包括所述样本数量、子分类器数量、节点深度，并重新计算袋外错误率，直到袋外错误率符合预期标准为准。

在一种可实现的实施例中，将新患者的相关数据输入训练完成的随机森林算法，输出结果即为抗生素使用是否合理的判别结果，包括：

将新患者的相关数据输入训练完成的随机森林算法；

若多数决策树预测结果为抗生素使用合理，则采纳决策树的多数投票，输出结果为抗生素使用合理，所述多数为决策树数量的至少80％；

若多数决策树预测结果为抗生素使用不合理，则采纳决策树的多数投票，输出结果为抗生素使用不合理。

第二方面，本发明还提供了一种抗生素用药合理性预测系统，用于实上述方法，包括：

数据抽取模块，所述数据抽取模块用于获取抗生素使用患者的结构化和非结构化相关数据，所述结构化相关数据包括：性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据，所述非结构化数据包括：基本信息、主诉、现病史、既往史、查房记录和X线检查报告单；

数据清洗模块，所述数据清洗模块用于将所述非结构化数据进行自然语言处理，包括分词处理和信息抽取；

特征工程模块，所述特征工程模块用于将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理，形成数据集；

模型训练模块，所述模型训练模块用于将所述数据集输入随机森林算法，对所述随机森林算法进行训练；

用药合理性提示模块，所述用药合理性提示模块用于将新患者的相关数据输入训练完成的随机森林算法，输出结果即为抗生素是否合理的判别结果。

第三方面，本发明还提供了一种医疗设备，包括如上所述的系统。

采用本申请的技术方案的有益效果如下：

本发明的一种抗生素用药合理性预测方法，包括获取既往抗生素使用患者的结构化和非结构化相关数据；将患者的非结构化数据进行自然语言处理，包括分词处理和信息抽取；将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理，形成数据集；将数据集输入随机森林算法，对所述随机森林算法进行训练；将新患者的相关数据输入训练完成的随机森林算法，输出结果即为抗生素是否合理的判别结果。

本发明能够基于既往患者的真实数据，为新患者提供更合理的抗生素治疗方案，为医生积累治疗经验，提高临床诊疗的效率，为患者带来更大的福利

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种抗生素用药合理性预测方法的流程图；

图2为分词示意图一；

图3为分词示意图二；

图4为信息抽取示意图一；

图5为信息抽取示意图二；

图6为一种抗生素用药合理性预测系统的示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

如图1所示，作为第一方面，本发明公开了一种抗生素用药合理性预测方法，包括：

S01：获取若干个既往抗生素使用患者的结构化和非结构化相关数据。

其中，相关数据可以从HIS(医院信息系统)、LIS(检验信息系统)、RIS(放射科信息系统)和EMR(电子病历)中获取。

进一步地，结构化相关数据见下表1和表2：

表1结构化数据示例

表2结构化数据示例续

更进一步地，所述非结构化相关数据包括患者的基本信息、主诉、现病史、既往史、查房记录和X线检查报告单，具体见表3、表4、表5：

表3非结构化数据示例

表4非结构化数据示例续

表5非结构化数据示例续

S02：将所述非结构化数据进行自然语言处理，包括分词处理和信息抽取。

对获取的非结构化数据进行自然语言处理，主要是从以文本形式记录的资料中提取出与患者疾病资料有关的数据。首先进行分词处理，即：

将患者的症状处理为症状名称/症状的形式；将患者的用药信息处理为药品名称/药品的形式；将除症状和用药信息以外的词处理为文本/词性的形式。

如图2(分词示意图一)，示例中症状“恶心呕吐”被分词为“恶心/a,呕吐/n”，其中“/”前为词语，“/”后为词性，如“恶心/a”表示文本”恶心”为一个词语并且它的词性为“a”表示形容词；示例中“藿香正气水”被分词为“藿香/n，正气水/n”，但是“藿香正气水”是一个完整的词语，表示一种药品名称；为了解决上述分词粒度的问题，使用从医院数据库收集整理医学词汇，并人工标注词性以后整理成的词典作为分词的依据，词典中词语记录形式为“词语自定义词性出现次数”，词典的示例如表6所示：

表3自定义词典示意

词语	自定义词性	出现次数
			恶心	症状	356
呕吐	症状	356
			藿香正气水	药品	423

使用自定义词典作为分词依据，对图2示例的文本进行分词以后，可达到如图3(分词示意图二)所示的效果：

自定义词性以后，表示的症状词语如“恶心”被分词为“恶心/症状”，表示药品的词语如“藿香正气水”被分词为“藿香正气水/药品”，便于后续的信息抽取；上述示例使用的分词器为条件随机场(CRF)分词器，除此之外，分词这个处理技术还可以使用不同的分词器，如感知机分词器等。

分词完成以后，下一步进行信息抽取，目的是将非结构数据中的有用信息如患者症状，患者使用药品等数据抽取出来。

可使用基于正则表达式(Regular Expression)规则的信息抽取技术：将所述分词处理结果输入正则表达式，得到的输出结果为结构化相关数据的形式；所述正则表达式预设有待抽取的匹配模式，所述匹配模式为：“,.*\/症状”和“,.*\/药品”；输出的结构化相关数据包括：“,.*\/症状”对应的症状名称和“,.*\/”药品对应的药品名称。

基于正则表达式(Regular Expression)规则的信息抽取技术其实施示例及其伪代码如图4(信息抽取示意图一)所示，其中：对于分词后的文本数据，如果想要提取患者的症状信息，分词后的文本中，表示症状信息的词语符合“,词语/症状”的特点，则编辑匹配模式“,.*\/症状”，该匹配模式的意思为：“.*”表示匹配任意字符，“,.*”表示匹配以“,”开头的字符“.*\/症状”表示匹配以“\/症状”结尾的字符，所以“,.*\/症状”表示匹配以“,”开头并且以“\/症状”结尾中间包含任意字符的文本，则符合匹配模式“,.*\/症状”的词语被识别为描述患者症状的信息，则该词语被抽取出,如上述分词后的文本“,恶心/症状”；同理，符合匹配模式“,.*\/药品”的词语被识别为描述患者使用药品的信息，则该词语被抽取出，抽取的信息整理为结构化的数据{症状：[“恶心”,“呕吐”],药品:“藿香正气水”}。

也可使用基于词性规则的信息抽取技术：将所述分词处理结果输入正则表达式，得到的输出结果为结构化相关数据的形式；所述正则表达式预设有待抽取的词语，所述词语为：症状和药品；输出的结构化相关数据包括：症状对应的症状名称和药品对应的药品名称。

基于词性规则的信息抽取技术其实施示例及其伪代码图5(信息抽取示意图二)所示：对于分词后的文本数据，如果词语的词性为“症状”,则抽取出该词语的文本作为患者的症状；如果词语的词性为“药品”,则抽取出该词语的文本作为患者使用的药品；抽取的信息整理为结构化的数据{症状：[“恶心”,“呕吐”],药品:“藿香正气水”}。

完成对非结构化数据的自然语言处理后，将患者结构化完成的上述非结构化数据通过患者ID和开始采集的结构化数据合并，合并以后得到抗生素使用患者的完整数据集。

S03：将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理，形成数据集。

由于S02中得到的结构化数据和经自然语言处理后的非结构化数据，存在部分特征的分布离散度大，部分特征维度高等特点，为了后续便于机器学习算法的训练，降低算法的复杂度，因此需要进行特征工程，主要包括对特征进行离散化、中心化、数据降维等处理。

对于需要离散化处理的年龄和体温，则：

将患者的年龄状况进行离散化处理，即将患者的年龄按照大小划分到不同的预设范围；示例性的，年龄这一特征为连续分布，但是抗生素的使用具有不同年龄段适用不同种类抗生素的特点，因此可将年龄进行离散化，如患者1的年龄为23岁，转换后为18～24岁，患者2的年龄为6岁，转换后为0～6岁。

将患者的体温状况进行离散化处理，即将患者的体温划分为在预设范围内则正常，不在预设范围内则异常；示例性的，体温这一特征为连续分布，但是体温在一定区间内并不影响患者抗生素的选择，且体温一般只分为“正常”，“异常”两种情况，因此可将连续的体温数据进行离散化，如患者1的年龄为36.3℃，转换后为“正常”，患者2的年龄为38.5℃，转换后为“异常”。

对于需要中心化处理的血小板计数，则示例性的，血小板计数为变异程度大的连续性数据，可将其中心化为分布均匀的连续性资料，转换方式为：

其中，s′i为转化后的血小板计数数值，s_i为转化前的血小板计数数值，s_min为转化前血小板计数数值的最小值，s_max为转化前血小板计数数值的最大值。

假设血小板计数数值的最小值为125，最大值为350，则病例1的血小板计数转化前为323，转化后为0.88，病例2的血小板计数转化前为216，转化后为0.404。

对于需要中心化处理的C反应蛋白，示例性的，C反应蛋白为服从正态分布的连续性数据，可将其转换为服从标准正态分布的数据，转换方式为：

其中，x′_i为转化后的C反应蛋白数值，x_i为转化前的C反应蛋白数值，μ为C反应蛋白均值，σ为C反应蛋白标准差。

假设根据数据集计算得C反应蛋白均值为1，标准差为0.5，则病例1的C反应蛋白转化前为1.06，转化后为0.792，病例2的C反应蛋白转化前为0.89，转化后为0.779。

对于需要降维处理的C反应蛋白，对于患者的基因检测数据和临床评分量表数据，这些数据的维度可高达几十甚至成百上千，高维度的数据不利于算法的训练，因此可对这些数据进行降维，主要使用主成分抽取的方法进行降维。

示例性的，对于患者的症状自评量表SCL90数据，该数据包含90个维度，但其中各维度中间存在一定联系，因此使用主成分分析将其抽取为10个维度，抽取的10个维度可包含原始的90个维度的大部分信息但是维度较低。

S04：将所述数据集输入随机森林算法，对所述随机森林算法进行训练。

使用集成的分类算法对抗生素用药合理性数据进行建模和预测，使用的算法为随机森林。

具体包括如下步骤：

模型拟合：创建多个决策树，并分别对每个决策树，使用有放回的随机抽样方法从S03中得到的数据集中抽取预设数量的样本，分别对每个决策树进行训练；

使用以决策树(Decision Tree)为子分类器的随机森林算法对特征数据集进行训练，不断调整样本数量、子分类器数量、节点深度等参数，使模型达到预期的性能。

如果使用的决策树子分类器是CD3算法，则作为随机森林子分类器的决策树基于信息熵进行节点分裂，信息熵的定义为：

在创建决策树的过程中，每次节点的分裂应使熵的数值下降最大，直到节点中的数据全部属于同一个类别。

模型评价：使用袋外错误率(Out of Bag error)对决策树性能进行评估，所述袋外错误率的计算方法为：对每个样本，计算它作为袋外样本的树对它的分类情况，然后以简单多数投票作为该样本的分类结果，最后用错误分类个数占样本总数的比率作为随机森林的袋外错误率；

模型选择：若袋外错误率不符合预期，则重新设置随机森林算法的参数，所述参数包括所述样本数量、子分类器数量、节点深度，并重新计算袋外错误率，直到袋外错误率符合预期标准为准。

示例性的，S02和S03的自然语言处理和特征工程以后共获取10000例抗生素使用数据，数据已标注抗生素用药合理性，使用这些数据训练随机森林算法，算法参数设置为，创建100个子分类器，在本例中为创建100棵决策树，每个子分类器的训练样本为1000,经性能评估算法的袋外错误率为2％，即预测100例样本只有2例预测错误，模型符合预期，可以用于预测新患者的抗生素用药合理性。

S05：将新患者的相关数据输入训练完成的随机森林算法，输出结果即为抗生素是否合理的判别结果。

具体包括以下步骤：

将新患者的相关数据输入训练完成的随机森林算法；

算法将自动预测新患者的抗生素用药合理性，预测方法为：

示例性的，随机森林算法共有100个子分类器，接受新患者数据以后，98个子分类器预测结果为抗生素使用合理，2个子分类器预测结果为抗生素使用不合理，则算法采用子分类器的多数投票，最终预测输出为新患者的抗生素使用合理。

本发明的方法使用基于数据库整理的词典对非结构化数据进行分词，并使用基于词性的规则进行信息抽取，再使用随机森林算法对抗生素用药合理性进行预测。使得本发明能够基于既往患者的真实数据，为新患者提供更合理的抗生素治疗方案，为医生积累治疗经验，提高临床诊疗的效率，为患者带来更大的福利。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

作为第二方面，本发明还公开了一种抗生素用药合理性预测系统，用于实现上述方法，包括：

用药合理性提示模块，所述用药合理性提示模块用于将新患者的相关数据输入训练完成的随机森林算法，输出结果即为抗生素是否合理的判别结果(用药方案推荐)。

具体关于抗生素用药合理性预测系统的限定可以参见上文中对抗生素用药合理性预测方法的限定，在此不多做赘述。另外，上述抗生素用药合理性预测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种抗生素用药合理性预测方法，其特征在于，包括：

获取既往抗生素使用患者的结构化和非结构化相关数据，所述结构化相关数包括：性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据，所述非结构化数据包括：基本信息、主诉、现病史、既往史、查房记录和X线检查报告单；

2.根据权利要求1所述的抗生素用药合理性预测方法，其特征在于，所述相关数据可以从医院信息系统、检验信息系统、放射科信息系统和电子病历中获取。

3.根据权利要求1或2所述的抗生素用药合理性预测方法，其特征在于，所述分词处理包括：

将患者的主诉中的症状处理为症状名称/症状的形式；

将患者的现病史中的用药信息处理为药品名称/药品的形式；

将除症状和用药信息以外的词处理为文本/词性的形式。

4.根据权利要求3所述的抗生素用药合理性预测方法，其特征在于，所述信息抽取包括：

5.根据权利要求3所述的抗生素用药合理性预测方法，其特征在于，所述信息抽取包括：

6.根据权利要求1所述的抗生素用药合理性预测方法，其特征在于，

所述中心化处理包括：对血小板计数进行中心化处理；

所述离散化处理包括：患者的年龄、体温、C反应蛋白进行离散化处理；

所述数据降维处理包括：对患者的基因检测数据和临床评分量表数据通过主成分抽取的方法进行数据降维处理。

7.根据权利要求1或6所述的抗生素用药合理性预测方法，其特征在于，将所述数据集输入随机森林算法，对所述数据集进行训练，包括：

8.根据权利要求7所述的抗生素用药合理性预测方法，其特征在于，将新患者的相关数据输入训练完成的随机森林算法，输出结果即为抗生素使用是否合理的判别结果，包括：

将新患者的相关数据输入训练完成的随机森林算法；

9.一种抗生素用药合理性预测系统，用于实现权利要求1～8任意一项所述的方法，其特征在于，包括：

10.一种医疗设备，其特征在于，包括如权利要求9所述的系统。