CN113539414A - 一种抗生素用药合理性预测方法及系统 - Google Patents

一种抗生素用药合理性预测方法及系统 Download PDF

Info

Publication number
CN113539414A
CN113539414A CN202110888646.8A CN202110888646A CN113539414A CN 113539414 A CN113539414 A CN 113539414A CN 202110888646 A CN202110888646 A CN 202110888646A CN 113539414 A CN113539414 A CN 113539414A
Authority
CN
China
Prior art keywords
data
antibiotic
random forest
patient
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110888646.8A
Other languages
English (en)
Inventor
邱文
高妍
王昕昱
王晓芳
孙一君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Yaoming Data Technology Chengdu Co ltd
Original Assignee
Zhongdian Yaoming Data Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Yaoming Data Technology Chengdu Co ltd filed Critical Zhongdian Yaoming Data Technology Chengdu Co ltd
Priority to CN202110888646.8A priority Critical patent/CN113539414A/zh
Publication of CN113539414A publication Critical patent/CN113539414A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Abstract

本发明涉及一种抗生素用药合理性预测方法及系统,该方法包括:获取既往抗生素使用患者的结构化和非结构化相关数据;将患者的非结构化数据进行自然语言处理,包括分词处理和信息抽取;将结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理,形成数据集;将数据集输入随机森林算法,对随机森林算法进行训练;将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素是否合理的判别结果。本发明基于既往患者的真实数据,为新患者提供了更合理的抗生素治疗方案,为医生积累了治疗经验,也提高临床诊疗的效率,为患者带来了更大的福利。

Description

一种抗生素用药合理性预测方法及系统
技术领域
本申请涉及医疗技术领域,尤其涉及一种抗生素用药合理性预测方法及系统。
背景技术
抗生素是治疗感染性疾病的主要药物,正确使用抗生素可以使感染性疾病达到良好的转归和预后。随着抗生素的普及和在临床的大量使用,近些年来,由于抗生素的不合理和错误使用,使耐药菌株,毒性反应,过敏性反应以及二重感染等不良反应增多,给病人带来了额外的生理和经济负担,给医疗资源的合理配置和使用带来了阻碍。
如何指导临床有效合理使用抗生素是一项亟需解决的问题。指导临床医务工作者为患者使用合理有效的抗生素,可以使患者感染性疾病得到正确的治疗,减轻患者的生理和经济负担,使医疗资源得到合理的配置和使用。
因此,提供一种抗生素用药合理性预测方法及系统,是目前需要解决的主要问题。
发明内容
本申请提供了一种抗生素用药合理性预测方法及系统,以指导临床医务工作者为患者使用合理有效的抗生素,可以使患者感染性疾病得到正确的治疗,减轻患者的生理和经济负担,使医疗资源得到合理的配置和使用。
本申请采用的技术方案如下:
第一方面,本发明提供了一种抗生素用药合理性预测方法,包括:
获取既往抗生素使用患者的结构化和非结构化相关数据,所述结构化相关数据包括:性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据,所述非结构化数据包括:基本信息、主诉、现病史、既往史、查房记录和X线检查报告单;
将所述非结构化数据进行自然语言处理,包括分词处理和信息抽取;
将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理,形成数据集;
将所述数据集输入随机森林算法,对所述随机森林算法进行训练;
将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素是否合理的判别结果。
进一步地,所述相关数据可以从医院信息系统、检验信息系统、放射科信息系统和电子病历中获取。
进一步地,所述结构化相关数据具体包括:性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据;
所述非结构化数据包括:基本信息、主诉、现病史、既往史、查房记录和X线检查报告单。
进一步地,所述分词处理包括:
将患者的主诉中的症状处理为症状名称/症状的形式;
将患者的现病史中的用药信息处理为药品名称/药品的形式;
将除症状和用药信息以外的词处理为文本/词性的形式。
进一步地,所述信息抽取包括:
将所述分词处理结果输入正则表达式,得到的输出结果为结构化相关数据的形式;
所述正则表达式预设有待抽取的匹配模式,所述匹配模式为:,.*\/症状和,.*\/药品;
输出的结构化相关数据包括:,.*\/症状对应的症状名称和,.*\/药品对应的药品名称。
进一步地,所述信息抽取包括:
将所述分词处理结果输入正则表达式,得到的输出结果为结构化相关数据的形式;
所述正则表达式预设有待抽取的词语,所述词语为:症状和药品;
输出的结构化相关数据包括:症状对应的症状名称和药品对应的药品名称。
进一步地,所述中心化处理包括:对血小板计数进行中心化处理:所述离散化处理包括:患者的年龄、体温、C反应蛋白进行离散化处理;所述数据降维处理包括:对患者的基因检测数据和临床评分量表数据通过主成分抽取的方法进行数据降维处理。
在一种可实现的实施例中,将所述数据集输入随机森林算法,对所述数据集进行训练,包括:
创建多个决策树,并分别对每个决策树,使用有放回的随机抽样方法从数据集中抽取预设数量的样本,分别对每个决策树进行训练;
使用袋外错误率对决策树性能进行评估,所述袋外错误率的计算方法为:对每个样本,计算它作为袋外样本的树对它的分类情况,然后以简单多数投票作为该样本的分类结果,最后用错误分类个数占样本总数的比率作为随机森林的袋外错误率;
若袋外错误率不符合预期,则重新设置随机森林算法的参数,所述参数包括所述样本数量、子分类器数量、节点深度,并重新计算袋外错误率,直到袋外错误率符合预期标准为准。
在一种可实现的实施例中,将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素使用是否合理的判别结果,包括:
将新患者的相关数据输入训练完成的随机森林算法;
若多数决策树预测结果为抗生素使用合理,则采纳决策树的多数投票,输出结果为抗生素使用合理,所述多数为决策树数量的至少80%;
若多数决策树预测结果为抗生素使用不合理,则采纳决策树的多数投票,输出结果为抗生素使用不合理。
第二方面,本发明还提供了一种抗生素用药合理性预测系统,用于实上述方法,包括:
数据抽取模块,所述数据抽取模块用于获取抗生素使用患者的结构化和非结构化相关数据,所述结构化相关数据包括:性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据,所述非结构化数据包括:基本信息、主诉、现病史、既往史、查房记录和X线检查报告单;
数据清洗模块,所述数据清洗模块用于将所述非结构化数据进行自然语言处理,包括分词处理和信息抽取;
特征工程模块,所述特征工程模块用于将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理,形成数据集;
模型训练模块,所述模型训练模块用于将所述数据集输入随机森林算法,对所述随机森林算法进行训练;
用药合理性提示模块,所述用药合理性提示模块用于将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素是否合理的判别结果。
第三方面,本发明还提供了一种医疗设备,包括如上所述的系统。
采用本申请的技术方案的有益效果如下:
本发明的一种抗生素用药合理性预测方法,包括获取既往抗生素使用患者的结构化和非结构化相关数据;将患者的非结构化数据进行自然语言处理,包括分词处理和信息抽取;将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理,形成数据集;将数据集输入随机森林算法,对所述随机森林算法进行训练;将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素是否合理的判别结果。
本发明能够基于既往患者的真实数据,为新患者提供更合理的抗生素治疗方案,为医生积累治疗经验,提高临床诊疗的效率,为患者带来更大的福利
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种抗生素用药合理性预测方法的流程图;
图2为分词示意图一;
图3为分词示意图二;
图4为信息抽取示意图一;
图5为信息抽取示意图二;
图6为一种抗生素用药合理性预测系统的示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
如图1所示,作为第一方面,本发明公开了一种抗生素用药合理性预测方法,包括:
S01:获取若干个既往抗生素使用患者的结构化和非结构化相关数据。
其中,相关数据可以从HIS(医院信息系统)、LIS(检验信息系统)、RIS(放射科信息系统)和EMR(电子病历)中获取。
进一步地,结构化相关数据见下表1和表2:
表1结构化数据示例
Figure BDA0003190091960000041
表2结构化数据示例续
Figure BDA0003190091960000042
更进一步地,所述非结构化相关数据包括患者的基本信息、主诉、现病史、既往史、查房记录和X线检查报告单,具体见表3、表4、表5:
表3非结构化数据示例
Figure BDA0003190091960000051
表4非结构化数据示例续
Figure BDA0003190091960000052
表5非结构化数据示例续
Figure BDA0003190091960000053
S02:将所述非结构化数据进行自然语言处理,包括分词处理和信息抽取。
对获取的非结构化数据进行自然语言处理,主要是从以文本形式记录的资料中提取出与患者疾病资料有关的数据。首先进行分词处理,即:
将患者的症状处理为症状名称/症状的形式;将患者的用药信息处理为药品名称/药品的形式;将除症状和用药信息以外的词处理为文本/词性的形式。
如图2(分词示意图一),示例中症状“恶心呕吐”被分词为“恶心/a,呕吐/n”,其中“/”前为词语,“/”后为词性,如“恶心/a”表示文本”恶心”为一个词语并且它的词性为“a”表示形容词;示例中“藿香正气水”被分词为“藿香/n,正气水/n”,但是“藿香正气水”是一个完整的词语,表示一种药品名称;为了解决上述分词粒度的问题,使用从医院数据库收集整理医学词汇,并人工标注词性以后整理成的词典作为分词的依据,词典中词语记录形式为“词语自定义词性出现次数”,词典的示例如表6所示:
表3自定义词典示意
词语 自定义词性 出现次数
恶心 症状 356
呕吐 症状 356
藿香正气水 药品 423
使用自定义词典作为分词依据,对图2示例的文本进行分词以后,可达到如图3(分词示意图二)所示的效果:
自定义词性以后,表示的症状词语如“恶心”被分词为“恶心/症状”,表示药品的词语如“藿香正气水”被分词为“藿香正气水/药品”,便于后续的信息抽取;上述示例使用的分词器为条件随机场(CRF)分词器,除此之外,分词这个处理技术还可以使用不同的分词器,如感知机分词器等。
分词完成以后,下一步进行信息抽取,目的是将非结构数据中的有用信息如患者症状,患者使用药品等数据抽取出来。
可使用基于正则表达式(Regular Expression)规则的信息抽取技术:将所述分词处理结果输入正则表达式,得到的输出结果为结构化相关数据的形式;所述正则表达式预设有待抽取的匹配模式,所述匹配模式为:“,.*\/症状”和“,.*\/药品”;输出的结构化相关数据包括:“,.*\/症状”对应的症状名称和“,.*\/”药品对应的药品名称。
基于正则表达式(Regular Expression)规则的信息抽取技术其实施示例及其伪代码如图4(信息抽取示意图一)所示,其中:对于分词后的文本数据,如果想要提取患者的症状信息,分词后的文本中,表示症状信息的词语符合“,词语/症状”的特点,则编辑匹配模式“,.*\/症状”,该匹配模式的意思为:“.*”表示匹配任意字符,“,.*”表示匹配以“,”开头的字符“.*\/症状”表示匹配以“\/症状”结尾的字符,所以“,.*\/症状”表示匹配以“,”开头并且以“\/症状”结尾中间包含任意字符的文本,则符合匹配模式“,.*\/症状”的词语被识别为描述患者症状的信息,则该词语被抽取出,如上述分词后的文本“,恶心/症状”;同理,符合匹配模式“,.*\/药品”的词语被识别为描述患者使用药品的信息,则该词语被抽取出,抽取的信息整理为结构化的数据{症状:[“恶心”,“呕吐”],药品:“藿香正气水”}。
也可使用基于词性规则的信息抽取技术:将所述分词处理结果输入正则表达式,得到的输出结果为结构化相关数据的形式;所述正则表达式预设有待抽取的词语,所述词语为:症状和药品;输出的结构化相关数据包括:症状对应的症状名称和药品对应的药品名称。
基于词性规则的信息抽取技术其实施示例及其伪代码图5(信息抽取示意图二)所示:对于分词后的文本数据,如果词语的词性为“症状”,则抽取出该词语的文本作为患者的症状;如果词语的词性为“药品”,则抽取出该词语的文本作为患者使用的药品;抽取的信息整理为结构化的数据{症状:[“恶心”,“呕吐”],药品:“藿香正气水”}。
完成对非结构化数据的自然语言处理后,将患者结构化完成的上述非结构化数据通过患者ID和开始采集的结构化数据合并,合并以后得到抗生素使用患者的完整数据集。
S03:将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理,形成数据集。
由于S02中得到的结构化数据和经自然语言处理后的非结构化数据,存在部分特征的分布离散度大,部分特征维度高等特点,为了后续便于机器学习算法的训练,降低算法的复杂度,因此需要进行特征工程,主要包括对特征进行离散化、中心化、数据降维等处理。
对于需要离散化处理的年龄和体温,则:
将患者的年龄状况进行离散化处理,即将患者的年龄按照大小划分到不同的预设范围;示例性的,年龄这一特征为连续分布,但是抗生素的使用具有不同年龄段适用不同种类抗生素的特点,因此可将年龄进行离散化,如患者1的年龄为23岁,转换后为18~24岁,患者2的年龄为6岁,转换后为0~6岁。
将患者的体温状况进行离散化处理,即将患者的体温划分为在预设范围内则正常,不在预设范围内则异常;示例性的,体温这一特征为连续分布,但是体温在一定区间内并不影响患者抗生素的选择,且体温一般只分为“正常”,“异常”两种情况,因此可将连续的体温数据进行离散化,如患者1的年龄为36.3℃,转换后为“正常”,患者2的年龄为38.5℃,转换后为“异常”。
对于需要中心化处理的血小板计数,则示例性的,血小板计数为变异程度大的连续性数据,可将其中心化为分布均匀的连续性资料,转换方式为:
Figure BDA0003190091960000071
其中,s′i为转化后的血小板计数数值,si为转化前的血小板计数数值,smin为转化前血小板计数数值的最小值,smax为转化前血小板计数数值的最大值。
假设血小板计数数值的最小值为125,最大值为350,则病例1的血小板计数转化前为323,转化后为0.88,病例2的血小板计数转化前为216,转化后为0.404。
对于需要中心化处理的C反应蛋白,示例性的,C反应蛋白为服从正态分布的连续性数据,可将其转换为服从标准正态分布的数据,转换方式为:
Figure BDA0003190091960000072
其中,x′i为转化后的C反应蛋白数值,xi为转化前的C反应蛋白数值,μ为C反应蛋白均值,σ为C反应蛋白标准差。
假设根据数据集计算得C反应蛋白均值为1,标准差为0.5,则病例1的C反应蛋白转化前为1.06,转化后为0.792,病例2的C反应蛋白转化前为0.89,转化后为0.779。
对于需要降维处理的C反应蛋白,对于患者的基因检测数据和临床评分量表数据,这些数据的维度可高达几十甚至成百上千,高维度的数据不利于算法的训练,因此可对这些数据进行降维,主要使用主成分抽取的方法进行降维。
示例性的,对于患者的症状自评量表SCL90数据,该数据包含90个维度,但其中各维度中间存在一定联系,因此使用主成分分析将其抽取为10个维度,抽取的10个维度可包含原始的90个维度的大部分信息但是维度较低。
S04:将所述数据集输入随机森林算法,对所述随机森林算法进行训练。
使用集成的分类算法对抗生素用药合理性数据进行建模和预测,使用的算法为随机森林。
具体包括如下步骤:
模型拟合:创建多个决策树,并分别对每个决策树,使用有放回的随机抽样方法从S03中得到的数据集中抽取预设数量的样本,分别对每个决策树进行训练;
使用以决策树(Decision Tree)为子分类器的随机森林算法对特征数据集进行训练,不断调整样本数量、子分类器数量、节点深度等参数,使模型达到预期的性能。
如果使用的决策树子分类器是CD3算法,则作为随机森林子分类器的决策树基于信息熵进行节点分裂,信息熵的定义为:
Figure BDA0003190091960000081
在创建决策树的过程中,每次节点的分裂应使熵的数值下降最大,直到节点中的数据全部属于同一个类别。
模型评价:使用袋外错误率(Out of Bag error)对决策树性能进行评估,所述袋外错误率的计算方法为:对每个样本,计算它作为袋外样本的树对它的分类情况,然后以简单多数投票作为该样本的分类结果,最后用错误分类个数占样本总数的比率作为随机森林的袋外错误率;
模型选择:若袋外错误率不符合预期,则重新设置随机森林算法的参数,所述参数包括所述样本数量、子分类器数量、节点深度,并重新计算袋外错误率,直到袋外错误率符合预期标准为准。
示例性的,S02和S03的自然语言处理和特征工程以后共获取10000例抗生素使用数据,数据已标注抗生素用药合理性,使用这些数据训练随机森林算法,算法参数设置为,创建100个子分类器,在本例中为创建100棵决策树,每个子分类器的训练样本为1000,经性能评估算法的袋外错误率为2%,即预测100例样本只有2例预测错误,模型符合预期,可以用于预测新患者的抗生素用药合理性。
S05:将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素是否合理的判别结果。
具体包括以下步骤:
将新患者的相关数据输入训练完成的随机森林算法;
算法将自动预测新患者的抗生素用药合理性,预测方法为:
若多数决策树预测结果为抗生素使用合理,则采纳决策树的多数投票,输出结果为抗生素使用合理,所述多数为决策树数量的至少80%;
若多数决策树预测结果为抗生素使用不合理,则采纳决策树的多数投票,输出结果为抗生素使用不合理。
示例性的,随机森林算法共有100个子分类器,接受新患者数据以后,98个子分类器预测结果为抗生素使用合理,2个子分类器预测结果为抗生素使用不合理,则算法采用子分类器的多数投票,最终预测输出为新患者的抗生素使用合理。
本发明的方法使用基于数据库整理的词典对非结构化数据进行分词,并使用基于词性的规则进行信息抽取,再使用随机森林算法对抗生素用药合理性进行预测。使得本发明能够基于既往患者的真实数据,为新患者提供更合理的抗生素治疗方案,为医生积累治疗经验,提高临床诊疗的效率,为患者带来更大的福利。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
作为第二方面,本发明还公开了一种抗生素用药合理性预测系统,用于实现上述方法,包括:
数据抽取模块,所述数据抽取模块用于获取抗生素使用患者的结构化和非结构化相关数据,所述结构化相关数据包括:性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据,所述非结构化数据包括:基本信息、主诉、现病史、既往史、查房记录和X线检查报告单;
数据清洗模块,所述数据清洗模块用于将所述非结构化数据进行自然语言处理,包括分词处理和信息抽取;
特征工程模块,所述特征工程模块用于将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理,形成数据集;
模型训练模块,所述模型训练模块用于将所述数据集输入随机森林算法,对所述随机森林算法进行训练;
用药合理性提示模块,所述用药合理性提示模块用于将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素是否合理的判别结果(用药方案推荐)。
具体关于抗生素用药合理性预测系统的限定可以参见上文中对抗生素用药合理性预测方法的限定,在此不多做赘述。另外,上述抗生素用药合理性预测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
第三方面,本发明还提供了一种医疗设备,包括如上所述的系统。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (10)

1.一种抗生素用药合理性预测方法,其特征在于,包括:
获取既往抗生素使用患者的结构化和非结构化相关数据,所述结构化相关数包括:性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据,所述非结构化数据包括:基本信息、主诉、现病史、既往史、查房记录和X线检查报告单;
将所述非结构化数据进行自然语言处理,包括分词处理和信息抽取;
将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理,形成数据集;
将所述数据集输入随机森林算法,对所述随机森林算法进行训练;
将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素是否合理的判别结果。
2.根据权利要求1所述的抗生素用药合理性预测方法,其特征在于,所述相关数据可以从医院信息系统、检验信息系统、放射科信息系统和电子病历中获取。
3.根据权利要求1或2所述的抗生素用药合理性预测方法,其特征在于,所述分词处理包括:
将患者的主诉中的症状处理为症状名称/症状的形式;
将患者的现病史中的用药信息处理为药品名称/药品的形式;
将除症状和用药信息以外的词处理为文本/词性的形式。
4.根据权利要求3所述的抗生素用药合理性预测方法,其特征在于,所述信息抽取包括:
将所述分词处理结果输入正则表达式,得到的输出结果为结构化相关数据的形式;
所述正则表达式预设有待抽取的匹配模式,所述匹配模式为:,.*\/症状和,.*\/药品;
输出的结构化相关数据包括:,.*\/症状对应的症状名称和,.*\/药品对应的药品名称。
5.根据权利要求3所述的抗生素用药合理性预测方法,其特征在于,所述信息抽取包括:
将所述分词处理结果输入正则表达式,得到的输出结果为结构化相关数据的形式;
所述正则表达式预设有待抽取的词语,所述词语为:症状和药品;
输出的结构化相关数据包括:症状对应的症状名称和药品对应的药品名称。
6.根据权利要求1所述的抗生素用药合理性预测方法,其特征在于,
所述中心化处理包括:对血小板计数进行中心化处理;
所述离散化处理包括:患者的年龄、体温、C反应蛋白进行离散化处理;
所述数据降维处理包括:对患者的基因检测数据和临床评分量表数据通过主成分抽取的方法进行数据降维处理。
7.根据权利要求1或6所述的抗生素用药合理性预测方法,其特征在于,将所述数据集输入随机森林算法,对所述数据集进行训练,包括:
创建多个决策树,并分别对每个决策树,使用有放回的随机抽样方法从数据集中抽取预设数量的样本,分别对每个决策树进行训练;
使用袋外错误率对决策树性能进行评估,所述袋外错误率的计算方法为:对每个样本,计算它作为袋外样本的树对它的分类情况,然后以简单多数投票作为该样本的分类结果,最后用错误分类个数占样本总数的比率作为随机森林的袋外错误率;
若袋外错误率不符合预期,则重新设置随机森林算法的参数,所述参数包括所述样本数量、子分类器数量、节点深度,并重新计算袋外错误率,直到袋外错误率符合预期标准为准。
8.根据权利要求7所述的抗生素用药合理性预测方法,其特征在于,将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素使用是否合理的判别结果,包括:
将新患者的相关数据输入训练完成的随机森林算法;
若多数决策树预测结果为抗生素使用合理,则采纳决策树的多数投票,输出结果为抗生素使用合理,所述多数为决策树数量的至少80%;
若多数决策树预测结果为抗生素使用不合理,则采纳决策树的多数投票,输出结果为抗生素使用不合理。
9.一种抗生素用药合理性预测系统,用于实现权利要求1~8任意一项所述的方法,其特征在于,包括:
数据抽取模块,所述数据抽取模块用于获取抗生素使用患者的结构化和非结构化相关数据,所述结构化相关数据包括:性别、年龄、吸烟史、高血压、冠心病、白细胞计数、血小板计数、降钙素原、C反应蛋白、主诊断名称、是否发热、体温、排便次数、既往手术名称、既往使用抗生素名称、伴随药物名称、基因检测数据和临床评分量表数据,所述非结构化数据包括:基本信息、主诉、现病史、既往史、查房记录和X线检查报告单;
数据清洗模块,所述数据清洗模块用于将所述非结构化数据进行自然语言处理,包括分词处理和信息抽取;
特征工程模块,所述特征工程模块用于将所述结构化数据和经自然语言处理后的非结构化数据进行中心化、离散化处理、数据降维处理,形成数据集;
模型训练模块,所述模型训练模块用于将所述数据集输入随机森林算法,对所述随机森林算法进行训练;
用药合理性提示模块,所述用药合理性提示模块用于将新患者的相关数据输入训练完成的随机森林算法,输出结果即为抗生素是否合理的判别结果。
10.一种医疗设备,其特征在于,包括如权利要求9所述的系统。
CN202110888646.8A 2021-07-30 2021-07-30 一种抗生素用药合理性预测方法及系统 Pending CN113539414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110888646.8A CN113539414A (zh) 2021-07-30 2021-07-30 一种抗生素用药合理性预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110888646.8A CN113539414A (zh) 2021-07-30 2021-07-30 一种抗生素用药合理性预测方法及系统

Publications (1)

Publication Number Publication Date
CN113539414A true CN113539414A (zh) 2021-10-22

Family

ID=78121926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110888646.8A Pending CN113539414A (zh) 2021-07-30 2021-07-30 一种抗生素用药合理性预测方法及系统

Country Status (1)

Country Link
CN (1) CN113539414A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093524A (zh) * 2021-11-02 2022-02-25 深圳市儿童医院 一种儿童抗菌药物使用评估系统、计算机可读存储介质及终端
CN116230158A (zh) * 2023-03-27 2023-06-06 中国医学科学院肿瘤医院 一种疼痛评估及用药预测系统及其使用方法

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
CN108231201A (zh) * 2018-01-25 2018-06-29 华中科技大学 一种疾病数据分析处理模型的构建方法、系统及应用
CN109766329A (zh) * 2018-12-29 2019-05-17 湖南网数科技有限公司 一种支持交换共享的临床数据单元生成方法和装置
CN109785927A (zh) * 2019-02-01 2019-05-21 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床文档结构化处理方法
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN109920508A (zh) * 2018-12-28 2019-06-21 安徽省立医院 处方审核方法及系统
CN110428910A (zh) * 2019-06-18 2019-11-08 浙江大学 临床用药适应症分析系统、方法、计算机设备和存储介质
CN110543832A (zh) * 2019-08-13 2019-12-06 同济大学 基于随机森林和卷积神经网络的脑电数据分类方法
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111048167A (zh) * 2019-10-31 2020-04-21 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
US20200176098A1 (en) * 2018-12-03 2020-06-04 Tempus Labs Clinical Concept Identification, Extraction, and Prediction System and Related Methods
US20200219619A1 (en) * 2018-12-20 2020-07-09 Oregon Health & Science University Subtyping heterogeneous disorders using functional random forest models
CN111524606A (zh) * 2020-04-24 2020-08-11 郑州大学第一附属医院 一种基于随机森林算法的肿瘤数据统计方法
US20200272919A1 (en) * 2019-02-26 2020-08-27 Flatiron Health, Inc. Prognostic score based on health information
CN111986770A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 药方用药审核方法、装置、设备及存储介质
CN112133389A (zh) * 2020-08-12 2020-12-25 福建中榕数据科技有限公司 临床辅助决策高危自动预警方法、系统、设备和介质
CN112149411A (zh) * 2020-09-22 2020-12-29 常州大学 一种抗生素临床使用领域本体构建方法
CN112258135A (zh) * 2020-05-15 2021-01-22 北京沃东天骏信息技术有限公司 处方数据的审核方法、装置和计算机可读存储介质
CN112417863A (zh) * 2020-11-27 2021-02-26 中国科学院电子学研究所苏州研究院 基于预训练词向量模型与随机森林算法的中文文本分类方法
CN112700838A (zh) * 2020-12-30 2021-04-23 平安科技(深圳)有限公司 基于大数据的用药方案推荐方法、装置及相关设备
CN112802575A (zh) * 2021-04-10 2021-05-14 浙江大学 基于图形状态机的用药决策支持方法、装置、设备、介质

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
CN108231201A (zh) * 2018-01-25 2018-06-29 华中科技大学 一种疾病数据分析处理模型的构建方法、系统及应用
US20200176098A1 (en) * 2018-12-03 2020-06-04 Tempus Labs Clinical Concept Identification, Extraction, and Prediction System and Related Methods
US20200219619A1 (en) * 2018-12-20 2020-07-09 Oregon Health & Science University Subtyping heterogeneous disorders using functional random forest models
CN109920508A (zh) * 2018-12-28 2019-06-21 安徽省立医院 处方审核方法及系统
CN109766329A (zh) * 2018-12-29 2019-05-17 湖南网数科技有限公司 一种支持交换共享的临床数据单元生成方法和装置
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN109785927A (zh) * 2019-02-01 2019-05-21 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床文档结构化处理方法
US20200272919A1 (en) * 2019-02-26 2020-08-27 Flatiron Health, Inc. Prognostic score based on health information
CN110428910A (zh) * 2019-06-18 2019-11-08 浙江大学 临床用药适应症分析系统、方法、计算机设备和存储介质
CN110543832A (zh) * 2019-08-13 2019-12-06 同济大学 基于随机森林和卷积神经网络的脑电数据分类方法
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111048167A (zh) * 2019-10-31 2020-04-21 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
CN111524606A (zh) * 2020-04-24 2020-08-11 郑州大学第一附属医院 一种基于随机森林算法的肿瘤数据统计方法
CN112258135A (zh) * 2020-05-15 2021-01-22 北京沃东天骏信息技术有限公司 处方数据的审核方法、装置和计算机可读存储介质
CN112133389A (zh) * 2020-08-12 2020-12-25 福建中榕数据科技有限公司 临床辅助决策高危自动预警方法、系统、设备和介质
CN111986770A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 药方用药审核方法、装置、设备及存储介质
CN112149411A (zh) * 2020-09-22 2020-12-29 常州大学 一种抗生素临床使用领域本体构建方法
CN112417863A (zh) * 2020-11-27 2021-02-26 中国科学院电子学研究所苏州研究院 基于预训练词向量模型与随机森林算法的中文文本分类方法
CN112700838A (zh) * 2020-12-30 2021-04-23 平安科技(深圳)有限公司 基于大数据的用药方案推荐方法、装置及相关设备
CN112802575A (zh) * 2021-04-10 2021-05-14 浙江大学 基于图形状态机的用药决策支持方法、装置、设备、介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闭应洲 等: "《数据挖掘与机器学习》", 31 January 2020, 浙江科学技术出版社, pages: 6 - 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093524A (zh) * 2021-11-02 2022-02-25 深圳市儿童医院 一种儿童抗菌药物使用评估系统、计算机可读存储介质及终端
CN116230158A (zh) * 2023-03-27 2023-06-06 中国医学科学院肿瘤医院 一种疼痛评估及用药预测系统及其使用方法
CN116230158B (zh) * 2023-03-27 2024-01-26 中国医学科学院肿瘤医院 一种疼痛评估及用药预测系统及其使用方法

Similar Documents

Publication Publication Date Title
JP7008772B2 (ja) 電子診療レコードからの医学的状態および事実の自動的特定および抽出
US11810671B2 (en) System and method for providing health information
CN106919793B (zh) 一种医疗大数据的数据标准化处理方法及装置
CN109920501B (zh) 基于卷积神经网络和主动学习的电子病历分类方法及系统
Ghosh et al. Quro: facilitating user symptom check using a personalised chatbot-oriented dialogue system
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN110111887A (zh) 临床辅助决策方法及装置
US20190057773A1 (en) Method and system for performing triage
CN109378066A (zh) 一种基于特征向量实现疾病预测的控制方法及控制装置
US20200075135A1 (en) Trial planning support apparatus, trial planning support method, and storage medium
Pereira et al. ICD9-based text mining approach to children epilepsy classification
Nigam Applying deep learning to ICD-9 multi-label classification from medical records
CN113539414A (zh) 一种抗生素用药合理性预测方法及系统
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN116910172B (zh) 基于人工智能的随访量表生成方法及系统
Chandra et al. Natural language Processing and Ontology based Decision Support System for Diabetic Patients
Falissard et al. Neural translation and automated recognition of ICD-10 medical entities from natural language: Model development and performance assessment
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及系统
Pereira et al. Using text mining to diagnose and classify epilepsy in children
Rijo et al. Decision Support System to Diagnosis and Classification of Epilepsy in Children.
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Chen et al. Automatically structuring on Chinese ultrasound report of cerebrovascular diseases via natural language processing
Santos et al. Fall detection in clinical notes using language models and token classifier
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
Funkner et al. Negation Detection for Clinical Text Mining in Russian.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination