CN110164559A - 一种基于电子病历数据的肺结核患者预警系统 - Google Patents
一种基于电子病历数据的肺结核患者预警系统 Download PDFInfo
- Publication number
- CN110164559A CN110164559A CN201910349364.3A CN201910349364A CN110164559A CN 110164559 A CN110164559 A CN 110164559A CN 201910349364 A CN201910349364 A CN 201910349364A CN 110164559 A CN110164559 A CN 110164559A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- sample
- lunger
- early
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000036541 health Effects 0.000 title claims abstract description 24
- 238000003745 diagnosis Methods 0.000 claims abstract description 39
- 208000008128 pulmonary tuberculosis Diseases 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 230000010365 information processing Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 12
- 230000000241 respiratory effect Effects 0.000 claims description 11
- 238000007689 inspection Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000004148 unit process Methods 0.000 claims description 7
- 201000010099 disease Diseases 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000000586 desensitisation Methods 0.000 claims description 5
- 238000010187 selection method Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 210000002345 respiratory system Anatomy 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 claims 1
- 201000008827 tuberculosis Diseases 0.000 abstract description 6
- 238000009412 basement excavation Methods 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 238000000547 structure data Methods 0.000 abstract 1
- 241000193830 Bacillus <bacterium> Species 0.000 description 5
- 206010036790 Productive cough Diseases 0.000 description 4
- 208000024794 sputum Diseases 0.000 description 4
- 210000003802 sputum Anatomy 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 238000012258 culturing Methods 0.000 description 2
- 238000012631 diagnostic technique Methods 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 208000023504 respiratory system disease Diseases 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 241000187479 Mycobacterium tuberculosis Species 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 208000037386 Typhoid Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 201000008297 typhoid fever Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种基于电子病历数据的肺结核患者预警系统,本发明能够对难以确诊的早期肺结核和不典型肺结核患者进行自动化发掘和预警,为医生提供确诊依据,从而降低肺结核患者的误诊率。其优点在于:首先,该方法不仅能够从电子病历数据中挖掘结构化数据信息,还能纳入非结构化数据信息进行模型学习,对肺结核患病信息进行全面学习。然后,能够自动化辅助呼吸科医生对难以确诊的肺结核患者进行判断,更加及时的进行进一步诊治。最后,该方法以电子病历数据为基础,便于在不同医疗机构推广使用。
Description
技术领域
本发明涉及一种基于电子病历数据的肺结核患者预警系统,属于疾病预警系统技术领域。
背景技术
肺结核是一种结核分枝杆菌引起的慢性肺部传染病。据中国卫生部统计,当前我国肺结核患者数量约450万,其中传染性肺结核病人约150万人。肺结核因其传染性强,危害性大,治疗成本高,至今仍然是严重危害社会的一个公共卫生问题,也是当今全世界要严加控制的传染病之一。
然而,当前研究对结核杆菌的致病机制尚不清楚,依靠现有诊断技术较难对早期肺结核及不典型肺结核患者进行精确确诊,造成肺结核病例的大量漏诊和延误治疗,不仅使患者错过最佳的治疗时机,更会导致病菌在密接人群中进一步扩散。当前,对肺结核进行诊断的手段主要包括痰结核菌检查、X线胸片检查、临床症状诊断、痰培养等,但是这几种常用手段均存在各自的缺点,痰结核菌检查容易受到其他杂杆菌影响,X线胸片检查对初感染及没有出现明显肺部病灶的患者无法诊断,临床症状诊断对临床症状不明显的患者没有意义,痰培养耗费时间长亦容易受到杂杆菌结果的影响。由于诊断技术的不完善,部分早期肺结核及不典型肺结核病例经常被误诊为肺炎、普通呼吸道疾病、伤寒等疾病,往往在病情加重后才得以确诊,给患者带来极大的危害。
近年来,随着患者电子病历系统的普及和完善,能够从系统中获取海量的肺结核等其他呼吸疾病数据信息,从而能够借助大数据和人工智能手段对肺结核患者进行早期预警,从而重点关注和诊治。
发明内容
本发明的目的是提供一种肺结核的预警系统,能够对难以确诊的早期肺结核和不典型肺结核患者进行自动化发掘和预警,为医生提供确诊依据,从而降低肺结核患者的误诊率。
为了达到上述目的,本发明的技术方案是提供了一种基于电子病历数据的肺结核患者预警系统,其特征在于,包括:
数据信息采集单元,用于从电子病历数据库中采集呼吸内科患者信息数据后构建呼吸内科患者信息数据库;
患者数据筛选及人群划分单元,用于对呼吸内科患者信息数据库中的数据进行患者数据划分和样本采集,其中:
患者数据划分:根据大疫情肺结核确诊的个人基本信息关联患者前一段时间内的所有就诊信息,取得门诊诊断信息、实验室检查信息和影像信息,并合并同一次就诊的多次诊断信息,生成肺结核患者信息表;以呼吸系统相关疾病的诊断ICD编码为筛选条件,取得门诊诊断信息、实验室检查信息和影像信息,并合并同一次就诊的多次诊断信息,生成非肺结核病患者信息表;
样本采集:从肺结核患者信息表和非肺结核病患者信息表中分别随机抽取m个患者的数据信息,两者合并作为样本集;分别为样本集中的肺结核患者样本和非肺结核病患者标准不同的类别标签;
结构化数据信息处理单元,用于对样本的结构化数据进行数据预处理、无关字段删除和特征选择后保留nfeature个特征,其中,进行特征选择时,结构化数据信息处理单元使用皮尔逊相关系数特征筛选法对所有字段进行特征选择,通过该方式删除部分字段特征;
非结构化数据信息处理单元,用于对样本的非结构化文本数据进行无关字段删除、字段合并、分词、去除无关字符和词向量计算后得到所有出现次数大于K的词汇的m维词向量;
预警模型,根据预警模型输出的类别标签判断样本是否为肺结核患者,该预警模型包括非结构化数据对应的卷积神经网络、结构化数据对应的多层感知器及分类网络,分类网络的输入为卷积神经网络与多层感知器输出组合,分类网络包括一个隐含层和一个输出层,输出层激活函数采用softmax函数,将经过结构化数据信息处理单元处理的样本集后保留的nfeature个特征及经过非结构化数据信息处理单元处理的样本集后得到的nmax个词汇的m维词向量输入预警模型,对预警模型进行训练,利用训练后的预警模型对经过结构化数据信息处理单元及非结构化数据信息处理单元处理的样本进行判断。
优选地,所述数据信息采集单元采集的呼吸内科患者信息数据包括患者脱敏基础信息、门诊信息、实验室检查信息、影像检查信息。
优选地,所述数据信息采集单元将采集到的数据信息分别以数据表的形式存入基础信息数据库。
优选地,所述结构化数据信息处理单元对样本集中样本的结构化数据进行数据预处理包括以下步骤:将字符串类型数据转换为数值型数据;对部分连续数值型数据进行分层,转换为分类数据;对缺失值使用数字”-1”进行填补;
所述结构化数据信息处理单元对样本集中样本的结构化数据进行无关字段删除包括以下步骤:删除不含有分类信息的字段;删除缺失比例超过某一比例α的字段。
优选地,所述皮尔逊相关系数特征筛选法的具体步骤为:
(a)计算每个字段特征与目标值之间相关系数,得到每个特征的相关系数值P(y,xj):
其中,y表示第y个类别标签值;xj表示第j个特征;xij表示第i个样本的第j个特征值;yi表示第i个样本的类别标签值;表示第j个特征的均值;表示所有类别标签的均值;
(b)设定相关系数阈值β,0.01<β<0.1,若P(y,xj)>β,则保留该特征xj,否则删除该特征xj。
优选地,所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行无关字段删除包括以下步骤:
删除包含诊断结论的字段;删除与肺结核疾病完全无关的字段;
所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行字段合并包括以下步骤:
将经过删除的剩余的多个非结构化文本字段进行合并,即依照前后顺序拼接为一个长文本字段;
所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行分词包括以下步骤:
使用自然语言处理中文分词方法,对长文本字段进行分词,将长文本切分为多个词汇;
所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行去除无关字符包括以下步骤:
针对所有得到的词汇,去除所有除汉字、英文字母、阿拉伯数字在外的其他文字或者符号;
所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行词向量计算包括以下步骤:
使用CBOW模型或Skip-Gram模型对所有出现次数大于K的词汇进行训练,得到所有词汇的m维词向量。
优选地,所述非结构化数据对应的卷积神经网络包括一个输入层、一个包含48个卷积核的卷积层、一个池化层、两个Dropout层、一个隐含层和一个输出层,激活函数采用ReLu函数,输出层节点个数为8;
所述结构化数据对应的多层感知器包括一个输入层、两个隐含层、一个Dropout层和一个输出层,激活函数采用sigmod函数,输出节点个数为2。
优选地,在对所述预警模型进行训练时,先将样本集按照7:3的比例划分为训练集和测试集,利用所述结构化数据信息处理单元及所述非结构化数据信息处理单元对训练集和测试集进行处理,使用处理后的训练集数据对所述预警模型进行训练,然后使用测试集数据进行模型测试,若测试准确率达到既定准确率,则保存该模型,反之,则加大样本集中样本的个数,对所述预警模型重新进行训练,直到准确率满足条件后保存模型。
优选地,在对所述预警模型进行训练时,采用交叉熵函数作为损失函数,通过随机梯度下降算法训练整个预警模型。
本发明提供了一种基于电子病历数据的肺结核患者预警系统,能够对难以确诊的早期肺结核和不典型肺结核患者进行自动化发掘和预警,为医生提供确诊依据,从而降低肺结核患者的误诊率。其优点在于:首先,该方法不仅能够从电子病历数据中挖掘结构化数据信息,还能纳入非结构化数据信息进行模型学习,对肺结核患病信息进行全面学习。然后,能够自动化辅助呼吸科医生对难以确诊的肺结核患者进行判断,更加及时的进行进一步诊治。最后,该方法以电子病历数据为基础,便于在不同医疗机构推广使用。
附图说明
图1为本发明提供的系统框图;
图2为预警模型的结构图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
在该具体实施例中,以某医疗机构为例,采用该医院的电子病历数据库作为原始数据源,实施本发明提供的肺结核患者预警系统,具体包括以下部分:
1、数据信息采集单元:从该医疗机构电子病历数据库中采集呼吸内科患者信息数据,包括患者脱敏基础信息、门诊信息、实验室检查信息、影像检查信息,构建呼吸内科患者信息数据库,将上述四种数据信息分别以数据表的形式存入基础信息数据库。其中,患者脱敏基础信息包括脱敏姓名、性别、民族、年龄、职业、婚姻状况、血型、是否为肺结核密接人群等字段信息。门诊信息包括就诊日期、发病日期、医疗机构代码、诊断ICD编码、诊断ICD名称、简要病史等字段信息。实验室检查信息包括实验室报告时间、检验项目编码、检验项目中文名称、检验结果、结果状态等字段信息。影像检查信息包括影像送检日期、检查项目、诊断表现、诊断结论等字段信息。通过数据信息采集单元构建了呼吸内科患者信息数据库,数据库包括患者脱敏基础信息表、门诊信息表、实验室检查信息表、影像检查信息表。
2、患者数据筛选及人群划分单元:对呼吸内科患者信息数据库中的数据进行患者数据划分和样本采集,通过本单元获取肺结核患者和非肺结核患者的结构化数据和非结构化数据以及患者类别标签。在一次样本采集过程中,得到肺结核患者和非肺结核患者样本个数均为1000。
(1)患者数据划分:根据大疫情肺结核确诊的个人基本信息关联患者前一个月内的所有就诊信息,取得门诊诊断信息、实验室检查信息和影像信息,并合并同一次就诊的多次诊断信息,生成肺结核患者信息表。以呼吸系统相关疾病的诊断ICD编码为筛选条件,取得门诊诊断信息、实验室检查信息和影像信息,并合并同一次就诊的多次诊断信息,生成非肺结核病患者信息表。
(2)样本采集:从肺结核患者信息表和非肺结核病患者信息表中分别随机抽取m个患者的数据信息,两者合并作为样本集。分别将肺结核患者样本和非肺结核病患者标记为1和0,组成类别标签。
3、结构化数据信息处理单元:针对样本中的结构化数据进行数据预处理、无关字段删除和特征选择。通过该步骤,设定相关系数阈值为0.05,得到125个特征,部分特征及其相关系数值如表1所示,因此该步骤输出1000*125的结构化数据集。
表1结构化数据处理所保留特征
(1)数据预处理:将字符串类型数据转换为数值型数据;对部分连续数值型数据进行分层,转换为分类数据;对缺失值使用数字”-1”进行填补。
(2)无关字段删除:删除不含有分类信息的字段,包括病案号码、患者住址、民族等字段;删除缺失比例超过某一比例α的字段。
(3)特征选择:使用皮尔逊相关系数特征筛选法对所有字段进行特征选择,通过该方式删除部分字段特征。皮尔逊相关系数特征筛选法的具体步骤为:
(a)计算每个字段特征与目标值之间相关系数,得到每个特征的相关系数值P(y,xj):
其中,y表示第y个类别标签值;xj表示第j个特征;xij表示第i个样本的第j个特征值;yi表示第i个样本的类别标签值;表示第j个特征的均值;表示所有类别标签的均值;
(b)设定相关系数阈值β,0.01<β<0.1,若P(y,xj)>β,则保留该特征xj,否则删除该特征xj。
4、非结构化数据信息处理单元:针对样本中的非结构化文本数据,进行无关字段删除、字段合并、分词、去除无关字符和词向量计算。在分词过程中,将每个词转化为100维词向量,最终得到1000*256*100的数据集,其中,256为最大单词个数。
(1)无关字段删除:删除诊断ICD编码、诊断ICD名称等包含诊断结论的字段、删除与肺结核疾病完全无关的字段。
(2)字段合并:将剩余的多个非结构化文本字段进行合并,即依照前后顺序拼接为一个长文本字段。
(3)分词:使用自然语言处理中文分词方法,对长文本字段进行分词,将长文本切分为多个词汇。
(4)去除无关字符:针对所有得到的词汇,去除所有除汉字、英文字母、阿拉伯数字在外的其他文字或者符号。
(5)词向量计算:使用CBOW模型或Skip-Gram模型对所有出现次数大于K的词汇进行训练,得到所有词汇的m维词向量。
预警模型:构建肺结核患者的预警模型,包括模型输入结构、模型网络结构、模型输出结构、模型初始化参数和模型训练方法。其中,模型整体结构如图2所示,第1部分为非结构化数据对应的卷积神经网络,第2部分为结构化数据对应的多层感知器,第3部分为分类网络。非结构化数据对应的卷积神经网络的输入尺寸为:256*100,结构化数据对应的神经网络的输入尺寸为125。第1部包括一个输入层、一个包含48个卷积核的卷积层、一个池化层、两个Dropout层、一个隐含层和一个输出层,激活函数采用ReLu函数,输出层节点个数为8。第2部分包括一个输入层、两个隐含层、一个Dropout层和一个输出层,激活函数采用sigmod函数,输出节点个数为2。第3部分输入为第1部分与第2部分输出组合,有10个节点,该网络还包括一个隐含层和一个输出层,输出层激活函数采用softmax函数。3部分连接在一起,构成一个神经网络,采用交叉熵函数作为损失函数,通过随机梯度下降算法训练整个网络,设定每批训练样本个数为10,最大迭代次数为1000。
模型输出结构:输出层节点个数为2。针对n个样本,模型的输出Y是一个n×2的矩阵,设 表示样本i的模型预测结果,yi0表示预测样本i未患肺结核的概率值,yi1表示预测样本i患肺结核的概率值,若yi0>yi1,则输出0,认为该样本没有患肺结核,反之则输出1,认为该样本为肺结核患者
模型训练时设定预测准确率阈值P0为90%,将样本集按照7:3的比例划分为训练集和测试集,对数据利用结构化数据信息处理单元和非结构化数据信息处理单元进行预处理后,使用训练集数据对预警模型进行训练,然后使用测试集数据进行模型测试,结果显示测试集准确率为95.3%,因此保存该模型。
对10例新增疑似肺结核患者,利用结构化数据信息处理单元和非结构化数据信息处理单元处理其数据信息,得到与训练样本一致的数据格式输入预警模型,计算输出结果,输出样本的预警信息如表2所示。
表2预警结果
Claims (9)
1.一种基于电子病历数据的肺结核患者预警系统,其特征在于,包括:
数据信息采集单元,用于从电子病历数据库中采集呼吸内科患者信息数据后构建呼吸内科患者信息数据库;
患者数据筛选及人群划分单元,用于对呼吸内科患者信息数据库中的数据进行患者数据划分和样本采集,其中:
患者数据划分:根据大疫情肺结核确诊的个人基本信息关联患者前一段时间内的所有就诊信息,取得门诊诊断信息、实验室检查信息和影像信息,并合并同一次就诊的多次诊断信息,生成肺结核患者信息表;以呼吸系统相关疾病的诊断ICD编码为筛选条件,取得门诊诊断信息、实验室检查信息和影像信息,并合并同一次就诊的多次诊断信息,生成非肺结核病患者信息表;
样本采集:从肺结核患者信息表和非肺结核病患者信息表中分别随机抽取m个患者的数据信息,两者合并作为样本集;分别为样本集中的肺结核患者样本和非肺结核病患者标准不同的类别标签;
结构化数据信息处理单元,用于对样本的结构化数据进行数据预处理、无关字段删除和特征选择后保留nfeature个特征,其中,进行特征选择时,结构化数据信息处理单元使用皮尔逊相关系数特征筛选法对所有字段进行特征选择,通过该方式删除部分字段特征;
非结构化数据信息处理单元,用于对样本的非结构化文本数据进行无关字段删除、字段合并、分词、去除无关字符和词向量计算后得到所有出现次数大于K的词汇的m维词向量;
预警模型,根据预警模型输出的类别标签判断样本是否为肺结核患者,该预警模型包括非结构化数据对应的卷积神经网络、结构化数据对应的多层感知器及分类网络,分类网络的输入为卷积神经网络与多层感知器输出组合,分类网络包括一个隐含层和一个输出层,输出层激活函数采用softmax函数,将经过结构化数据信息处理单元处理的样本集后保留的nfeature个特征及经过非结构化数据信息处理单元处理的样本集后得到的nmax个词汇的m维词向量输入预警模型,对预警模型进行训练,利用训练后的预警模型对经过结构化数据信息处理单元及非结构化数据信息处理单元处理的样本进行判断。
2.如权利要求1所述的一种基于电子病历数据的肺结核患者预警系统,其特征在于,所述数据信息采集单元采集的呼吸内科患者信息数据包括患者脱敏基础信息、门诊信息、实验室检查信息、影像检查信息。
3.如权利要求1所述的一种基于电子病历数据的肺结核患者预警系统,其特征在于,所述数据信息采集单元将采集到的数据信息分别以数据表的形式存入基础信息数据库。
4.如权利要求1所述的一种基于电子病历数据的肺结核患者预警系统,其特征在于,所述结构化数据信息处理单元对样本集中样本的结构化数据进行数据预处理包括以下步骤:将字符串类型数据转换为数值型数据;对部分连续数值型数据进行分层,转换为分类数据;对缺失值使用数字”-1”进行填补;
所述结构化数据信息处理单元对样本集中样本的结构化数据进行无关字段删除包括以下步骤:删除不含有分类信息的字段;删除缺失比例超过某一比例α的字段。
5.如权利要求1所述的一种基于电子病历数据的肺结核患者预警系统,其特征在于,所述皮尔逊相关系数特征筛选法的具体步骤为:
(a)计算每个字段特征与目标值之间相关系数,得到每个特征的相关系数值P(y,xj):
其中,y表示第y个类别标签值;xj表示第j个特征;xij表示第i个样本的第j个特征值;yi表示第i个样本的类别标签值;表示第j个特征的均值;表示所有类别标签的均值;
(b)设定相关系数阈值β,0.01<β<0.1,若P(y,xj)>β,则保留该特征xj,否则删除该特征xj。
6.如权利要求1所述的一种基于电子病历数据的肺结核患者预警系统,其特征在于,所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行无关字段删除包括以下步骤:
删除包含诊断结论的字段;删除与肺结核疾病完全无关的字段;
所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行字段合并包括以下步骤:
将经过删除的剩余的多个非结构化文本字段进行合并,即依照前后顺序拼接为一个长文本字段;
所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行分词包括以下步骤:
使用自然语言处理中文分词方法,对长文本字段进行分词,将长文本切分为多个词汇;
所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行去除无关字符包括以下步骤:
针对所有得到的词汇,去除所有除汉字、英文字母、阿拉伯数字在外的其他文字或者符号;
所述非结构化数据信息处理单元对样本集中样本的非结构化文本数据进行词向量计算包括以下步骤:
使用CBOW模型或Skip-Gram模型对所有出现次数大于K的词汇进行训练,得到所有词汇的m维词向量。
7.如权利要求1所述的一种基于电子病历数据的肺结核患者预警系统,其特征在于,所述非结构化数据对应的卷积神经网络包括一个输入层、一个包含48个卷积核的卷积层、一个池化层、两个Dropout层、一个隐含层和一个输出层,激活函数采用ReLu函数,输出层节点个数为8;
所述结构化数据对应的多层感知器包括一个输入层、两个隐含层、一个Dropout层和一个输出层,激活函数采用sigmod函数,输出节点个数为2。
8.如权利要求1所述的一种基于电子病历数据的肺结核患者预警系统,其特征在于,在对所述预警模型进行训练时,先将样本集按照7:3的比例划分为训练集和测试集,利用所述结构化数据信息处理单元及所述非结构化数据信息处理单元对训练集和测试集进行处理,使用处理后的训练集数据对所述预警模型进行训练,然后使用测试集数据进行模型测试,若测试准确率达到既定准确率,则保存该模型,反之,则加大样本集中样本的个数,对所述预警模型重新进行训练,直到准确率满足条件后保存模型。
9.如权利要求8所述的一种基于电子病历数据的肺结核患者预警系统,其特征在于,在对所述预警模型进行训练时,采用交叉熵函数作为损失函数,通过随机梯度下降算法训练整个预警模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910349364.3A CN110164559A (zh) | 2019-04-28 | 2019-04-28 | 一种基于电子病历数据的肺结核患者预警系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910349364.3A CN110164559A (zh) | 2019-04-28 | 2019-04-28 | 一种基于电子病历数据的肺结核患者预警系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110164559A true CN110164559A (zh) | 2019-08-23 |
Family
ID=67638776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910349364.3A Pending CN110164559A (zh) | 2019-04-28 | 2019-04-28 | 一种基于电子病历数据的肺结核患者预警系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110164559A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968741A (zh) * | 2020-07-15 | 2020-11-20 | 华南理工大学 | 基于深度学习与集成学习的糖尿病并发症高危预警系统 |
CN112884695A (zh) * | 2019-11-29 | 2021-06-01 | 天津大学 | 一种基于深度学习模型融合架构的结核胸片机器判读方法 |
CN113113152A (zh) * | 2021-04-13 | 2021-07-13 | 上海市疾病预防控制中心 | 针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、系统、装置、处理器及其存储介质 |
CN117059283A (zh) * | 2023-08-15 | 2023-11-14 | 宁波市鄞州区疾病预防控制中心 | 一种基于肺结核预警的语音数据库分类和处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257129A (zh) * | 2018-01-30 | 2018-07-06 | 浙江大学 | 基于多模态检测网络的宫颈活检区域辅助识别方法及装置 |
CN108670285A (zh) * | 2018-06-05 | 2018-10-19 | 胡晓云 | 一种ct肺结核检测人工智能诊疗系统 |
CN109036571A (zh) * | 2014-12-08 | 2018-12-18 | 20/20基因系统股份有限公司 | 用于预测患有癌症的可能性或风险的方法和机器学习系统 |
CN109448854A (zh) * | 2018-09-14 | 2019-03-08 | 慧影医疗科技(北京)有限公司 | 一种肺结核检测模型的构建方法及应用 |
CN109493976A (zh) * | 2018-12-20 | 2019-03-19 | 广州天鹏计算机科技有限公司 | 基于卷积神经网络模型的慢性病复发预测方法和装置 |
CN109671507A (zh) * | 2018-12-24 | 2019-04-23 | 万达信息股份有限公司 | 一种基于电子健康档案的产科专病关联指标挖掘方法 |
-
2019
- 2019-04-28 CN CN201910349364.3A patent/CN110164559A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036571A (zh) * | 2014-12-08 | 2018-12-18 | 20/20基因系统股份有限公司 | 用于预测患有癌症的可能性或风险的方法和机器学习系统 |
CN108257129A (zh) * | 2018-01-30 | 2018-07-06 | 浙江大学 | 基于多模态检测网络的宫颈活检区域辅助识别方法及装置 |
CN108670285A (zh) * | 2018-06-05 | 2018-10-19 | 胡晓云 | 一种ct肺结核检测人工智能诊疗系统 |
CN109448854A (zh) * | 2018-09-14 | 2019-03-08 | 慧影医疗科技(北京)有限公司 | 一种肺结核检测模型的构建方法及应用 |
CN109493976A (zh) * | 2018-12-20 | 2019-03-19 | 广州天鹏计算机科技有限公司 | 基于卷积神经网络模型的慢性病复发预测方法和装置 |
CN109671507A (zh) * | 2018-12-24 | 2019-04-23 | 万达信息股份有限公司 | 一种基于电子健康档案的产科专病关联指标挖掘方法 |
Non-Patent Citations (1)
Title |
---|
谢新洲: "《竞争情报进展 2014版》", vol. 978, 华中科技大学出版社, pages: 299 - 301 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884695A (zh) * | 2019-11-29 | 2021-06-01 | 天津大学 | 一种基于深度学习模型融合架构的结核胸片机器判读方法 |
CN111968741A (zh) * | 2020-07-15 | 2020-11-20 | 华南理工大学 | 基于深度学习与集成学习的糖尿病并发症高危预警系统 |
CN111968741B (zh) * | 2020-07-15 | 2023-07-18 | 华南理工大学 | 基于深度学习与集成学习的糖尿病并发症高危预警系统 |
CN113113152A (zh) * | 2021-04-13 | 2021-07-13 | 上海市疾病预防控制中心 | 针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、系统、装置、处理器及其存储介质 |
CN117059283A (zh) * | 2023-08-15 | 2023-11-14 | 宁波市鄞州区疾病预防控制中心 | 一种基于肺结核预警的语音数据库分类和处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rasheed et al. | A survey on artificial intelligence approaches in supporting frontline workers and decision makers for the COVID-19 pandemic | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN110164559A (zh) | 一种基于电子病历数据的肺结核患者预警系统 | |
Khobahi et al. | Coronet: A deep network architecture for semi-supervised task-based identification of covid-19 from chest x-ray images | |
CN113241135B (zh) | 一种基于多模态融合的疾病风险预测方法和系统 | |
CN109935336B (zh) | 一种儿童呼吸科疾病的智能辅助诊断系统 | |
Ravi et al. | A multichannel EfficientNet deep learning-based stacking ensemble approach for lung disease detection using chest X-ray images | |
CN110600121B (zh) | 一种基于知识图谱病因初步诊断方法 | |
Tharsanee et al. | Deep convolutional neural network–based image classification for COVID-19 diagnosis | |
CN108346474A (zh) | 基于单词的类内分布与类间分布的电子病历特征选择方法 | |
CN111248913B (zh) | 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质 | |
Abdulkareem et al. | Predicting COVID-19 based on environmental factors with machine learning | |
Gürsoy et al. | An overview of deep learning techniques for COVID-19 detection: methods, challenges, and future works | |
Alshahrni et al. | An intelligent deep convolutional network based COVID-19 detection from chest X-rays | |
Shan et al. | COVID‐19 patient diagnosis and treatment data mining algorithm based on association rules | |
Ouf et al. | The Role of Machine Learning to Fight COVID-19. | |
Sudharson et al. | Performance analysis of enhanced adaboost framework in multifacet medical dataset | |
Mudiyanselage et al. | Covid-19 detection from chest X-ray and patient metadata using graph convolutional neural networks | |
Al Duhayyim et al. | An Ensemble Machine Learning Technique for Stroke Prognosis. | |
Devi et al. | A Diagnostic Study on Prediction of COVID-19 by Symptoms Using Machine Learning | |
Kolli et al. | An Accurate Swine Flu Prediction and Early Prediction Using Data Mining Technique | |
Abu-Dalbouh et al. | Predictive data mining rule-based classifiers model for novel coronavirus (COVID-19) infected patients’ recovery in the Kingdom of Saudi Arabia | |
Sreedevi et al. | RespoBot: Chatbot used for the prediction of diseases using Machine Learning and Deep Learning with respect to Covid-19 | |
Hammoud et al. | Multimodal early septic shock prediction model using lasso regression with decaying response | |
Singh et al. | Coronavirus Pandemic: A Review of Different Machine Learning Approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |