CN111091907A - 基于相似病例库的健康医疗知识检索方法和系统 - Google Patents

基于相似病例库的健康医疗知识检索方法和系统 Download PDF

Info

Publication number
CN111091907A
CN111091907A CN201911116657.3A CN201911116657A CN111091907A CN 111091907 A CN111091907 A CN 111091907A CN 201911116657 A CN201911116657 A CN 201911116657A CN 111091907 A CN111091907 A CN 111091907A
Authority
CN
China
Prior art keywords
medical
feature
acquiring
case
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911116657.3A
Other languages
English (en)
Inventor
顾东晓
苏凯翔
王晓玉
杨雪洁
陆文星
赵树平
李鹏振
赵旺
欧阳纯萍
刘永彬
李晓玥
鲍超
丁庆秀
解玉光
苗夏雨
周晨
张波达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201911116657.3A priority Critical patent/CN111091907A/zh
Publication of CN111091907A publication Critical patent/CN111091907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供一种基于相似病例库的健康医疗知识检索方法和系统,涉及数据处理领域。本发明首先获取医疗病例数据,并对所述医疗病例数据进行预处理;再基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;基于特征权重获取Jaccard相似度;最后基于Jaccard相似度获取相似病例。本发明中的Jaccard相似度不仅考虑了两个医疗病例的公共特征,同时也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。本发明融合Jaccard算法和遗传算法,能够检索到更准确和合适的案例信息,为医院诊疗决策提供更加准确合理的知识支持。

Description

基于相似病例库的健康医疗知识检索方法和系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于相似病例库的健康医疗知识检索方法和系统。
背景技术
随着医疗信息化的进一步推进,医疗信息资源的规模也随之庞大起来,这为医疗信息资源管理的发展提出来挑战,也为辅助决策专家系统的性能改进提供了思路,例如基于案例的推理。以CBR技术为核心的案例推理系统能够有效地实现人类推理思维的模拟,成为医疗智能决策支持系统的新的发展方向。
目前常见的CBR技术为基于集成角度与距离的相似案例检索方法改进的案例推理流程。该技术方案是在医疗信息化的环境下,将角度与距离的相似度检索方法集成为一个新的相似度检索方法,并通过收集的实验数据,对该方法的实验结果与仅基于角度或距离的相似度检索方法的实验结果进行对比,验证该技术方案所用的相似度检索方法更加有效,最后提出这种基于集成角度与距离的相似案例检索方法的新的案例推理流程,利用这种改进的案例推理流程来检索相似的案例。
然而,大数据时代的来临,促使医疗类信息资源的数量出现爆发式增长,在这些大量的医疗数据中总会有利用率低,质量差,水平低下的医疗诊断信息。这些质量差、水平低的信息可能误导医生进行医疗诊断,损害诊断决策的正确性;再者,因为病毒、疾病等都在不断的进化、发展,并且这些疾病还具有可变性、演化性的特点,导致现有的相似病例的知识检索方法准确率低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于相似病例库的健康医疗知识检索方法和系统,解决了现有相似病例的知识检索方法准确率低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种基于相似病例库的健康医疗知识检索方法,所述方法由计算机执行,包括以下步骤:
S1、获取医疗病例数据,并对所述医疗病例数据进行预处理;
S2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;
S3、基于特征权重获取Jaccard相似度;
S4、基于Jaccard相似度获取相似病例。
优选的,所述医疗病例数据包括医疗案例内部特征数据、案例来源权威性数据和医生案例评价数据。
优选的,所述预处理包括标准化处理和特征选择处理。
优选的,所述标准化处理的方法包括:0-1标准化方法和最大最小值0-1标准化方法。
优选的,所述特征选择处理的方法包括:
计算每个特征的F-Score值,并根据F-Score值进行降序排序;
确定一个被选特征子集,利用SVM的分类正确率对当前特征集合进行评估;
迭代,每一次从未被选择的特征中选取一个F-Score值最大的特征加入上一阶段的待选集合中,再利用SVM对当前集合进行评价;
迭代完所有特征之后,根据SVM的分类准确率选取关键特征。
优选的,所述F-Score值计算公式包括:
Figure BDA0002274252280000031
其中:
n+为正类样本的个数,n-为负类样本的个数,
Figure BDA0002274252280000036
为第j个特征在全部医疗案例数据样本上的特征平均值;
Figure BDA0002274252280000033
为在正类样本中的特征平均值,
Figure BDA0002274252280000034
为在负类样本中的特征平均值;
Figure BDA0002274252280000035
代表的是第i个正类样本中第j个特征的特征值,
Figure BDA0002274252280000037
为第i个负类样本中第j个特征的特征值;公式中的分子表明的是正类样本和负类样本之间的差别,公式中的分母部分则表明的是每个样本类的总差别。
优选的,在S3中,所述获取Jaccard相似度的计算公式如下:
Figure BDA0002274252280000032
其中:
x和y表示向量空间中的两个医疗病例,n是向量空间的维数;
x=(a1,a2,a3,……,ai,……,an);
y=(b1,b2,b3,……,bi,……,bn);
S(x,y)表示x和y之间的相似性。
本发明还提供一种基于相似病例库的健康医疗知识检索系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取医疗病例数据,并对所述医疗病例数据进行预处理;
S2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;
S3、基于特征权重获取Jaccard相似度;
S4、基于Jaccard相似度获取相似病例。
(三)有益效果
本发明提供了一种基于相似病例库的健康医疗知识检索方法和系统。与现有技术相比,具备以下有益效果:
本发明首先获取医疗病例数据,并对所述医疗病例数据进行预处理;再基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;基于特征权重获取Jaccard相似度;最后基于Jaccard相似度获取相似病例。本发明中运用Jaccard相似度度量医疗病例之间的相似度,极大地提高信息检索的准确率。同时,本发明中不仅考虑了两个医疗病例的公共特征,而且也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。本发明融合Jaccard算法和遗传算法,能够检索到更准确和合适的案例信息,为医院诊疗决策提供更加准确合理的知识支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于相似病例库的健康医疗知识检索方法的框图;
图2为本发明实施例中的ROC曲线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于相似病例库的健康医疗知识检索方法和系统,解决了解决了现有的相似病例的知识检索方法准确率低的技术问题问题,实现提高相似病例的知识检索的准确率。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例首先获取医疗病例数据,并对医疗病例数据进行预处理;再基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;基于特征权重获取Jaccard相似度;最后基于Jaccard相似度获取相似病例。本发明实施例中运用Jaccard相似度度量医疗病例之间的相似度,极大地提高信息检索的准确率。同时,本发明实施例中的Jaccard相似度不仅考虑了两个医疗病例的公共特征,而且也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于相似病例库的健康医疗知识检索方法,该方法由计算机执行,如图1所示,包括步骤S1~S4:
S1、获取医疗病例数据,并对医疗病例数据进行预处理;
S2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;
S3、基于特征权重获取Jaccard相似度;
S4、基于Jaccard相似度获取相似病例。
本发明实施例中运用Jaccard相似度度量医疗病例之间的相似度,极大地提高信息检索的准确率。同时,本发明实施例中的不仅考虑了两个医疗病例的公共特征,而且也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。本发明实施例融合Jaccard算法和遗传算法,能够检索到更准确和合适的案例信息,为医院诊疗决策提供更加准确合理的知识支持。
下面对各个步骤进行详细描述:
在步骤S1中,获取医疗病例数据,并对所述医疗病例数据进行预处理。具体实施过程如下:
S101、获取医疗病例数据,上述医疗病例数据包括医疗案例内部特征数据、案例来源权威性数据和医生案例评价数据。
获取数据平台UCI中的数据作为医疗案例内部特征数据,在本发明实施例中,获取303条医疗案列数据,其中,有216个为CAD患者,87个为正常,每条记录共59个特征,对这59个特征进行描述。具体如下:
第一类:人口、病史特征17个,详细信息如表1所示;
第二类:症状、体检特征14个,详细信息如表2所示;
第三类:心电图特征7个,详细信息如表3所示;
第四类:化验、超声心动图特征17个,详细信息如表4所示;
第五类:血管照影特征3个,详细信息如表5所示;
第六类:CAD分类特征1个,即CAD患者和Normal患者。
此外,CAD患者的临床诊断流程为:通过血管照影技术对冠状动脉的整体变化情况进行探测,并找到病变的部位,确定病变的程度,如果患者的动脉直径狭窄程度等于或大于50%,则判定其为CAD患者,否则为正常。
表1人口统计与病史特征
Figure BDA0002274252280000071
Figure BDA0002274252280000081
表2躯体症状与体检特征
Figure BDA0002274252280000082
表3心电图ECG特征
Figure BDA0002274252280000083
Figure BDA0002274252280000091
表4血液化验与超声心动图特征
Figure BDA0002274252280000092
表5血管照影与CAD分类特征
Figure BDA0002274252280000093
S102、对医疗病例数据进行标准化处理。具有为:
在医疗病例数据当中会存在许多不同的特征,而不同的特征之间又会有不同的尺度和数值差别,因此,需要先对进行试验的医疗病例数据进行标准化处理,把医疗病例数据转化为没有单位限制的无量纲数值,这样才能对不同量纲不同类别的数据进行加权和比较分析,更加有利于实验的进行。在本发明实施例中,共选择了两种数据标准化方法,需要说明的是,在标准化处理之前,需要对每个特征进行定义赋值。
第一种方法是0-1标准化方法,主要是面向于序数型变量来进行,这个变量主要来于案例来源权威性数据和医生案例评价的信息数据,其公式如下:
Figure BDA0002274252280000101
其中:
rif为第i个对象的等级排序;Mf为所有对象的有序状态数。
第二种方法是最大最小值0-1标准化方法,主要是是面向连续型和离散型变量来进行,该变量主要来于医疗案例内部特征,其公式如下:
Figure BDA0002274252280000102
其中:
X'ij为当前特征的特征值;min{X'ij}为最小特征值;max{X'ij}为最大特征值。
S103、对经过标准化处理后的医疗病例数据进行特征选择处理。
具体实施过程如下:
S10301、计算每个特征的F-Score值,并根据F-Score值进行降序排序。F-Score值计算公式如下:
Figure BDA0002274252280000103
其中:
n+为正类样本的个数,n-为负类样本的个数,
Figure BDA0002274252280000112
为第j个特征在全部医疗案例数据样本上的特征平均值;
Figure BDA0002274252280000113
为在正类样本中的特征平均值,
Figure BDA0002274252280000116
为在负类样本中的特征平均值;
Figure BDA0002274252280000114
代表的是第i个正类样本中第j个特征的特征值,
Figure BDA0002274252280000115
为第i个负类样本中第j个特征的特征值;公式中的分子表明的是正类样本和负类样本之间的差别,公式中的分母部分则表明的是每个样本类的总差别。
S10302、确定一个被选特征子集,利用SVM的分类正确率对当前特征集合进行评估。
S10303、迭代,每一次从未被选择的特征中选取一个F-Score值最大的特征加入上一阶段的待选集合中,再利用SVM对当前集合进行评价.
S10304、迭代完所有特征之后,根据SVM的分类准确率选取关键特征。
在本发明实施例中,最终得到的22个关键特征,如表6所示。
表6关键特征
Figure BDA0002274252280000111
在步骤S2中,基于遗传算法来获取经过预处理后的医疗病例数据的特征权重。具体实施过程如下:
首先,将医疗病例数据化分为十组,每次实验只选择一组数据来作为实验组,其余剩下的九组数据作为实验对照组,该实验一共进行十次,最后十组权重取平均值;接着,进行2000次的迭代;并将适应度函数作为相似度计算方法的分类准确率。具体为:算法在开始阶段,将需要确定属性权值的数据库的数据分成两部分,即产生参考案例集REF和测试案例集TEST,ref[i]∈REF,test[j]∈TEST,i=0,,m,j=0,,n,其中ref[i]test[j]分别表示参考集和测试集中的第i、j个案例,m为参考集中的案例数,n为测试集中的案例数。一个染色体代表一个权矢量,一个染色体由多个基因组成,每个基因表示的就是单个基因项的权重。一个染色体所含的基因个数,等同于在案例集中独立特征项的个数。对于每个权矢量weight[i],找到与每个测试案例test[j]距离最近的训练案例,利用所有的测试案例与它们在参考集中最近邻的距离dist(j,k)之和作为适应度函数iter[i],并以此来评估每一个权矢量的遗传能力。最后的得到的特征权重如表7所示。
表7特征权重
Figure BDA0002274252280000121
Figure BDA0002274252280000131
在步骤S3中,基于特征权重获取Jaccard相似度。计算公式如下:
Figure BDA0002274252280000132
其中:
x和y表示向量空间中的两个医疗病例,n是向量空间的维数;
x=(a1,a2,a3,……,ai,……,an);
y=(b1,b2,b3,……,bi,……,bn);
S(x,y)表示x和y之间的相似性。
在步骤S4中,基于Jaccard相似度获取相似病例。在具体实施过程中,选择相似度排名靠前的医疗病例数据为相似案例,为医生进行病情诊断和医疗方案决策提供知识支持。
为了验证本发明实施例提供的方法的有效性,通过基于欧式距离的KNN算法和基于余弦距离的KNN算法作为对照组,和本发实施例的方法进行对比。
表8和图2为三种方法比较所得出的实验结果。较之前两种方法,本文方法总体效果略有改善,实验结果表明,本文方法具有一定的有效性。
表8评估指标结果对比
Figure BDA0002274252280000133
Figure BDA0002274252280000141
从结合评估指标、ROC曲线,本发明实施例的方法明显优于另外两种方法。
本发明实施例还提供一种基于相似病例库的健康医疗知识检索系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取医疗病例数据,并对上述医疗病例数据进行预处理;
S2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;
S3、基于特征权重获取Jaccard相似度;
S4、基于Jaccard相似度获取相似病例。
可理解的是,本发明实施例提供的上述基于相似病例库的健康医疗知识检索系统与上述基于相似病例库的健康医疗知识检索方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于相似病例库的健康医疗知识检索方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例中运用Jaccard相似度度量医疗病例之间的相似度,极大地提高信息检索的准确率。同时,本发明实施例中的不仅考虑了两个医疗病例的公共特征,而且也考虑了二者各自的特殊特征,提高了相似病例的知识检索的准确率。本发明实施例融合Jaccard算法和遗传算法,能够检索到更准确和合适的案例信息,为医院诊疗决策提供更加准确合理的知识支持。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于相似病例库的健康医疗知识检索方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取医疗病例数据,并对所述医疗病例数据进行预处理;
S2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;
S3、基于特征权重获取Jaccard相似度;
S4、基于Jaccard相似度获取相似病例。
2.如权利要求1所述的基于相似病例库的健康医疗知识检索方法,其特征在于,所述医疗病例数据包括医疗案例内部特征数据、案例来源权威性数据和医生案例评价数据。
3.如权利要求1所述的基于相似病例库的健康医疗知识检索方法,其特征在于,所述预处理包括标准化处理和特征选择处理。
4.如权利要求3所述的基于相似病例库的健康医疗知识检索方法,其特征在于,所述标准化处理的方法包括:0-1标准化方法和最大最小值0-1标准化方法。
5.如权利要求3所述的基于相似病例库的健康医疗知识检索方法,其特征在于,所述特征选择处理的方法包括:
计算每个特征的F-Score值,并根据F-Score值进行降序排序;
确定一个被选特征子集,利用SVM的分类正确率对当前特征集合进行评估;
迭代,每一次从未被选择的特征中选取一个F-Score值最大的特征加入上一阶段的待选集合中,再利用SVM对当前集合进行评价;
迭代完所有特征之后,根据SVM的分类准确率选取关键特征。
6.如权利要求5所述的基于相似病例库的健康医疗知识检索方法,其特征在于,所述F-Score值计算公式包括:
Figure FDA0002274252270000021
其中:
n+为正类样本的个数,n-为负类样本的个数,
Figure FDA0002274252270000022
为第j个特征在全部医疗案例数据样本上的特征平均值;
Figure FDA0002274252270000023
为在正类样本中的特征平均值,
Figure FDA0002274252270000024
为在负类样本中的特征平均值;
Figure FDA0002274252270000025
代表的是第i个正类样本中第j个特征的特征值,
Figure FDA0002274252270000026
为第i个负类样本中第j个特征的特征值;公式中的分子表明的是正类样本和负类样本之间的差别,公式中的分母部分则表明的是每个样本类的总差别。
7.如权利要求1所述的基于相似病例库的健康医疗知识检索方法,其特征在于,在S3中,所述获取Jaccard相似度的计算公式如下:
Figure FDA0002274252270000027
其中:
x和y表示向量空间中的两个医疗病例,n是向量空间的维数;
x=(a1,a2,a3,……,ai,……,an);
y=(b1,b2,b3,……,bi,……,bn);
S(x,y)表示x和y之间的相似性。
8.一种基于相似病例库的健康医疗知识检索系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取医疗病例数据,并对所述医疗病例数据进行预处理;
S2、基于遗传算法来获取经过预处理后的医疗病例数据的特征权重;
S3、基于特征权重获取Jaccard相似度;
S4、基于Jaccard相似度获取相似病例。
CN201911116657.3A 2019-11-15 2019-11-15 基于相似病例库的健康医疗知识检索方法和系统 Pending CN111091907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911116657.3A CN111091907A (zh) 2019-11-15 2019-11-15 基于相似病例库的健康医疗知识检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911116657.3A CN111091907A (zh) 2019-11-15 2019-11-15 基于相似病例库的健康医疗知识检索方法和系统

Publications (1)

Publication Number Publication Date
CN111091907A true CN111091907A (zh) 2020-05-01

Family

ID=70393676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911116657.3A Pending CN111091907A (zh) 2019-11-15 2019-11-15 基于相似病例库的健康医疗知识检索方法和系统

Country Status (1)

Country Link
CN (1) CN111091907A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755076A (zh) * 2020-07-01 2020-10-09 北京小白世纪网络科技有限公司 基于空间可分离性的利用基因检测的疾病预测方法及系统
CN111950285A (zh) * 2020-07-31 2020-11-17 合肥工业大学 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN112786201A (zh) * 2021-01-24 2021-05-11 武汉东湖大数据交易中心股份有限公司 一种基于手部形态认知的健康预测模型的构建方法及装置
CN112885460A (zh) * 2021-02-10 2021-06-01 暨南大学 基于案例推理的感冒证型评判方法、计算机装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041779A1 (en) * 2009-04-15 2012-02-16 Koninklijke Philips Electronics N.V. Clinical decision support systems and methods
US20180365591A1 (en) * 2017-06-19 2018-12-20 International Business Machines Corporation Assessment result determination based on predictive analytics or machine learning
CN109785928A (zh) * 2018-12-25 2019-05-21 平安科技(深圳)有限公司 诊疗方案推荐方法、装置及存储介质
CN109935337A (zh) * 2019-02-25 2019-06-25 长沙学院 一种基于相似性度量的病案查找方法及系统
CN110322968A (zh) * 2019-06-24 2019-10-11 北京科技大学 一种疾病类别医学数据的特征选择方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041779A1 (en) * 2009-04-15 2012-02-16 Koninklijke Philips Electronics N.V. Clinical decision support systems and methods
US20180365591A1 (en) * 2017-06-19 2018-12-20 International Business Machines Corporation Assessment result determination based on predictive analytics or machine learning
CN109785928A (zh) * 2018-12-25 2019-05-21 平安科技(深圳)有限公司 诊疗方案推荐方法、装置及存储介质
CN109935337A (zh) * 2019-02-25 2019-06-25 长沙学院 一种基于相似性度量的病案查找方法及系统
CN110322968A (zh) * 2019-06-24 2019-10-11 北京科技大学 一种疾病类别医学数据的特征选择方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
杨辉等: "基于医疗大数据平台的相似病历检索系统", 《东南国防医药》 *
武璠菲: "牙齿正畸病例相似性分析方法研究及应用", 《中国优秀博硕士学位论文全文数据库(硕士) 医药卫生科技辑》 *
王观玉 等: "案例系统特征权值优化算法的仿真研究", 《计算机工程与应用》 *
秦彩杰 等: "一种基于F-Score的特征选择方法", 《宜宾学院学报》 *
贾峥等: "基于电子病历的患者相似性分析综述", 《中国生物医学工程学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755076A (zh) * 2020-07-01 2020-10-09 北京小白世纪网络科技有限公司 基于空间可分离性的利用基因检测的疾病预测方法及系统
CN111950285A (zh) * 2020-07-31 2020-11-17 合肥工业大学 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN111950285B (zh) * 2020-07-31 2024-01-23 合肥工业大学 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN112786201A (zh) * 2021-01-24 2021-05-11 武汉东湖大数据交易中心股份有限公司 一种基于手部形态认知的健康预测模型的构建方法及装置
CN112885460A (zh) * 2021-02-10 2021-06-01 暨南大学 基于案例推理的感冒证型评判方法、计算机装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Bashir et al. BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting
Anbarasi et al. Enhanced prediction of heart disease with feature subset selection using genetic algorithm
CN111091907A (zh) 基于相似病例库的健康医疗知识检索方法和系统
Himes et al. Prediction of chronic obstructive pulmonary disease (COPD) in asthma patients using electronic medical records
Chatterjee et al. Clinical application of modified bag-of-features coupled with hybrid neural-based classifier in dengue fever classification using gene expression data
Padula et al. Machine learning methods in health economics and outcomes research—the PALISADE checklist: a good practices report of an ISPOR task force
US20220084633A1 (en) Systems and methods for automatically identifying a candidate patient for enrollment in a clinical trial
CN109935337B (zh) 一种基于相似性度量的病案查找方法及系统
US20210104330A1 (en) Systems and methods for generating a genotypic causal model of a disease state
US11798681B2 (en) Machine learning systems for training encoder and decoder neural networks
CN113539460A (zh) 用于远程医疗平台的智能导诊方法和装置
US11170898B2 (en) Methods and systems for prioritizing user symptom complaint inputs
CN110957046B (zh) 医疗健康案例知识匹配方法和系统
Alaria et al. Design Simulation and Assessment of Prediction of Mortality in Intensive Care Unit Using Intelligent Algorithms
CN109997201A (zh) 针对多种医学知识模块的利用数据驱动方法的精确临床决策支持
Noroozi et al. Analyzing the impact of feature selection methods on machine learning algorithms for heart disease prediction
US11537888B2 (en) Systems and methods for predicting pain level
Huang et al. Study on patient similarity measurement based on electronic medical records
Kennedy et al. Development of an ensemble machine learning prognostic model to predict 60-day risk of major adverse cardiac events in adults with chest pain
AU2021102593A4 (en) A Method for Detection of a Disease
Oliullah et al. Analyzing the effectiveness of several machine learning methods for heart attack prediction
Vinutha et al. EPCA—enhanced principal component analysis for medical data dimensionality reduction
Irene et al. Improved deep convolutional neural network-based COOT optimization for multimodal disease risk prediction
Huda Design of istitaah classification system based on machine learning using imbalanced dataset
Sivakami et al. A Comparative Review of Recent Data Mining Techniques for Prediction of Cardiovascular Disease from Electronic Health Records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501

RJ01 Rejection of invention patent application after publication