CN106650299A - 一种患者相似性分析的快速计算方法 - Google Patents
一种患者相似性分析的快速计算方法 Download PDFInfo
- Publication number
- CN106650299A CN106650299A CN201710036979.1A CN201710036979A CN106650299A CN 106650299 A CN106650299 A CN 106650299A CN 201710036979 A CN201710036979 A CN 201710036979A CN 106650299 A CN106650299 A CN 106650299A
- Authority
- CN
- China
- Prior art keywords
- patient
- value
- similar features
- similarity
- similarity analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种患者相似性分析的快速计算方法,包括:(1)将患者描述为特征向量并映射到特征空间,选择n个临床指标并制定特征值方案;(2)根据所述的特征值方案和患者数据,将所述的n个临床指标映射到特定的bit位,生成统一特征值,每个患者对应一个统一特征值;(3)对两个患者的统一特征值进行相似性运算,得到相似特征值;(4)统计所述的相似特征值中相似特征的个数m,计算所述的相似特征在整个特征空间的比例m/n,以m/n来定量评估两个患者的相似性。本发明可以大幅度降低计算量以及提高数据获取的效率,为在超大患者群体数据中实时开展相似性计算提供了基础。
Description
技术领域
本发明涉及医学领域,尤其涉及一种患者相似性分析的快速计算方法。
背景技术
经过临床试验的医学知识是目前医学实践证据的金标准。基于临床试验的临床证据最终体现在临床指南中用于指导临床实践。由于具有并发症的患者往往被排除在临床试验之外,因此临床指南对于具有并发症的患者来说是不适用的。另外基于临床试验的临床指南通常不能针对风险、治疗手段的副效应和长期预后提供有效的证据,而这些都是临床实践中医生所面临的重要问题。从过往的病人中寻找相似的患者群体可以为临床人员提供补充证据,因为这些过往的病人案例中包含了不同的治疗选择和对应的不同预后。而寻找这样的相似的患者群体就是患者相似性分析。
患者相似性表示的是具有大量临床数据属性的患者之间的距离。能够定量的描述患者之间的距离就可以聚类病人,从而可以从大量的患者群体中寻找到特定的子群体。随着临床信息化的深入,大量的电子化的临床数据被积累,患者相似性分析也逐步成为临床大数据分析的热点领域。许多患者相似度计算数学方法被提出来,最常规的一种计算是将一个患者表达为一个几何向量,各种检验指标、体征构成一个多维的特征空间。两个患者向量之间角度的余弦(cosine)值可以用来度量两个患者之间的相似性。余弦的计算公式如下:
这个余弦值为-1时表示两个向量在空间上180°对立,两个患者完全不相似;如果这个余弦值为1表示两个向量在空间上角度为0°,两个患者完全相似。为了满足这样的计算,所有的特征值需要预先归一化到[-1,1]的空间。通过计算某个目标患者和系统中所有历史患者的相似性,并通过设定阈值,可以获得一个相似患者的群体,通过观察这个群体的信息可以为临床医生提供补充的证据来决定采用什么样的治疗方案。
但是在实际临床环境中,医生往往需要实时地、动态地获取这样的支持,虽然计算两个患者的相似性计算过程并不复杂,仅需要3n次加法、3n+2次乘除法运算,在现有的中央处理器计算能力下,这些运算通常只需要几个毫秒。不过当场景切换到需要在一个数百万患者案例的库中动态计算相似性时,这个计算效率就会显得非常重要,加上需要分别获取患者的各个指标数据,这个计算所需的时间就可能需要数个小时,很难达到实时计算的要求,无法及时提供决策支持。
发明内容
针对患者相似性分析在大人群中实时计算的问题,本发明提供了一种患者相似性分析的快速计算方法,可以大幅度降低计算量以及提高数据获取的效率。
一种患者相似性分析的快速计算方法,包括:
(1)将患者描述为特征向量并映射到特征空间,选择n个临床指标并制定特征值方案,将所述的n个临床指标映射到特定的bit位;
(2)根据所述的特征值方案和患者数据,将所述的n个临床指标映射到特定的bit位,生成统一特征值,每个患者对应一个统一特征值;
(3)对两个患者的统一特征值进行相似性运算,得到相似特征值;
(4)统计所述的相似特征值中相似特征的个数m,计算所述的相似特征在整个特征空间的比例m/n,以m/n来定量评估两个患者的相似性。
由于每个bit位的取值只能是1和0,因此需要将临床指标定义为布尔值,也就是将所有的临床指标都转换为是否正常来表示。
所述的临床指标为布尔类型的指标时,将该临床指标直接映射到统一特征值的特定bit位。
所述的临床指标为连续性数值的指标时,将该临床指标转换为布尔类型后映射到统一特征值的特定bit位。
作为优选,将连续性数值的指标转换为布尔类型的方法为:制定一个正常值范围,将落入正常值范围的指标设为0,将超出正常值范围的指标设为1。
所述的统一特征值为n bit位的正整数,所述的n为临床指标的个数。
作为优选,步骤(3)中,所述的相似特征值的计算方法为:将两个患者n bit位的统一特征值进行异或(XOR)运算。
作为优选,步骤(4)中,统计所述的相似特征值中相似特征的个数m的方法为:利用若干次循环与(AND)位运算来计算相似特征值中bit位为1(特征指标不同)的个数(n-m)。n减去相似特征值中bit位为1的个数即为相似特征的个数m。
与现有技术相比,本发明的有益效果为:
(1)本发明仅需要1次异或(XOR)位运算得到相似特征值,仅需要(n-m)次与(AND)和加法计算统计相似特征值的各个bit位为1的个数,计算机处理位运算的速度远快于乘除计算,采用本发明所描述的计算过程仅需要采用余弦计算大约5%的计算时间;
(2)本发明采用了统一特征值的方式,以一个统一特征值字段来保存患者的所有特征指标信息,相比传统的多个字段分别对应不同的特征指标,在数据存取效率上也会有大幅度的提升;
(3)本发明在内存空间的使用上也会大大降低,每个患者的数据特征仅通过一个n位的长整数来表达,相比之前每个患者对应n个浮点数值的特征向量要节省很多;
(4)本发明为在超大患者群体数据中实时开展相似性计算提供了基础。
附图说明
图1为本发明患者相似性分析的快速计算方法的流程示意图;
图2为相似特征值的计算方法示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
如图1所示,本发明患者相似性分析的快速计算方法实施时,首先针对患者相似性分析场景定义特征向量空间,针对100万个患者,选择64个临床指标,并制定一个统一的特征值方案,将64个临床指标分别映射到特定的bit位,得到一个64位的统一特征值。
对于天然的布尔类型的临床指标,比如定性的实验室结果(阴性/阳性)或临床症状是否出现等临床指标可以直接映射到统一特征值的特定位;对于连续性数值的临床指标,需要制定一个正常值范围,对于落入正常值范围的设为0,超出正常值范围的设为1。
如图2所示,根据上述制定的特征值方案,对于患者数量为100万的患者人群数据分别生成100万个统一特征值,这个过程类似数据库中建立索引的过程,通过提取特征值并按照制定的方案生成对应的统一特征值,每个患者对应一个统一特征值。
特定患者根据自身的数据按照同样的方案生成一个统一特征值,以这个统一特征值和患者人群中各个患者的统一特征值进行相似性计算,即通过异或(XOR)运算获得相似特征值。
通过与位运算统计相似特征值中各个bit位中1(特征指标不同)的个数获得相似特征个数m,其C#代码实现如下所示:
然后通过相似特征个数m在整个特征向量空间的比例m/64,以m/64来定量获得两个患者的相似性,这个值落在[0,1]的范围内。
通过排序可以获得前N(N的具体数值医生可以根据需要进行具体选择)个相似患者,从而可以达到患者相似性分析的目的。
上述具体实施例基于C#语言编写,使用64个特征向量空间,开展100万次的简单计算,采用余弦算法和本方法进行实际测算,两个计算过程所需的计算时间差别为19倍,即采用本发明的计算方法的计算时间是采用余弦算法进行计算时间的大约5%,大大缩短了计算时间,为在超大患者群体数据中实时开展相似性计算提供了基础。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种患者相似性分析的快速计算方法,其特征在于,包括:
(1)将患者描述为特征向量并映射到特征空间,选择n个临床指标并制定特征值方案;
(2)根据所述的特征值方案和患者数据,将所述的n个临床指标映射到特定的bit位,生成统一特征值,每个患者对应一个统一特征值;
(3)对两个患者的统一特征值进行相似性运算,得到相似特征值;
(4)统计所述的相似特征值中相似特征的个数m,计算所述的相似特征在整个特征空间的比例m/n,以m/n来定量评估两个患者的相似性。
2.根据权利要求1所述的患者相似性分析的快速计算方法,其特征在于,所述的统一特征值为n bit位的正整数,所述的n为临床指标的个数。
3.根据权利要求1所述的患者相似性分析的快速计算方法,其特征在于,所述的临床指标为布尔类型的指标时,将该临床指标直接映射到统一特征值的特定bit位。
4.根据权利要求1所述的患者相似性分析的快速计算方法,其特征在于,所述的临床指标为连续性数值的指标时,将该临床指标转换为布尔类型后映射到统一特征值的特定bit位。
5.根据权利要求4所述的患者相似性分析的快速计算方法,其特征在于,将连续性数值的指标转换为布尔类型的方法为:制定一个正常值范围,将落入正常值范围的指标设为0,将超出正常值范围的指标设为1。
6.根据权利要求1所述的患者相似性分析的快速计算方法,其特征在于,步骤(3)中,所述的相似特征值的计算方法为:将两个患者nbit位的统一特征值进行异或运算。
7.根据权利要求1所述的患者相似性分析的快速计算方法,其特征在于,步骤(4)中,统计所述的相似特征值中相似特征的个数m的方法为:利用若干次循环与位运算来计算相似特征值中bit位为1的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710036979.1A CN106650299B (zh) | 2017-01-18 | 2017-01-18 | 一种患者相似性分析的快速计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710036979.1A CN106650299B (zh) | 2017-01-18 | 2017-01-18 | 一种患者相似性分析的快速计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106650299A true CN106650299A (zh) | 2017-05-10 |
CN106650299B CN106650299B (zh) | 2019-01-25 |
Family
ID=58840859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710036979.1A Active CN106650299B (zh) | 2017-01-18 | 2017-01-18 | 一种患者相似性分析的快速计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106650299B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463772A (zh) * | 2017-07-20 | 2017-12-12 | 广州慧扬健康科技有限公司 | 多维向量疾病谱的构建系统 |
CN110197214A (zh) * | 2019-05-22 | 2019-09-03 | 浙江大学 | 一种基于多字段相似度计算的患者身份匹配方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090024332A1 (en) * | 2001-05-01 | 2009-01-22 | Karlov Valeri I | Diagnosing inapparent diseases from common clinical tests using bayesian analysis |
CN102156812A (zh) * | 2011-04-02 | 2011-08-17 | 中国医学科学院医学信息研究所 | 基于症状相似度分析的就医辅助决策方法 |
CN103324853A (zh) * | 2013-06-25 | 2013-09-25 | 上海交通大学 | 基于医学图像特征的相似度计算系统及方法 |
CN103514283A (zh) * | 2013-09-29 | 2014-01-15 | 方正国际软件有限公司 | 疑似数据对比显示系统和方法 |
CN104915561A (zh) * | 2015-06-11 | 2015-09-16 | 万达信息股份有限公司 | 疾病特征智能匹配方法 |
CN105574351A (zh) * | 2015-12-31 | 2016-05-11 | 北京千安哲信息技术有限公司 | 医学数据处理方法 |
CN106021871A (zh) * | 2016-05-10 | 2016-10-12 | 深圳前海信息技术有限公司 | 基于大数据群体行为的疾病相似度计算方法及装置 |
-
2017
- 2017-01-18 CN CN201710036979.1A patent/CN106650299B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090024332A1 (en) * | 2001-05-01 | 2009-01-22 | Karlov Valeri I | Diagnosing inapparent diseases from common clinical tests using bayesian analysis |
CN102156812A (zh) * | 2011-04-02 | 2011-08-17 | 中国医学科学院医学信息研究所 | 基于症状相似度分析的就医辅助决策方法 |
CN103324853A (zh) * | 2013-06-25 | 2013-09-25 | 上海交通大学 | 基于医学图像特征的相似度计算系统及方法 |
CN103514283A (zh) * | 2013-09-29 | 2014-01-15 | 方正国际软件有限公司 | 疑似数据对比显示系统和方法 |
CN104915561A (zh) * | 2015-06-11 | 2015-09-16 | 万达信息股份有限公司 | 疾病特征智能匹配方法 |
CN105574351A (zh) * | 2015-12-31 | 2016-05-11 | 北京千安哲信息技术有限公司 | 医学数据处理方法 |
CN106021871A (zh) * | 2016-05-10 | 2016-10-12 | 深圳前海信息技术有限公司 | 基于大数据群体行为的疾病相似度计算方法及装置 |
Non-Patent Citations (1)
Title |
---|
冯亚宁等: "一种基于MeSH主题词的临床-组学关系挖掘方法", 《技术与方法》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463772A (zh) * | 2017-07-20 | 2017-12-12 | 广州慧扬健康科技有限公司 | 多维向量疾病谱的构建系统 |
CN107463772B (zh) * | 2017-07-20 | 2020-12-18 | 广州慧扬健康科技有限公司 | 多维向量疾病谱的构建系统 |
CN110197214A (zh) * | 2019-05-22 | 2019-09-03 | 浙江大学 | 一种基于多字段相似度计算的患者身份匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106650299B (zh) | 2019-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105184103A (zh) | 基于病历数据库的虚拟名医 | |
CN108920893B (zh) | 一种基于人工智能的颅颌面骨骼和软组织形态预测方法 | |
CN104766259A (zh) | 一种基于单病种模型的医疗临床质量监测与评价系统 | |
Livingston | The mean and standard deviation: what does it all mean? | |
Williams et al. | Modelling the HRV response to training loads in elite rugby sevens players | |
Bai et al. | Implicit multi-feature learning for dynamic time series prediction of the impact of institutions | |
CN106485086A (zh) | 基于aic和改进熵权法的人体体成分预测方法 | |
CN112435756B (zh) | 基于多数据集差异互证的肠道菌群关联疾病风险预测系统 | |
Sarasvananda et al. | The k-means clustering algorithm with semantic similarity to estimate the cost of hospitalization | |
CN106650299A (zh) | 一种患者相似性分析的快速计算方法 | |
CN115099331A (zh) | 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统 | |
Oğuz et al. | Determination of Covid-19 possible cases by using deep learning techniques | |
Yang et al. | Identification of clinical subphenotypes of sepsis after laparoscopic surgery | |
Hickey et al. | Validation of the EuroSCORE II: should we be concerned with retrospective performance? | |
Xiao et al. | Verifiability of genus-level classification under quantification and parsimony theories: a case study of follicucullid radiolarians | |
Topcu et al. | Optimization of patient-based real-time quality control based on the Youden index | |
Zhang et al. | Utility of a rule-based algorithm in the assessment of standardized reporting in PI-RADS | |
CN113642669B (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
GORE et al. | The use of elliptical Fourier analysis on orbit shape in human skeletal remains | |
Biers et al. | Alternative approaches to analyzing SWAT data | |
Han et al. | Multiscale adaptive multifractal analysis and its applications | |
Wang | Identification of cardiovascular diseases based on machine learning | |
Chen et al. | Local influence measure of zero‐inflated generalized Poisson mixture regression models | |
CN111370095A (zh) | 一种基于ic卡中医体质辨别与调理测试系统及测试方法 | |
Ogata et al. | Allometric multi-scaling of weight-for-height relation in children and adolescents: Revisiting the theoretical basis of body mass index of thinness and obesity assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |