CN106650299B - 一种患者相似性分析的快速计算方法 - Google Patents

一种患者相似性分析的快速计算方法 Download PDF

Info

Publication number
CN106650299B
CN106650299B CN201710036979.1A CN201710036979A CN106650299B CN 106650299 B CN106650299 B CN 106650299B CN 201710036979 A CN201710036979 A CN 201710036979A CN 106650299 B CN106650299 B CN 106650299B
Authority
CN
China
Prior art keywords
value
patient
similar features
bit
uniform characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710036979.1A
Other languages
English (en)
Other versions
CN106650299A (zh
Inventor
李昊旻
段会龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710036979.1A priority Critical patent/CN106650299B/zh
Publication of CN106650299A publication Critical patent/CN106650299A/zh
Application granted granted Critical
Publication of CN106650299B publication Critical patent/CN106650299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种患者相似性分析的快速计算方法,包括:(1)将患者描述为特征向量并映射到特征空间,选择n个临床指标并制定特征值方案;(2)根据所述的特征值方案和患者数据,将所述的n个临床指标映射到特定的bit位,生成统一特征值,每个患者对应一个统一特征值;(3)对两个患者的统一特征值进行相似性运算,得到相似特征值;(4)统计所述的相似特征值中相似特征的个数m,计算所述的相似特征在整个特征空间的比例m/n,以m/n来定量评估两个患者的相似性。本发明可以大幅度降低计算量以及提高数据获取的效率,为在超大患者群体数据中实时开展相似性计算提供了基础。

Description

一种患者相似性分析的快速计算方法
技术领域
本发明涉及医学领域,尤其涉及一种患者相似性分析的快速计算方法。
背景技术
经过临床试验的医学知识是目前医学实践证据的金标准。基于临床试验的临床证据最终体现在临床指南中用于指导临床实践。由于具有并发症的患者往往被排除在临床试验之外,因此临床指南对于具有并发症的患者来说是不适用的。另外基于临床试验的临床指南通常不能针对风险、治疗手段的副效应和长期预后提供有效的证据,而这些都是临床实践中医生所面临的重要问题。从过往的病人中寻找相似的患者群体可以为临床人员提供补充证据,因为这些过往的病人案例中包含了不同的治疗选择和对应的不同预后。而寻找这样的相似的患者群体就是患者相似性分析。
患者相似性表示的是具有大量临床数据属性的患者之间的距离。能够定量的描述患者之间的距离就可以聚类病人,从而可以从大量的患者群体中寻找到特定的子群体。随着临床信息化的深入,大量的电子化的临床数据被积累,患者相似性分析也逐步成为临床大数据分析的热点领域。许多患者相似度计算数学方法被提出来,最常规的一种计算是将一个患者表达为一个几何向量,各种检验指标、体征构成一个多维的特征空间。两个患者向量之间角度的余弦(cosine)值可以用来度量两个患者之间的相似性。余弦的计算公式如下:
这个余弦值为-1时表示两个向量在空间上180°对立,两个患者完全不相似;如果这个余弦值为1表示两个向量在空间上角度为0°,两个患者完全相似。为了满足这样的计算,所有的特征值需要预先归一化到[-1,1]的空间。通过计算某个目标患者和系统中所有历史患者的相似性,并通过设定阈值,可以获得一个相似患者的群体,通过观察这个群体的信息可以为临床医生提供补充的证据来决定采用什么样的治疗方案。
但是在实际临床环境中,医生往往需要实时地、动态地获取这样的支持,虽然计算两个患者的相似性计算过程并不复杂,仅需要3n次加法、3n+2次乘除法运算,在现有的中央处理器计算能力下,这些运算通常只需要几个毫秒。不过当场景切换到需要在一个数百万患者案例的库中动态计算相似性时,这个计算效率就会显得非常重要,加上需要分别获取患者的各个指标数据,这个计算所需的时间就可能需要数个小时,很难达到实时计算的要求,无法及时提供决策支持。
发明内容
针对患者相似性分析在大人群中实时计算的问题,本发明提供了一种患者相似性分析的快速计算方法,可以大幅度降低计算量以及提高数据获取的效率。
一种患者相似性分析的快速计算方法,包括:
(1)将患者描述为特征向量并映射到特征空间,选择n个临床指标并制定特征值方案,将所述的n个临床指标映射到特定的bit位;
(2)根据所述的特征值方案和患者数据,将所述的n个临床指标映射到特定的bit位,生成统一特征值,每个患者对应一个统一特征值;
(3)对两个患者的统一特征值进行相似性运算,得到相似特征值;
(4)统计所述的相似特征值中相似特征的个数m,计算所述的相似特征在整个特征空间的比例m/n,以m/n来定量评估两个患者的相似性。
由于每个bit位的取值只能是1和0,因此需要将临床指标定义为布尔值,也就是将所有的临床指标都转换为是否正常来表示。
所述的临床指标为布尔类型的指标时,将该临床指标直接映射到统一特征值的特定bit位。
所述的临床指标为连续性数值的指标时,将该临床指标转换为布尔类型后映射到统一特征值的特定bit位。
作为优选,将连续性数值的指标转换为布尔类型的方法为:制定一个正常值范围,将落入正常值范围的指标设为0,将超出正常值范围的指标设为1。
所述的统一特征值为n个bit位的正整数,所述的n为临床指标的个数。
作为优选,步骤(3)中,所述的相似特征值的计算方法为:将两个患者n个bit位的统一特征值进行异或(XOR)运算。
作为优选,步骤(4)中,统计所述的相似特征值中相似特征的个数m的方法为:利用若干次循环与(AND)位运算来计算相似特征值中bit位为1(特征指标不同)的个数(n-m)。n减去相似特征值中bit位为1的个数即为相似特征的个数m。
与现有技术相比,本发明的有益效果为:
(1)本发明仅需要1次异或(XOR)位运算得到相似特征值,仅需要(n-m)次与(AND)和加法计算统计相似特征值的各个bit位为1的个数,计算机处理位运算的速度远快于乘除计算,采用本发明所描述的计算过程仅需要采用余弦计算大约5%的计算时间;
(2)本发明采用了统一特征值的方式,以一个统一特征值字段来保存患者的所有特征指标信息,相比传统的多个字段分别对应不同的特征指标,在数据存取效率上也会有大幅度的提升;
(3)本发明在内存空间的使用上也会大大降低,每个患者的数据特征仅通过一个n位的长整数来表达,相比之前每个患者对应n个浮点数值的特征向量要节省很多;
(4)本发明为在超大患者群体数据中实时开展相似性计算提供了基础。
附图说明
图1为本发明患者相似性分析的快速计算方法的流程示意图;
图2为相似特征值的计算方法示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
如图1所示,本发明患者相似性分析的快速计算方法实施时,首先针对患者相似性分析场景定义特征向量空间,针对100万个患者,选择64个临床指标,并制定一个统一的特征值方案,将64个临床指标分别映射到特定的bit位,得到一个64位的统一特征值。
对于天然的布尔类型的临床指标,比如定性的实验室结果(阴性/阳性)或临床症状是否出现等临床指标可以直接映射到统一特征值的特定位;对于连续性数值的临床指标,需要制定一个正常值范围,对于落入正常值范围的设为0,超出正常值范围的设为1。
如图2所示,根据上述制定的特征值方案,对于患者数量为100万的患者人群数据分别生成100万个统一特征值,这个过程类似数据库中建立索引的过程,通过提取特征值并按照制定的方案生成对应的统一特征值,每个患者对应一个统一特征值。
特定患者根据自身的数据按照同样的方案生成一个统一特征值,以这个统一特征值和患者人群中各个患者的统一特征值进行相似性计算,即通过异或(XOR)运算获得相似特征值。
通过与位运算统计相似特征值中各个bit位中1(特征指标不同)的个数获得相似特征个数m,其C#代码实现如下所示:
然后通过相似特征个数m在整个特征向量空间的比例m/64,以m/64来定量获得两个患者的相似性,这个值落在[0,1]的范围内。
通过排序可以获得前N(N的具体数值医生可以根据需要进行具体选择)个相似患者,从而可以达到患者相似性分析的目的。
上述具体实施例基于C#语言编写,使用64个特征向量空间,开展100万次的简单计算,采用余弦算法和本方法进行实际测算,两个计算过程所需的计算时间差别为19倍,即采用本发明的计算方法的计算时间是采用余弦算法进行计算时间的大约5%,大大缩短了计算时间,为在超大患者群体数据中实时开展相似性计算提供了基础。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种患者相似性分析的快速计算方法,其特征在于,包括:
(1)将患者描述为特征向量并映射到特征空间,选择n个临床指标并制定特征值方案;
(2)根据所述的特征值方案和患者数据,将所述的n个临床指标映射到特定的bit位,生成统一特征值,每个患者对应一个统一特征值;
所述的临床指标为布尔类型的指标时,将该临床指标直接映射到统一特征值的特定bit位;
所述的临床指标为连续性数值的指标时,将该临床指标转换为布尔类型后映射到统一特征值的特定bit位;
(3)对两个患者的统一特征值进行异或运算,得到相似特征值;
(4)统计所述的相似特征值中相似特征的个数m,计算所述的相似特征在整个特征空间的比例m/n,以m/n来定量评估两个患者的相似性。
2.根据权利要求1所述的患者相似性分析的快速计算方法,其特征在于,所述的统一特征值为n个bit位的正整数,所述的n为临床指标的个数。
3.根据权利要求1所述的患者相似性分析的快速计算方法,其特征在于,将连续性数值的指标转换为布尔类型的方法为:制定一个正常值范围,将落入正常值范围的指标设为0,将超出正常值范围的指标设为1。
4.根据权利要求1所述的患者相似性分析的快速计算方法,其特征在于,步骤(4)中,统计所述的相似特征值中相似特征的个数m的方法为:利用若干次循环与位运算来计算相似特征值中bit位为1的个数。
CN201710036979.1A 2017-01-18 2017-01-18 一种患者相似性分析的快速计算方法 Active CN106650299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710036979.1A CN106650299B (zh) 2017-01-18 2017-01-18 一种患者相似性分析的快速计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710036979.1A CN106650299B (zh) 2017-01-18 2017-01-18 一种患者相似性分析的快速计算方法

Publications (2)

Publication Number Publication Date
CN106650299A CN106650299A (zh) 2017-05-10
CN106650299B true CN106650299B (zh) 2019-01-25

Family

ID=58840859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710036979.1A Active CN106650299B (zh) 2017-01-18 2017-01-18 一种患者相似性分析的快速计算方法

Country Status (1)

Country Link
CN (1) CN106650299B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463772B (zh) * 2017-07-20 2020-12-18 广州慧扬健康科技有限公司 多维向量疾病谱的构建系统
CN110197214A (zh) * 2019-05-22 2019-09-03 浙江大学 一种基于多字段相似度计算的患者身份匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574351A (zh) * 2015-12-31 2016-05-11 北京千安哲信息技术有限公司 医学数据处理方法
CN106021871A (zh) * 2016-05-10 2016-10-12 深圳前海信息技术有限公司 基于大数据群体行为的疾病相似度计算方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392199B2 (en) * 2001-05-01 2008-06-24 Quest Diagnostics Investments Incorporated Diagnosing inapparent diseases from common clinical tests using Bayesian analysis
CN102156812A (zh) * 2011-04-02 2011-08-17 中国医学科学院医学信息研究所 基于症状相似度分析的就医辅助决策方法
CN103324853A (zh) * 2013-06-25 2013-09-25 上海交通大学 基于医学图像特征的相似度计算系统及方法
CN103514283A (zh) * 2013-09-29 2014-01-15 方正国际软件有限公司 疑似数据对比显示系统和方法
CN104915561B (zh) * 2015-06-11 2018-10-16 万达信息股份有限公司 疾病特征智能匹配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574351A (zh) * 2015-12-31 2016-05-11 北京千安哲信息技术有限公司 医学数据处理方法
CN106021871A (zh) * 2016-05-10 2016-10-12 深圳前海信息技术有限公司 基于大数据群体行为的疾病相似度计算方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于MeSH主题词的临床-组学关系挖掘方法;冯亚宁等;《技术与方法》;20151231;第770-779页

Also Published As

Publication number Publication date
CN106650299A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
Lele et al. On comparing biological shapes: detection of influential landmarks
CN105431089A (zh) 根据肝脏扫描确定肝功能的系统和方法
CN106650299B (zh) 一种患者相似性分析的快速计算方法
Bouman et al. Homogeneity of Beck's Depression Inventory (BDI): Applying Rasch analysis in conceptual exploration
Araújo et al. TPmsm: Estimation of the transition probabilities in 3-state models
Fu et al. An automated estimator for Cobb angle measurement using multi-task networks
Yu et al. Anatomy-guided weakly-supervised abnormality localization in chest x-rays
Banerjee et al. “Shortcuts” causing bias in radiology artificial intelligence: causes, evaluation and mitigation.
Birrell et al. Estimating trends in incidence, time-to-diagnosis and undiagnosed prevalence using a CD4-based Bayesian back-calculation
Oğuz et al. Determination of Covid-19 possible cases by using deep learning techniques
CN112420211B (zh) 未知传染病的预警方法、装置、电子设备及计算机介质
Hickey et al. Validation of the EuroSCORE II: should we be concerned with retrospective performance?
Ji et al. A plagiarism detection technique for Java program using bytecode analysis
Sun et al. Exploring gender disparities in time to diagnosis
Streit et al. 3D parallel coordinate systems—A new data visualization method in the context of microscopy‐based multicolor tissue cytometry
Acklin et al. Statistical power in Rorschach research
Hatam et al. Equity analysis of hospital beds distribution in Shiraz, Iran 2014
Balboa et al. Estimation of transition probabilities for the illness-death model: Package TP. idm
Wu et al. Preserving institutional privacy in distributed binary logistic regression
CN113642669B (zh) 基于特征分析的防欺诈检测方法、装置、设备及存储介质
Topcu et al. Optimization of patient-based real-time quality control based on the Youden index
Zhang et al. A comparison of logistic regression, random forest models in predicting the risk of diabetes
CN113610415A (zh) 一种核磁设备综合评价方法及系统
Scutaru et al. Density-equalizing mapping and scientometric benchmarking in Industrial Health
Ghasemi et al. Analysis of the Survival of Breast Cancer Patients Using Weibull and Poisson Beta-Weibull Non-Mixture Cure Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant