CN110689964A

CN110689964A - 一种健康数据样例搜索方法及系统

Info

Publication number: CN110689964A
Application number: CN201910861745.XA
Authority: CN
Inventors: 缪国静; 温晓岳; 秦浪; 章步镐; 罗鹏
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-01-14
Anticipated expiration: 2039-09-12
Also published as: CN110689964B

Abstract

本发明提出了一种健康数据样例搜索方法及系统，通过多层次聚类和高维特征索引，构建健康数据样例索引；按照构建的健康数据样例索引搜索，展示数据库内与待搜索健康数据样例最接近的健康数据样例。本发明对大量的健康数据样例进行小规模的高维特征索引，搜索效率高且维护成本低；兼顾了健康数据样例预先固定的搜素规则又考虑了其他可能性的搜素规则，减少数据特征选择和搜索规则设置带来的搜索局限性。

Description

一种健康数据样例搜索方法及系统

技术领域

本发明涉及健康数据搜索领域，具体涉及一种健康数据样例搜索方法及系统。

背景技术

随着HIS医院信息系统、PACS医学影像系统、LIS实验室(检验科)信息系统、RIS放射信息管理系统、EMR电子病历系统等信息系统在医疗领域的普及，形成了覆盖个人完整生命周期的医疗健康大数据。

一份健康数据样例可能包含大量结构化数据和文本、视频、图像、声音等非结构化数据。健康数据样例呈现了高维数据特点：1)难以直观理解和展示；2)数据结构复杂且数量庞大；3)随着数据维度的增加，数据样本之间的相关性度量越来越困难；4)不同维度的数据价值评估存在巨大挑战。在医疗健康大数据环境下，如何实现快速高效的健康数据样例搜索成为难题。

目前，健康数据样例搜索可采用的方法：(1)利用相似性度量，将待搜索样例和数据库样例按序一一比对，这种方法在大规模数据时，计算比对耗时巨大，搜索效率低；(2)建立高维特征索引，将数据库样例映射到不同的高维空间，根据索引将待搜索样例匹配到最接近的高维空间，这种方法在遇到新增数据库样例时，需调整高维索引，在大规模数据下，索引的维护成本较高。

健康数据样例是非常复杂的，难以用数字化的特征描述完全描述。上述两种方法都依赖预先固定的相似性度量规则或索引规则，在搜索后的展示也通常遵循了预先固定的规则，少了其他可能性的健康数据样例展示。

发明内容

为了克服上述背景技术介绍中存在的不足，本发明的目的在于提供一种健康数据样例搜索方法及系统，克服现有方法中搜索效率低、索引维护成本高、依赖既定规则搜索及展示等问题。

实现本发明目的的技术解决方案如下：

一种健康数据样例搜索方法，包括：

健康数据样例采集及预处理，并存储于数据库；

对健康数据样例进行多层次聚类，最后一个层次的聚类中的健康数据样例数据集采用高维特征索引，构建健康数据样例索引；

输入待搜索健康数据样例，按照健康数据样例索引搜索，展示数据库内最接近的健康数据样例。

进一步，健康数据样例由结构化数据或非结构化数据或两者组合构成；健康数据样例预处理，包括：将非结构化数据转化为结构化数据；数据清洗、匹配，数据特征提取、筛选；以多个数据特征表征健康数据样例并对其进行降维处理。

进一步，降维处理，可采用方法：

对特征X的数据集进行聚类，获得聚类Z，训练后获得聚类器I；

利用机器学习算法，特征X降维后获得特征X’，经过聚类器II，获得聚类Z’，比较聚类Z和聚类Z’，根据比较结果，利用强化学习算法，优化最终确定学习器II、聚类器II；

利用学习器II、聚类器II对特征X的健康数据样例进行降维处理，获得特征X’的健康数据样例。

进一步，数据特征可以采用原始数据，也可以根据需求采用处理过的数据特征，包括压缩后的特征，或加权后的特征，或排序后的特征，或增加隐性特征后的特征，或其他处理后的特征。

进一步，多层次聚类，采用多个聚类器对健康数据样例进行聚类，形成多层级健康数据样例数据集，不同层级的聚类器按照需求选择确定。

进一步，构建健康数据样例索引，还包括健康数据样例索引更新，当新存入数据库的健康数据样例达到设定阈值时，按多层次聚类加入到最后一个层次的聚类，并更新该聚类中的健康数据样例数据集的高维特征索引；或对最后一个层次的聚类中的健康数据样例数据集进一步聚类，重新建立新聚类中的高维特征索引。

进一步，按照健康数据样例索引搜索，包括待搜索健康数据样例按多层次聚类，定位到最后一个层次的聚类，按高维特征索引，定位到最接近的数据库健康数据样例。

进一步，数据库内最接近的健康数据样例，包括定位层中索引位置附近的一个或多个健康数据样例。

进一步，数据库内最接近的健康数据样例，还包括根据待搜索健康数据样例与定位层中索引位置附近的多个健康数据样例的相似度量值，或定位层聚类中数据库健康数据样例数据分布特点，或两者组合，映射到其他末层聚类，按该聚类中高维特征索引定位到与待搜索健康数据样例最接近的一个或多个数据库健康数据样例。

一种健康数据样例搜索系统，包括数据采集及预处理模块、健康数据样例索引模块、搜索交互模块、数据库模块；其中，

数据采集及预处理模块，用于采集健康数据样例并预处理；

健康数据样例索引模块，用于通过多层次聚类和高维特征索引，对数据库中的健康数据样例构建健康数据样例索引，并保持更新；

搜索交互模块，用于健康数据样例搜索，输入待搜索健康数据样例，按照构建的健康数据样例索引搜索，展示数据库内最接近的健康数据样例；

数据库模块，用于存储健康数据样例和健康数据样例索引。

本发明与现有技术相比，其显著优点包括：(1)对大量的数据库样例进行小规模的高维特征索引，搜索效率高且高维特征索引维护成本低。(2)兼顾了健康数据样例预先固定的搜素规则又考虑了其他可能性的搜素规则，减少数据特征选择和搜索规则设置带来的搜索局限性。

附图说明

图1为本发明的方法流程图。

图2为本发明实施例采用的降维方法框图。

图3为本发明实施例采用的多层次聚类示意图。

图4为本发明实施例采用的高维特征索引示意图。

图5为本发明实施例样例搜索的示意图。

图6为本发明的系统结构图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而非全部实施方式。基于本发明中的实施方式，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

一份健康数据样例可能包含大量结构化数据和文本、视频、图像、声音等非结构化数据。数据来源如：HIS医院信息系统、PACS医学影像系统、LIS实验室(检验科)信息系统、RIS放射信息管理系统、EMR电子病历系统等信息系统、医院设备管理系统、医疗卫生系统、挂号系统、居民健康档案系统等。数据类型如：医学影像数据(MRI、CT、PET、SPECT、X射线等)；辐射剂量；检验科数据(血红蛋白、胆固醇等)；患者数据(年龄、性别、种族、吸烟等)；就医环境数据；疾病数据(糖尿病、高血压等)；用药和药物反应数据；手术数据；心电数据；心肺回音数据等等。

将非结构化数据转化为结构化数据，经过数据清洗、匹配，数据特征提取、筛选等，以多个数据特征表征健康数据样例。本发明适用于多个数据特征表征健康数据样例的搜索及展示。有限的实施例阐释不应作为对本发明的限定。

在一个实施例中，健康数据样例为：肺结节CT图像及图像报告。用4大类数据特征表征，数据格式：<图像采集特征，被摄对象特征，图像特征，文本特征>，<H,G,P,Q>，数据特征可以采用原始数据，或是压缩后的特征，或是加权后的特征，或是排序后的特征，或是增加隐性特征后的特征，或是其他处理后的特征。可以理解这4类数据的位置不应作为对本发明的限定。

显影剂的服用量标准、设备参数设置等因素会造成影像灰度的差别。不同设备厂商提供的影像设备可能有所差别，不同医院在影像生成中采用的标准可能不一致。将影响图像采集的因素进行提取，如：采集的设备、采集的时间、采集的环境等，构建图像采集特征H＝(h₁,h₂,...,h_nh)；

将与患者相关的数据进行提取，如：年龄、性别、血压、医学检查数据、医生诊断数据等，构建被摄对象特征G＝(g₁,g₂,...,g_ng)；

利用图像特征提取方法，提取图像特征如：灰度值特征、形状特征、纹理特征、梯度空间分布特征等，构建图像特征P＝(p₁,p₂,...,p_np)；

利用文本特征提取方法，提取图像报告中的文本特征：如肺结节尺寸、结节类型、肺癌风险等，构建文本特征Q＝(q₁,q₂,...,q_nq)。

不同的数据特征数据形式可能是离散的也可能是连续的，取值范围大小差异明显。如性别只有男、女两种离散的数值，图像特征中的形状特征可能有多个维度如质心、面积、周长、离心率等，每个维度取值范围不等，如一个维度取值范围0～2.37E+15，另一个维度可能取值范围0～3.62E+40。

健康数据样例呈现了高维数据特点：1)难以直观理解和展示；2)数据结构复杂且数量庞大；3)随着数据维度的增加，数据样本之间的相关性度量越来越困难；4)不同维度的数据价值评估存在巨大挑战。

1、数据特征采集及预处理

根据<图像采集特征，被摄对象特征，图像特征，文本特征>自身的特点，分别进行预处理。可采用的方法：连续数值离散化；对数值进行加权处理；利用特征变换、神经网络等方法在原特征的基础上提取隐形特征；利用主成分分析PCA、奇异值分解SVD等方法对特征进行降维处理。

参照图2，本发明采用一种基于特征聚类特点的降维方法。包括步骤：

1.1)对特征X的数据集(数据库的一部分数据)进行聚类，获得聚类Z，训练后获得聚类器I；

1.2)利用机器学习(如：受限玻尔兹曼机)，特征X降维后获得特征X’，经过聚类器II，获得聚类Z’，比较聚类Z和聚类Z’，根据比较结果，强化学习(如：Q-learning算法)，优化最终确定学习器II、聚类器II。

1.3)利用学习器II、聚类器II对数据库数据样例进行降维处理，获得特征X’的数据库。

2、数据库健康数据样例索引

利用多个聚类器将样例进行多层次的聚类，最后一个层次的聚类中的样例数据集采用高维特征索引，当有新的健康数据样例加入数据库时，按多层次聚类加入到最后一个层次的聚类，并更新该聚类中的样例数据集的高维特征索引；或对最后一个层次的聚类中的样例数据集进一步聚类，重新建立新聚类中的高维特征索引。

聚类器可采用如：Kmeans聚类器、基于层次聚类器、基于密度聚类器等。

一个实施例中，采用Kmeans聚类器，3层聚类。

参照图3，整个数据集作为一级数据集S，利用一级聚类器A，聚类成2类二级数据集

分别对这2类二级数据集聚类，利用二级聚类器

二级数据集

经二级聚类器

后，获得2类三级数据集

二级数据集经二级聚类器

后，获得2类三级数据集

当有一个新的数据存入时，经过一级聚类器A，寻找到最接近的二级数据集，经过二级聚类器，寻找到最接近的三级数据集进行存放。

当新存入的数据达到一定量时，可以视情况更新聚类器。也可以对三级数据集进一步聚类，如：三级数据集

经三级聚类器

获得2类四级数据集

数据集S上角标3对应到四级数据集，下角标(2,1,1)对应到经一级聚类器A、二级聚类器

三级聚类器

之后的第1个四级数据集。可以理解聚类2类不应作为对本发明的限定。

高维特征索引可采用如R-tree、K-D-B-tree、SAM索引等。

一个实施例中，采用KD树索引。

KD树的节点结构如下：

(data，judge，ptr_father，ptr_lefichild，ptr_rightchild)；

KD树具有以下属性：

(1)数据存在每一个节点中。

(2)不存在数据重叠的情况。由于利用超平面对点数据进行划分，数据存在面积的概念，因此不存在重叠。因此，效率至少不会低于顺序检索。

参照图4，对三级数据集

中的数据样例建立KD树索引。特征X＝(X₁,X₂,…)

l₁左边都是特征X₁低于45，l₁右边都是特征X₁高于45；l₂下方都是特征X₁低于45且特征x2低于50的，l₂上方都是特征x1低于45且特征x2高于50的，后面以此类推。

3、健康数据样例搜索

输入待搜索样例r0，按多层次聚类，定位到最后一个层次的聚类，按高维特征索引，定位到最接近的数据库样例。

参照图5，经过多层次聚类后，定位到三级数据集

该数据集里数据库样例高维特征索引，父节点r1的左子节点为r2、右子节点为r3，按高维特特征索引，定位到r8为最接近的数据库样例。

4、健康数据库样例展示

展示最接近的数据库样例，可选择：

1)定位层中索引位置附近的多个数据库样例，如：定位到r8为最接近的数据库样例，选择r8附近的r4、r9、r2、r5数据样例进行展示。

2)计算待搜索样例与定位层中索引位置附近的多个数据库样例的相似度量值，将其映射到其他末层聚类，按该聚类中高维特征索引定位到与待搜索样例最接近的数据库样例。

相似度度量方法：余弦、欧几里得距离等，sim<r0,r8>表示待搜索样例r0与数据库样例r8的相似度量值。计算待搜索样例与定位层中索引位置附近的多个数据样例的相似度量值，sim<r0,r8>、sim<r0,r4>、sim<r0,r9>、sim<r0,r2>、sim<r0,r5>。可选择性调整定位层中索引位置附近的多个数据样例的数量。可以理解展示样例的数量不应作为对本发明的限定。

映射关系建立方法，其核心思想在于评估待搜索样例与定位层中已选择的数据库样例之间的相似度量值的分布特点，根据该分布特点选择其他末层聚类。如：

2.1)比较各个相似度量值之间的差距，如：dis(8,4)＝sim<r0,r8>-sim<r0,r4>，取平均差距值dis_avg，差距可取值范围[dis_min,dis_max]，取平均差距值对应差距可取值范围的位置，如：lo_avg＝(dis_avg-dis_min)/(dis_max-dis_min)，对应不同层次不同位置的数据集，如：lo_avg在[0,0.1]范围时，对应到同一聚类下的数据集此时表示r4、r9、r2、r5数据样例和r0数据样例高度相似，小概率的去展示别的聚类下的数据样例。lo_avg在[0.8,0.9]范围时，对应到同一聚类下的数据集不同聚类下的数据集此时表示r4、r9、r2、r5数据样例和r0数据样例相似程度有较大的差距，需要较大概率的去展示别的聚类下的数据样例。

2.2)比较各个相似度量值之间的差距，如：dis(8,4)＝sim<r0,r8>-sim<r0,r4>，和预先设定的<差距区间，聚类选择策略>进行比对，对应到不同层次不同位置的数据集。如：dis(8,4)、dis(8,9)都在差距区间[dis_mi1,dis_ma1]范围内，对应到同一聚类下的数据集

dis(8,2)、dis(8,5)都在差距区间[dis_mi2,dis_ma2]范围内，对应到不同聚类下的数据集

3)计算定位层聚类中数据库样例数据分布特点，将其映射到其他末层聚类，按该聚类中高维特征索引定位到与待搜索样例最接近的数据库样例；

4)根据待搜索样例与定位层中索引位置附近的多个数据样例的相似度量值和定位层聚类中数据库样例数据分布特点将其映射到其他末层聚类，按该聚类中高维特征索引定位到与待搜索样例最接近的数据库样例。

本实施例提出了一种健康数据样例搜索系统，包括数据采集及预处理模块、健康数据样例索引模块、搜索交互模块、数据库模块；其中，

数据采集及预处理模块，用于采集健康数据样例并预处理；

数据库模块，用于存储健康数据样例和健康数据样例索引。

在上述实施方式中，对各个实施方式的描述都各有侧重，某个实施方式中没有详述的部分，可以参见其它实施方式的相关描述。以上为对本发明的描述，对于本领域的一般技术人员，依据本发明实施方式的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种健康数据样例搜索方法，其特征在于，包括：

健康数据样例采集及预处理，并存储于数据库；

2.根据权利要求1所述的一种健康数据样例搜索方法，其特征在于，所述健康数据样例由结构化数据或非结构化数据或两者组合构成；所述健康数据样例预处理，包括：将非结构化数据转化为结构化数据；数据清洗、匹配，数据特征提取、筛选；以多个数据特征表征健康数据样例并对其进行降维处理。

3.根据权利要求2所述的一种健康数据样例搜索方法，其特征在于，所述降维处理，可采用方法：

4.根据权利要求2所述的一种健康数据样例搜索方法，其特征在于，所述数据特征可以采用原始数据，也可以根据需求采用处理过的数据特征，包括压缩后的特征，或加权后的特征，或排序后的特征，或增加隐性特征后的特征，或其他处理后的特征。

5.根据权利要求1所述的一种健康数据样例搜索方法，其特征在于，所述多层次聚类，采用多个聚类器对健康数据样例进行聚类，形成多层级健康数据样例数据集，不同层级的聚类器按照需求选择确定。

6.根据权利要求1所述的一种健康数据样例搜索方法，其特征在于，所述构建健康数据样例索引，还包括健康数据样例索引更新，当新存入数据库的健康数据样例达到设定阈值时，按多层次聚类加入到最后一个层次的聚类，并更新该聚类中的健康数据样例数据集的高维特征索引；或对最后一个层次的聚类中的健康数据样例数据集进一步聚类，重新建立新聚类中的高维特征索引。

7.根据权利要求1所述的一种健康数据样例搜索方法，其特征在于，所述按照健康数据样例索引搜索，包括将待搜索健康数据样例按多层次聚类，定位到最后一个层次的聚类，按高维特征索引，定位到最接近的数据库健康数据样例。

8.根据权利要求1所述的一种健康数据样例搜索方法，其特征在于，所述数据库内最接近的健康数据样例，包括定位层中索引位置附近的一个或多个健康数据样例。

9.根据权利要求8所述的一种健康数据样例搜索方法，其特征在于，所述数据库内最接近的健康数据样例，还包括根据待搜索健康数据样例与定位层中索引位置附近的多个健康数据样例的相似度量值，或定位层聚类中数据库健康数据样例数据分布特点，或两者组合，映射到其他末层聚类，按该聚类中高维特征索引定位到与待搜索健康数据样例最接近的一个或多个数据库健康数据样例。

10.一种健康数据样例搜索系统，其特征在于，包括数据采集及预处理模块、健康数据样例索引模块、搜索交互模块、数据库模块；其中，

所述数据采集及预处理模块，用于采集健康数据样例并预处理；

所述健康数据样例索引模块，用于通过多层次聚类和高维特征索引，对数据库中的健康数据样例构建健康数据样例索引，并保持更新；

所述搜索交互模块，用于健康数据样例搜索，输入待搜索健康数据样例，按照构建的健康数据样例索引搜索，展示数据库内最接近的健康数据样例；

所述数据库模块，用于存储健康数据样例和健康数据样例索引。