CN107767960A

CN107767960A - 临床检测项目的数据处理方法、装置及电子设备

Info

Publication number: CN107767960A
Application number: CN201710824738.3A
Authority: CN
Inventors: 陈越; 阮明成
Original assignee: Wenzhou Yuekang Information Technology Co Ltd
Current assignee: Wenzhou Yuekang Information Technology Co Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2018-03-06

Abstract

本发明提供了一种临床检测项目的数据处理方法、装置及电子设备，涉及医疗技术领域，以缓解现有技术中存在的风险预测准确度不高的问题,并提出了一套全面的技术和理念去发现疾病、临床测试和基因的关系。该数据处理方法包括：获取临床检测项目的原始数据；基于支持向量回归的预测模型，补充原始数据中的缺失数据，获得临床检测项目的转换数据；基于转换数据，根据不同临床检测项目之间的关联性，生成临床检测项目的关联性数据。能够解决EHR数据中存在的缺失的数据、不均衡分布和不确定数据注释三个问题，以临床检测项目间的关联网络实现疾病风险预测，改善了疾病风险预测的准确度。

Description

临床检测项目的数据处理方法、装置及电子设备

技术领域

本发明涉及生物医疗技术领域，尤其是涉及一种临床检测项目的数据处理方法、装置及电子设备。

背景技术

随着生物医学信息学和计算机系统的快速发展，电子健康记录(EHR) 得以广泛的使用。此外，国家的医疗保健计划，越来越多的人参与到定期的体检和其他的医疗活动当中，使得EHR为生物医学研究和医疗保健服务提供了大数据资源。

自定义的统计数据挖掘和机器学习技术已经被应用于EHR中，并且用于解决在生物医学和医疗保健大数据方面遇到的困难。然而，在EHR大数据领域内，存在三个需要引起重视的问题，第一、EHR数据包含由于人为错误导致的缺失值的问题；第二、EHR数据缺乏深入和统一的标注，即对于相同的结果，不同的患者可能得到不同的注释的问题；第三、EHR数据存在小部分的、自然发生的导致分析结果出现偏差的异常事件(数据不均衡分布)的问题。

目前，尽管许多先进的数据分析技术和系统已被开发来管理电子病历数据，但是，每个技术或系统往往只能够应用于一个方面或者几个简单的方面，例如OpenMRS和dhis2技术只能应用在数据库、数据集成和简单的统计报告方面。然而在EHR数据应用中，针对大量的高危疾病问题还没有一种技术或者系统来解决上述提到的大容量电子病历数据存在的三个需要引起重视的问题。

综上所述，现有的数据分析技术和系统在EHR数据应用中，存在疾病风险预测准确度不高的问题。

发明内容

有鉴于此，本发明的目的在于提供一种临床检测项目的数据处理方法、装置及电子设备，以缓解现有技术中存在的风险预测准确度不高的技术问题。

第一方面，本发明实施例提供了一种临床检测项目的数据处理方法，包括：

获取临床检测项目的原始数据；

基于支持向量回归的预测模型，补充所述原始数据中的缺失数据，获得临床检测项目的转换数据；

基于所述转换数据，根据不同临床检测项目之间的关联性，生成临床检测项目的关联性数据。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，该方法还包括：

基于所述转换数据，根据临床检测项目与基因之间的关联性，生成临床检测项目与基因的关联性数据。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，该方法还包括：

基于所述转换数据，根据临床实验结果的分布和聚类算法，生成疾病高危人群数据。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，该方法还包括：

基于所述转换数据，根据临床检测项目与疾病之间的关联性，对预测目标进行疾病风险预测。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，该方法还包括：

根据所述临床检测项目的关联性数据，获取临床检测项目与生物标志物的关联性，生成生物标志物与疾病的关联性数据。

第二方面，本发明实施例还提供一种临床检测项目的数据处理装置，包括：

获取模块，用于获取临床检测项目的原始数据；

转换模块，用于基于支持向量回归的预测模型，补充所述原始数据中的缺失数据，获得临床检测项目的转换数据；

关联模块，用于基于所述转换数据，根据不同临床检测项目之间的关联性，生成临床检测项目的关联性数据。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述关联模块还用于基于所述转换数据，根据临床检测项目与基因之间的关联性，生成临床检测项目与基因的关联性数据。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述关联模块还用于：

基于所述转换数据，根据临床实验结果的分布和聚类算法，生成疾病高危人群数据；

和/或，

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述关联模块还用于根据所述临床检测项目的关联性数据，获取临床检测项目与生物标志物的关联性，生成生物标志物与疾病的关联性数据。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面及其可能的实施方式中任一项所述的方法的步骤。

本发明实施例带来了以下有益效果：本发明实施例提供了一种临床检测项目的数据处理方法、装置及电子设备，其中，该数据处理方法包括：获取临床检测项目的原始数据；基于支持向量回归的预测模型，补充原始数据中的缺失数据，获得临床检测项目的转换数据；基于转换数据，根据不同临床检测项目之间的关联性，生成临床检测项目的关联性数据。因此，本发明实施例提供的技术方案中，通过基于支持向量回归的预测模型，将原始数据中的缺失数据进行转化后补充，得到转换数据，能够解决EHR数据中存在的缺失的数据、不均衡分布和不确定数据注释三个问题，同时对转换数据进行挖掘分析，获取了不同临床检测项目的关联性数据，以临床检测项目间的关联网络实现疾病风险预测，改善了疾病风险预测的准确度。这里需要指出的是，基于向量回归的预测模型的优势在于：由于借助了支持向量线性回归法，从而能够得到两种(或者多种)临床检测项目的因果关系；而现有技术中仅能得到两种临床检测项目的共现关系。众所周知，因果关系相比于共现关系具有更加丰富的信息。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种临床检测项目的数据处理方法的流程图；

图2为本发明实施例提供的基于支持向量回归的预测模型构建 clinotype-clinotype关系网络的流程图；

图3为本发明实施例二提供的一种临床检测项目的数据处理方法的流程图；

图4为本发明实施例提供的基于规则的分类算法来预测糖尿病的过程；

图5为本发明实施例提供的肺癌临床生物标志物的发现过程。

图6为本发明实施例三提供的一种临床检测项目的数据处理装置的结构框图；

图7为本发明实施例提供的一种电子设备的结构示意图；

图8为本发明实施例三提供的用于验证的clinotype-clinotype关联网络结构图；

图9为本发明实施例三提供的通过共同基因评分的clinotype-clinotype 关系网络验证图；

图10为本发明实施例三提供的基于方差分析的5个特定clinotype队列图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前现有的数据分析技术和系统在EHR数据应用中，存在疾病风险预测准确度不高的问题，基于此，本发明实施例提供的一种临床检测项目的数据处理方法、装置及电子设备，可以改善疾病风险预测准确度不高的问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种临床检测项目的数据处理方法进行详细介绍。

实施例一：

如图1所示，本发明实施例提供了一种临床检测项目的数据处理方法，可应用与电子健康记录(EHR)大数据领域，该方法包括：

步骤S101：获取临床检测项目的原始数据。

这里将临床检测项目定义为“clinotype”，例如客观测量的中性粒细胞百分比，心率和餐后2h血糖等临床信息，下面对其作简要说明：

临床检测项目(clinotype)并不包括可以利用生物医学仪器治疗和诊断的治疗两种治疗类型相关的检测项目，大多数的clinotype是医院检测项目。需要说明的是，clinotype与医院检测项目不完全相同，原因在于：首先，随着现代手机电子设备的发展，在没有医生监督的情况下，病人可以在其他地点(例如病人住所内)自行进行项目测量，比如心率，可见，“医院检测项目”这一术语在这种情况下并不能适用；其次，医院检测项目还包括药物测试项目，该种类型的检测项目与上述利用生物医学仪器治疗和诊断的治疗类型是相关的，所以也是排除在临床检测项目(clinotype)概念之外的。此外，不同于“phenotypes”,(“phenotypes”是由医疗专业人员开发出的相关疾病的名词)，“clinotypes”是定性或定量的通用的测量诊断的临床检测项目的统称。这里也可以将“clinome”比作“clinotype”的数据集合，作为定性或定量的通用的测量诊断的临床检测项目的统称。

具体的，可以从EHR数据中获取临床检测项目的原始数据，表1示出了部分EHR数据，在表1中，第一列代表病人序号，除第一例外的每一列代表一个临床检测项目(clinotype)，每一行代表某个病人的相对应clinotype 的原始数据。表1中含有一些空缺值，代表缺失数据。需要说明的是，一个clinotype数据集包含至少三个列表：左边一个表格展示的是clinotype的测试值，其他两个表格包含每个clinotype的正常阈值(中间的表格示出了最小阈值，右边的表格示出了最大阈值)，根据临床检测项目的正常阈值来对病人临川检测项目的测试值进行标注，如果每个单元格对应的值在其正常阈值中，则将被标注为正常。

表1中所展示的不仅仅只有缺失的数据，其中还含有数据不均衡，说明了通常情况下在EHR数据中，异常(不正常，包括偏高或者偏低)的数据比较罕见，同样的说明了标注的不均衡性：在心率中，除了病人5号，多数病人的测量值处在正常成人范围60-100之间，即多数病人的标注为正常。此外，从表1中还示出了缺失数据的不均衡性：相比于心率，血糖的测量值有更多的缺失数据。需要说明的是，为了说明该方法的普适性，这里不考虑病人的职业(由于职业的运动员其心率往往低于正常值)。

考虑到clinotype数值单位不一定相同，本发明实施例针对数值单位不同，还可以包括：采用z值归一化对clinotype数值单位进行处理。具体采用下式

其中，x是原始的clinotype结果，μ是整个数据集的平均值，σ是标准差。

表1a一个clinotype数据集

步骤S102：基于支持向量回归的预测模型，补充原始数据中的缺失数据，获得临床检测项目的转换数据。

具体的，该步骤可以通过以下步骤实施：

a.针对clinotype缺失数据，基于欠采样原理的采样方法构建基于支持向量回归的预测模型。

本实施例中基于欠采样原理(“under-sampling”)，从标签为“正常”的数据中随机选取一部分数据来构建基于支持向量回归的预测模型。在该模型中，标签为“正常”和“不正常”的数据数量是相对平衡的。

b.基于支持向量回归的预测模型，将缺失数据进行转化。

c.将转化后的缺失数据补充至原始数据中，获得临床检测项目的转换数据。

通过上述步骤对表1a的测试值进行补充，得到的临床检测项目的转换数据标示于表1b中，其中加粗的字体为对表1a的缺失数据的补充值。

表1b对于表1a缺失数据补充得到的转换数据表

需要说明的是，为了保证其他步骤的准确性，该基于支持向量回归的预测模型(或者称为缺失值预测模型)应该具有至少0.75(75％)的精度。在初步结果中，发现总体准确度达到0.76。一些重要的测试项目实现了高精度(>0.9)，如下表1c所示。

表1c：缺失值预测精度，选择结果

实验名称	精度
		白蛋白	0.983
平均红细胞体积	0.975
		红细胞体积分布SD值	0.974
淋巴绝对值	0.972
		平均血红蛋白量	0.949
血小板	0.948
		总蛋白	0.944
甲状腺素	0.936
		中性粒细胞绝对值	0.936
嗜酸性粒细胞百分比	0.925
		血小板血细胞比容	0.922
红血球	0.914
		促进甲状腺素	0.911
尿素氮	0.907
		天冬氨酸氨基转移酶	0.907
…
		总体	0.76

步骤S103：基于转换数据，根据不同临床检测项目之间的关联性，生成临床检测项目的关联性数据。

基于转换数据和支持向量回归的预测模型，根据不同临床检测项目之间的关联性，生成临床检测项目的关联性数据。这一步骤的意义在于构建一个clinotype-clinotype(clinotypes)关系网络，旨在挖掘clinotype之间由因果关系影响的脉络。需要说明的是，该步骤是挖掘疾病特有clinotypes的其中一步。只有了解了疾病特有的clinotypes，才能更好地构建疾病预测模型，以进行疾病风险预测；需要指出的是，由于本实施例中的疾病预测模型模型主要是预防的功能，因此该疾病预测模型对于已经确诊的类别是忽略的。此外，它还为挖掘复合疾病提供了一个新的研究方向。

图2示出了基于支持向量回归的预测模型构建clinotype-clinotype关系网络的流程图，下面结合图2对构建clinotypes关系网络的过程作简要说明。

对于每一个独立的clinotypei，均可以通过向量线性回归得到一个相关的向量w_i，并可以用来运算在i的特征空间另一个clinotyoesj的关系值。

制定支持向量线性回归的最小化︰

取决于

和

其中，n是病人索引，y_n是我们想要预测的clinotype的值，x_n是其他辅助类的clinotype用于帮助预测的，w是回归系数，ξ_n是可宽延时间的变量。对于(2)式，是为了确保预测值w^Tx_n+b足够接近目标值y_n，参数C 和ε决定了回归曲线的光滑性和容许预测clinotype和真实值间的误差。在大量的实验后，决定设C＝1和ε＝0.001。其中(1)(2)式中的问题具体可以通过二次规划技术解决。

计算边缘值e_ij＝(|w_ji|+|w_ij|)/2，然后将边缘值e_ij作为clinotypej和clinotypei的关系强度值。为了减少噪声，忽略|e_ij|<0.001的值；在非零的 e值中，选取前10％的|e_ij|值用于构建clinotypes关系网络。

本发明实施例提供了一种临床检测项目的数据处理方法，通过基于支持向量回归的预测模型，将原始数据中的缺失数据进行转化后补充，得到转换数据，能够解决EHR数据中存在的缺失的数据、不均衡分布和不确定数据注释三个问题，同时对转换数据进行挖掘分析，获取了不同临床检测项目的关联性数据，以临床检测项目间的关联网络实现疾病风险预测，改善了疾病风险预测的准确度。

实施例二：

如图3所示，本发明实施例提供了另一种临床检测项目的数据处理方法，可应用与电子健康记录(EHR)大数据领域，该方法包括：

步骤S101：获取临床检测项目的原始数据。

步骤S104：基于转换数据，根据临床检测项目与基因之间的关联性，生成临床检测项目与基因的关联性数据。

上述临床检测项目与基因的关联性数据可通过构建得到clinotype-基因型关系网络展示，该clinotype-基因型关系网络对于clinotypes关系网络和标记clinotype均具有重大的作用。该clinotype-基因型关系网络的作用主要在于：1)验证clinotype-clinotype的关系网络。理论上来说，clinotype-clinotype 的关系网络存在这样的逻辑关系，若临床检测项目之间的关系链越强，则该临床检测项目之间与相同的基因型之间的联系的可能性越高；2)通过基因型和clinotype之间的关系网络，能够找到一种新的方法去标记特殊疾病的基因型标记物。

下面采用两种方案来验证通过线性回归构建的clinotypes关系网。第一种方案是通过查询提及相关clinotypes的已发布的论文。第二种方案是通过运用上述clinotype-基因型之间的关系网络来进行验证。

对于第一种方案，选择在pubmed网站上，通过输入关键词，查询相关的clinotypes，并对这些clinotypes进行搜索并且统计(如计数)。对于第二种方案，使用公共数据库PAGER以及REACTOME来查找clinotypes与基因之间的关系，得到查找结果；具体的，首先在PAGER数据库进行查询，然后将查询结果导入REACTOME进行筛选过滤，即通过选取类别属于 ‘metabolism’(代谢)和‘pathway’(路径)的结果或者临床检测项目与基因的关联性数据，从而实现过滤掉上述两个数据库中所有非人类的研究结果，建立clinotype-基因型关系网络。需要说明的是，在查询之前，删除所有clinotypes的非医学、非生物和非临床单词，例如绝对值、百分比、比例、体积等。将具有相同生物系的clinotypes在查询基因时一并查找。下面以中性粒细胞百分比和中性粒细胞绝对值这两个clinotype为例进行说明，首先删除每个clinotype中的非生物单词，即删除中性粒细胞百分比和中性粒细胞绝对值中的百分比和绝对值，仅保留中性粒细胞，以进行查询；然后对包含中性粒细胞这一相同生物系的所有clinotypes在查询基因时全部查找，得到查找结果。最后在REACTOME数据库中，只选择类别属于 ‘metabolism’和‘pathway’的结果，从而实现在这两个数据库中，过滤掉所有非人类的研究结果。

为了验证clinotype之间的关系网络是否正确，本实施例中提供的临床检测项目的数据处理方法还包括验证步骤：采用共有基因(SG)分数来验证clinotype之间的关系网络。具体的，共有基因(SG)分数可以表示为：

式中，i，j代表clinotypes，G_i，G_j为相应的基因。|G_i∩G_j|为G_i,G_j的交集，|G_i∪G_j|为G_i,G_j的并集。

以及分类步骤：采用单向方差和单向t检验将SG分数进行分类。需要说明的是，t检验的非类别代表两个组是相同的分数，可替代的类别为第一组分数较第二组高，或者第二组较第三组高。分子是分母的子集，SG越接近1，则表示i和j之间关系越强烈。

由于转换数据中具有和高危疾病相同或相似的队列的病人组数据，因此可以挖掘疾病高危人群数据。

步骤S105：基于转换数据，根据临床实验结果的分布和聚类算法，生成疾病高危人群数据。

具体的，从转化好的clinotype数据(转换数据)中，根据临床实验结果的分布和聚类算法，生成疾病高危人群数据。具体的，采用聚类方法将病人进行归类分组并且进行群组标注，按组评估潜在疾病的风险，生成疾病高危人群数据。本发明实施例财通的聚类方法为K-均值++算法。相比于与其他聚类技术，如光谱聚类，分层或基于密度的聚类，由于K-均值并不要求所有的数据点之间详细的两两距离，K-均值聚类的主要收益在空间复杂度的优点。K-均值算法首先为每个K族群生成K簇质心点作为种子，将每个数据点到一个集群基于最近距离的质心，可以在计算过程中减少RAM 内存的量，更新聚类中心入侵检测，重复分配数据点和更新直到满足收敛条件的质心点。因此，在线性时间复杂度对应的数据点的数目方面它是最有效的聚类算法，相比于层次聚类和光谱聚类是至少需要二次时间来计算对应的数据点的数量的其他聚类算法，K-均值算法在大数据方面具有显著的优势。经典的K-均值算法需要用户自己决定的种子和聚类数目。K-均值++算法设计了一种随机化技术获得更好的种子。为了进一步提高K-均值++ 算法的性能，我们重复5次计算K-均值。采用剪影指数(SI)选择最佳数量的集群。SI接近1意味着适当的聚类结构；同时，SI接近-1意味着不适当的聚类结构，上述不适当的聚类结构包括太少和太多的集群。

以患者较显著的clinotype值来进行标注分类，忽略那些少于50个数的类别。对于保留的群组，随机从每个群组中抽取50例病人信息，进行方差齐性检验。重复采样和检验1000次，并且记录每个clinotype的方差检验平均值。选取平均值小于0.05的clinotypes用于标注群组，对群组进行评估得到疾病高危人群数据。

步骤S106：基于转换数据，根据临床检测项目与疾病之间的关联性，对预测目标进行疾病风险预测。

本实施例中的疾病风险预测旨在检验患者是否患有未发现的或未检出的特殊疾病。因此，步骤S106有助于某些疾病的早期发现和预防。由于本实施例中的疾病风险预测主要是预防的功能，因此该疾病风险预测忽略已经确诊的类别。具体的，该步骤主要通过以下步骤实现：首先，对转换数据进行计算得到统计值度量Q值，使用统计值度量(Q≥0.05)识别可能与疾病相关联的clinotypes；然后采用基于规则的分类算法对疾病相关联的 clinotypes进行分类，构建疾病分类模型，实现对疾病风险预测。需要指出的是，对于分类算法，选择Q≥0.05的数值原因在于：(1)Q≥0.05是特征选择的一个标准(规范)；(2)Q≥0.05可以优化分类算法，提高分类算法的性能。目前许多流行的分类支持向量机和神经网络，如基于规则的(基于规则的是分类器的名称)分类，均可以使用在实施例中。作为优选的实施方式，本发明实施例采用基于规则的分类算法来建立疾病风险预测模型，这里建立的疾病风险预测模型分为三种预测模型，第一种模型仅采用诊断性的临床检测项目；第二中模型使用非诊断性的临床检测项目；第三种模型采用第一种模型和第二中模型中所有的临床检测项目。需要强调的是，第二种模型是在疾病风险预测中最重要的创新之处。

下面举个简单的例子说明基于规则的分类算法：胆固醇>130并且心率> 100的分类为糖尿病患者，或胆固醇<100且心率<75的分类为健康人。

图4示出了基于规则的分类算法来预测糖尿病的过程图。

参照图4，首先对于每个clinotype，将从糖尿病患者与健康人群进行t 检验，通过计算、转换、过滤等过程，最终得到Q值，然后通过得到的Q 值来对数据进行统计，包括使用统计值度量(Q≥0.05)用于假阳性筛选，识别可能与糖尿病有关联的clinotypes，最后基于规则的分类建立疾病风险预测模型。在图4中，p值是t检测算法的一个结果值，代表着两个数据集中的差别性，分数越小代表差距性越大，这里所需要的就是过滤得到差距大的数据集，而Q值是P值的一个相反的逆过程，Q值越大差距性越大，由于Q值在实际应用中更为广泛，例如在论文或者文章的撰写中，Q值更容易为人接受，因此选择采用Q值来对数据进行统计。HbA1c、血糖、C 肽和胰岛素这些clinotypes是根据世界卫生组织的标准，用于糖尿病的诊断，将它们作为D-REF(糖尿病参考)的临床检测项目。设其他Q≥0.05的clinotypes作为D-CAN(糖尿病候选)的临床检测项目。

基于上述D-REF(糖尿病参考)和D-CAN(糖尿病候选)建立了三个糖尿病分类模型。第一分类模型(D-REF模型)仅使用D-REF的clinotypes；因此，它可以用于完整的糖尿病预防和发现。第二分类模型(D-CAN模型) 只使用D-CAN的clinotypes。第三分类模型(D-REF/D-CAN模型)使用 D-REF和D-CAN的clinotypes。

为了促进临床和生物学的研究，本发明实施例提供的临床检测项目的数据处理方法还包括临床生物标志物挖掘的步骤。

步骤S107：根据临床检测项目的关联性数据，获取临床检测项目与生物标志物的关联性，生成生物标志物与疾病的关联性数据。

临床生物标志物挖掘的步骤S107提供了一种新的方式来发现疾病相关的生物标志物，从而引领了临床和生物学的研究以及探索新的治疗方法。需要说明的是，生物标志物是一种基于特定疾病的临床检测项目clinotypes 的新概念，它又称为clino-markers。临床生物标志物主要由三个网络分析的步骤挖掘得到：

1.构建clinotype关联网络。每个数据集构成一个网络，上述数据集包括健康人、疾病患者和疾病亚患者数据集。

2.使用网络的差异分析发现与疾病相关的临床生物标记 (clino-markers)。

3.在clino-markers中进行枢纽基因分析，从特定疾病的clino-markers 和clinotype-基因型关系网络中选择临床生物标志物。

图5示出了肺癌临床生物标志物的发现过程，具体的，首先构建三个 clinotype-clinotype关联网络：根据肺癌患者的clinotype建立L(肺癌)关联网络，根据健康人的clinotype构建H(健康)关联网络，根据健康人和肺癌患者的clinotype组合建立HL(健康肺癌)关联网络。其次，基于网络差异分析的clino-marker(CM)分数计算式如下：

CM(i)＝|dL(i)-dH(i)|+|dL(i)-dHL(i)|+|dH(i)-dHL(i)|

上式中，dL(i),dH(i)和dHL(i)表示clinotypei在L、H和HL关系网络中的代表值。最后对CM分数高的clinotypes执行clinotype-基因型挖掘步骤，根据步骤S104构建一个特有的clinotype-基因型关系网络。例如，如果某个clinotype是dL(i)＝3，dH(i)＝9和dHL(i)＝16，则能够看到关于i在这几个网络中的层次是不一样的，于是将i设为一个clino标记物，其 CM(i)＝|3-9|+|3-16|+|9-16|＝26。在该构建的关系网络中出现较多的基因则为该clinotype的临床生物标志物。

实施例三：

参见图6，本发明实施例还提供一种临床检测项目的数据处理装置，包括：

获取模块10，用于获取临床检测项目的原始数据；

转换模块20，用于基于支持向量回归的预测模型，补充原始数据中的缺失数据，获得临床检测项目的转换数据；

关联模块30，用于基于转换数据，根据不同临床检测项目之间的关联性，生成临床检测项目的关联性数据。

进一步的是，关联模块30还用于基于转换数据，根据临床检测项目与基因之间的关联性，生成临床检测项目与基因的关联性数据。

优选的是，关联模块30还用于基于转换数据，根据临床实验结果的分布和聚类算法，生成疾病高危人群数据；

和/或，

基于转换数据，根据临床检测项目与疾病之间的关联性，对预测目标进行疾病风险预测。

进一步的，关联模块30还用于根据临床检测项目的关联性数据，获取临床检测项目与生物标志物的关联性，生成生物标志物与疾病的关联性数据。

本实施例中提供的临床检测项目的数据处理装置，采用了CATHID(Comprehensive Assessment Techniquesof High-risk Disease高危疾病综合评估技术)框架，能够预测高危疾病和挖掘更多综合疾病中的知识，该CATHID 框架分为两个主要部分。第一个部分，转换模块，用于将原始数据中的缺失部分转化后补充，解决了clinotype所带有的三个数据问题：缺失的数据，不均衡分布和不确定数据注释，其中缺失的数据这一方面更为重要，缺失数据的预测处理方法是所有技术问题的关键。第二部分，关联模块，用于挖掘和分析，解决与clinotype相关联的问题：高风险的clinotype和clinotype 间的关系，clinotype和基因型之间的关系，高危疾病的早期预测和复杂疾病基因组因子的发现。

与现有的技术和框架中还没有开发出能完全地将医疗电子记录和基因型数据结合的方法相比，该装置采用的CATHID框架，该框架将临床检测项目信息看作为一个独立的单位，名为clinome，等同于传统的基因型和表现型。在精准医疗上，此框架致力于将此三个类型的数据结合在一起，挖掘其间的关系，是独立开发的一种挖掘临床信息，疾病和基因之间关联的技术，基于该框架构建临床检测项目信息、疾病和基因间的基因网络还可为未来基因型研发提供新的思路。具体的，该框架具有以下优势：

1.从预测缺失clinotype值中，构建的特殊疾病的clinotype关系网络，clinotype-基因型关系网络，高位疾病预测和临床生物标记物挖掘。这些应用没有一个是完全独立于其他的，相互之间形成了一个关系链。

2.不使用诊断信息，而是使用在分析数据上可用的医院的健康体检和用户手机数据，来预测高危疾病(如糖尿病)。

3.传统的疾病诊断已经具有特异性clinotypes，如血糖糖尿病。但这些疾病的临床类型都不是基于网络的。本发明实施例中采用的是基于网络的特定疾病的clino-marker。

4.基于临床生物标志物揭示了一种为高危疾病的生物标志物的检测，无需进行昂贵的基因组测序的新的临床试验方法。

5.将医疗电子信息数据定义为clinotype，以此来关联现有的基因型数据库。寻求这两者之间的关系以实现复杂高危的疾病预测和治疗中。

6.在框架的设计中，不仅考虑到了三种电子数据问题：缺失数据、不平衡的数据集和不一致的注释数据，还专注于数据的预测分析问题，特别是对于预测未来数据。

7.在有关基因型联系到大量医疗电子数据的研究领域中，我们的框架提供了一种新的方向：通过临床项目标记物或者基于临床的基因标记物与特殊疾病相联系。

下面以中国浙江省温州医科大学附属第一医院开发和验证了CATHID 框架以说明该装置在实际应用中的有效性。

选取了包含自2011-2014的91354位病人数据集。数据集包含400个 clinotypes，其中97个clinotypes数值和注释可以提供更好的进一步的分析。表2a描述了该数据集的年龄/性别患者的统计。表2b显示了关于糖尿病和肺癌患者的统计信息。

表2a数据集中患者的性别/年龄信息

表2b关于糖尿病和肺癌患者的信息

1.在clinotype网络中的新发现

由整个clinotype数据建立的高危疾病clinotype-clinotype关联网络，包含69个clinotypes和182条关系网(参见图8)。我们发现了三个显着的网络性能。

首先，图8表明网络中心包括3个血细胞clinotypes：分别是中性粒细胞百分比(黄色球)、淋巴百分比(紫色球)、平均血小板体积(红色球)。这是预料之中的，因为中性粒细胞的百分比和淋巴结相关的免疫系统，在人体内会经常发生改变。其次，脂质相关clinotypes如LDL-胆固醇(绿色球)、载脂蛋白(青色球)以及总胆固醇(蓝色球)，均位于图8网络的边缘，表明了这一类的测量有一部分的关系。这一结果表明，脂质的异常与其他类型的异常有小的关联。第三，发现表3白球蛋白比值-淋巴百分比和三碘甲状腺原组氨酸-中性粒细胞百分比似乎是新的，因为在PubMed网站找不到任何提及这两个术语的文献信息。

表3 clinotype-clinotype关联网络的前20，与PubMed文献验证结果

2.Clinotype-基因型关系网络的最初发现

搜索后，在6145个基因和40个clinotypes中发现了9625条关系网。利用这些网络，观察到clinotype-clinotype关系网络可以通过共同基因的说法来解释；特别是枢纽基因能够很好地解释clinotype-clinotype网络。在图 9中，观察了直接运用clinotypes得出的SG分数和从ml网络中得出的SG 分数的关键性不同。使用单向方差得出的SG1/2/3部分的平均值为0.008。使用t检验得出的SG1和SG2平均值为0.007；SG2和SG3的平均值为0.563。

经过测试，64个基因至少关联着6个clinotypes。在这些基因中，7个基因ApoA1、ApoB、CGA，GCKR，PRKACA，prkacb，RXRA连接28个 clinotypes，包括血脂(甘油三酯、总胆固醇测定载脂蛋白AI，高密度脂蛋白-胆固醇，胆固醇)、血细胞(白细胞、血小板)测量，葡萄糖代谢和其他激素和蛋白质。ApoA1和ApoB出现在脂质代谢和血细胞的测量。CGA关联总胆固醇和睾酮和甲状腺素测量。GCKR在脂质代谢和糖代谢的测量(血糖和空腹胰岛素)中较为活跃。血清磷关系网是另一种潜在的新模式。血清磷与枢纽Itpr3有关，也与Leukocyte、血小板、血糖测量有关。

3.两个队列可以发现慢性疾病的风险

通过运用最佳的边缘指数得出的10个群组，计算K-均值++算法，发现8个经典的队列。这8个群组有着至少50位病历。在这8个群组上运行单向方差检测可以放回67个显著的clinotypes，且均可以用来标注群组。前 5个clinotypes为血小板分布宽度均显著(p值1.79×10^-169)、餐后2h血糖 (p值3.58×10^-133)、葡萄糖(p值9.69×10^-104)、糖化血红蛋白(p值6.01×10^-073) 和结晶(p值7.92×10^-049)。

在图10中，我们使用这5个clinotypes诠释这些队列，观察到两个：队列3、队列1。血小板分布宽度和结晶度较高的队列3，在其中101例患者可能有血液质量问题。餐后2h血糖、血糖和糖化血红蛋白指定队列1，其中843的病人可能会有患糖尿病的风险或高血压。

4.早期糖尿病风险预测

在个案研究的早期预测疾病风险，观察到仅使用D-CAN clinotypes的预测结果和使用D-REF和D-CAN clinotypes的预测结果是很相近的。根据分析，D-CAN可能于糖尿病有强的关联但是不能用于治疗，而D-REF 在治疗方面较显著。此外，仅使用D-CANclinotypes的预测结果比仅使用 D-REF的预测效果要好(参见表4)。使用决策表技术，对于准确性，D-CAN 实现精度为0.879，D-REF/D-CAN实现精度为0.895；同时，D-REF仅达到0.723的准确率。对于AUC(药时曲线下面积)，D-CAN实现精度为0.921， D-REF/D-CAN实现精度为0.919；同时D-REF仅为0.776。对于recall(召回率，又称查全率)，D-CAN，D-REF和D-REF/D-CAN实现recall分别为 0.926，0.923，0.604。然而对于精确度，D-REF达到0.908，略优于D-CAN /D-REF(0.903)和D-CAN(0.898)。

关于糖尿病定义的综合研究，并期望这些定义的精确度(或阳性预测值)介于0.975和1之间，而recall(或灵敏度)是介于0.650和0.988。与 0.905的精确度和recall的0.926，我们基于D-CAN决策表模型与任何已知的定义对糖尿病，尤其是在recall。这一结果可能潜在基本介绍的补充方法，世界卫生组织的标准度量检测糖尿病的血糖水平。

表4基于规则的糖尿病检测模型的预测性能

5.新的生物标志物在临床肺癌的初步结果

在肺癌中执行网络差异分析clinotype-clinotype关系网络之后，我们检测了5个临床标记，其中4个是新的临床标志物。表5显示了该标记值(CM) 的临床指标评分。在这些标志物，甲胎蛋白(CLEIA)是众所周知的一个肺癌的诊断clinotype。并没有太多的文献资料支持间接胆红素、甲状腺球蛋白、单核细胞计数、血氯(血清氯化物)和肺癌之间关系；因此，这些 clinotypes可能是未来的临床研究。

表5肺癌Clino标记的发现

通过分析枢纽基因连接到这些临床指标，我们为未来的生物学研究选择了两个潜在的临床生物标志物。从文献的研究，我们发现的证据表明， Thyr基因球蛋白，与肺癌。SLC2A1，相关甲状腺球蛋白上的基因，是与非小细胞肺癌鳞状细胞型患者葡萄糖的摄取显著相关。HMG铬，与甲状腺球蛋白第三基因是枢纽，STAT6的上游调控，诱导内质网应激介导的细胞凋亡在肺癌细胞。

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现实施例一和实施例二任一项提及的临床检测项目的数据处理方法的步骤。

参见图7所示的电子设备700的结构示意图，该电子设备包括：处理器70，存储器71，总线72和通信接口73，所述处理器70、通信接口73 和存储器71通过总线72连接；处理器70用于执行存储器71中存储的可执行模块，例如计算机程序。

其中，存储器71可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口73(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接。

总线72可以是ISA总线、PCI总线或EISA总线等。图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器71用于存储程序，所述处理器70在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器70中，或者由处理器70实现。

处理器70可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器70中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器70可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该存储介质位于存储器71，处理器70读取存储器71中的信息，结合其硬件完成上述方法的步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现前述实施例中涉及的原料信息的提供方法的步骤。

本发明实施例提供的临床检测项目的数据处理装置及电子设备，与上述实施例提供的临床检测项目的数据处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例所提供的进行临床检测项目的数据处理方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置及电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

附图中的流程图和框图显示了根据本发明的多个实施例方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。另外，也可以应用其他的分类器和聚类方法。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种临床检测项目的数据处理方法，其特征在于，包括：

获取临床检测项目的原始数据；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种临床检测项目的数据处理装置，其特征在于，包括：

获取模块，用于获取临床检测项目的原始数据；

7.根据权利要求6所述的装置，其特征在于，所述关联模块还用于基于所述转换数据，根据临床检测项目与基因之间的关联性，生成临床检测项目与基因的关联性数据。

8.根据权利要求6所述的装置，其特征在于，所述关联模块还用于：

和/或，

9.根据权利要求6所述的装置，其特征在于，所述关联模块还用于根据所述临床检测项目的关联性数据，获取临床检测项目与生物标志物的关联性，生成生物标志物与疾病的关联性数据。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。