CN108346471B - 一种病理数据的分析方法及装置 - Google Patents
一种病理数据的分析方法及装置 Download PDFInfo
- Publication number
- CN108346471B CN108346471B CN201710058554.0A CN201710058554A CN108346471B CN 108346471 B CN108346471 B CN 108346471B CN 201710058554 A CN201710058554 A CN 201710058554A CN 108346471 B CN108346471 B CN 108346471B
- Authority
- CN
- China
- Prior art keywords
- disease
- data
- historical
- characteristic
- pathological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种病理数据的分析方法及装置,该方法为:本发明实施例中,获取一种疾病的预测模型,其中,预测模型是基于一种疾病的历史病理数据与一种疾病的相关度建立的模型,并且相关度是通过对历史病理数据进行协方差矩阵处理以及数据类型筛选处理后获得的;获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果。这样,系统筛选出与上述一种疾病相关度较高的各个病症,并去除了对病理数据分析产生干扰的病症,减少了采用的病症的数量,提高了进行数据接入、数据传输和数据存储的效率,以及通过调整通过相关度以及数据类型筛选的相应门限值,提高了预测模型的预测精度,以及预测分析的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种病理数据的分析方法及装置。
背景技术
随着信息化的迅速发展,以及数字化医疗设备的广泛使用,医疗卫生信息的数据量也在急剧的增长。其中,医疗卫生信息包括医疗临床诊治信息,科研和管理过程的医疗信息系统(Hospital Information System,HIS)信息,医学影像信息系统(PictureArchiving and Communication Systems,PACS)信息,检验信息系统(LaboratoryInformation System,LIS)信息,放射系统(RadiologyInformationSystem,RIS)信息,以及互联网和各种健康穿戴设备获取的血压、体重、血糖和心电图等信息。
为对疾病进行预测,系统需要先筛选疾病相应的特征数据,然后将通过不同途径获取的特征数据,进行统一的接入、转移和存储,以及通过对获取的特征数据进行分析和处理,确定测试者患该疾病的概率。
现有技术下,系统对特征数据进行选择和处理,从而进行疾病的预测,主要采用以下方式:
针对各种疾病,确定每一种疾病相关的特征数据,如,性别和年龄等,然后,对特征数据进行去重处理,去空处理以及去冗余处理,进一步地,对相应的特征数据进行数据分析和建模,进行疾病的预测。
例如,青光眼疾病相关的特征数据包括性别,年龄,高血压,肝病,糖尿病,测试者联系方式,亲人联系方式以及身高。系统先通过去除亲人联系方式进行去重处理,而由于身高的数据为空,因此去除身高,然后,针对青光眼疾病,将特征数据性别,年龄,高血压,肝病,糖尿病以及测试者联系方式进行接入和存储,进一步地,对测试者的相应特征数据进行数据分析,确定该测试者患青光眼疾病的概率。
但是,采用这种方式,筛选后的特征数据较多,存在不必要的特征数据,预测的效率较低,并且,不能去除概率较低的干扰特征数据,获得的疾病的预测结果也不精确,精度较低。
发明内容
本发明实施例提供一种病理数据的分析方法及装置,用于在进行病理数据分析,从而进行疾病预测时,筛选并去除不必要的特征数据以及干扰特征数据,便于数据的接入、存储和传输,提高了数据处理和预测的效率,以及预测的精确度。
本发明实施例提供的具体技术方案如下:
一种病理数据的分析方法,包括:
获取一种疾病的预测模型,其中,预测模型是基于一种疾病的历史病理数据与一种疾病的相关度建立的模型,并且相关度是通过对历史病理数据进行协方差矩阵处理以及数据类型筛选处理后获得的;
获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果。
较佳的,在获取一种疾病的预测模型之前,进一步包括:
获取一种疾病的历史病理数据,其中,历史病理数据中至少包含一种疾病的若干病症的历史特征数据;
对历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合,其中,特征值集合中的一个特征值与一个病症相对应,且一个特征值表征相应的病症与一种疾病的相关度;
筛选出相关度符合第一预设条件的各个病症,获得第一病症集合;
从第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合;
基于第二特征集合中包含的各个病症以及相应的历史特征数据,建立一种疾病的预测模型。
较佳的,对历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合,包括:
基于各个病症的历史特征数据,分别确定每一个病症的历史特征数据均值;
基于每一个病症对应的历史特征数据与相应的历史特征数据均值的各个差值,获得每一个病症对应的差值向量;
分别计算每两个病症的差值向量的乘积向量,以及分别计算每一个病症的差值向量与自身的乘积向量;
分别计算每一个乘积向量包含的各个元素的元素均值,并基于每一个乘积向量对应的元素均值,获得一种疾病的特征协方差矩阵;
通过对一种疾病的特征协方差矩阵进行矩阵变换,获得特征协方差矩阵对应的特征值集合。
较佳的,筛选出相关度符合第一预设条件的各个病症,获得第一病症集合,包括:
将特征值集合中的各个特征值,按照由大到小的顺序进行排序,获得排序结果;
按照排序结果,筛选出N个取值最大的特征值对应的病症,获得第一病症集合,其中,N为整数。
较佳的,从第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合,包括:
从第一病症集合包含的各个病症中,筛选出数据类型为分类变量的病症,获得分类变量病症集合;
基于分类变量病症集合中包含的每一个病症对应的历史测试者的总数与第一病症集合对应的历史测试者的总数的比值,分别确定分类变量病症集合中包含的每一个病症的占比;
筛选出分类变量病症集合中对应的占比低于相应的预设占比门限值的病症,获得占比病症集合;
在第一病症集合包含的各个病症中,去除占比病症集合中包含的各个病症,获得第二病症集合。
较佳的,基于第二病症集合中包含的各个病症以及相应的历史特征数据,建立一种疾病的预测模型,包括:
从一种疾病的历史病理数据中,获取第二病症集合对应的历史测试者的历史诊断结果;
基于第二病症集合中包含的各个病症和相应的历史特征数据,以及对应的历史测试者的历史诊断结果,分别确定第二病症集合中包含的每一个病症对应的权重值,其中,一个病症对应的权重值与一个病症对应的相关度呈正相关;
基于第二病症集合中包含的各个病症与对应的权重值的乘积的加和,建立一种疾病的预测模型,其中,一种疾病的预测模型与第二病症集合中包含的各个病症与对应的权重值的乘积的加和呈正相关。
较佳的,获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果,具体包括:
从获取的测试者的病理数据中,筛选出第二病症特征集合中包含的各个病症对应的特征数据;
将特征数据带入一种疾病的预测模型,获得预测概率,其中,预测概率表征测试者患有一种疾病的概率;
确定预测概率高于预设的预测门限值时,判定测试者患有一种疾病。
一种病理数据的分析装置,包括:
获取单元,用于获取一种疾病的预测模型,其中,预测模型是基于一种疾病的历史病理数据与一种疾病的相关度建立的模型,并且相关度是通过对历史病理数据进行协方差矩阵处理以及数据类型筛选处理后获得的;
确定单元,用于获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果。
较佳的,在获取一种疾病的预测模型之前,获取单元还用于:
获取一种疾病的历史病理数据,其中,历史病理数据中至少包含一种疾病的若干病症的历史特征数据;
对历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合,其中,特征值集合中的一个特征值与一个病症相对应,且一个特征值表征相应的病症与一种疾病的相关度;
筛选出相关度符合第一预设条件的各个病症,获得第一病症集合;
从第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合;
基于第二特征集合中包含的各个病症以及相应的历史特征数据,建立一种疾病的预测模型。
较佳的,在对历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合时,获取单元还用于:
基于各个病症的历史特征数据,分别确定每一个病症的历史特征数据均值;
基于每一个病症对应的历史特征数据与相应的历史特征数据均值的各个差值,获得每一个病症对应的差值向量;
分别计算每两个病症的差值向量的乘积向量,以及分别计算每一个病症的差值向量与自身的乘积向量;
分别计算每一个乘积向量包含的各个元素的元素均值,并基于每一个乘积向量对应的元素均值,获得一种疾病的特征协方差矩阵;
通过对一种疾病的特征协方差矩阵进行矩阵变换,获得特征协方差矩阵对应的特征值集合。
较佳的,在筛选出相关度符合第一预设条件的各个病症,获得第一病症集合时,获取单元还用于:
将特征值集合中的各个特征值,按照由大到小的顺序进行排序,获得排序结果;
按照排序结果,筛选出N个取值最大的特征值对应的病症,获得第一病症集合,其中,N为整数。
较佳的,在从第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合时,获取单元还用于:
从第一病症集合包含的各个病症中,筛选出数据类型为分类变量的病症,获得分类变量病症集合;
基于分类变量病症集合中包含的每一个病症对应的历史测试者的总数与第一病症集合对应的历史测试者的总数的比值,分别确定分类变量病症集合中包含的每一个病症的占比;
筛选出分类变量病症集合中对应的占比低于相应的预设占比门限值的病症,获得占比病症集合;
在第一病症集合包含的各个病症中,去除占比病症集合中包含的各个病症,获得第二病症集合。
较佳的,在基于第二病症集合中包含的各个病症以及相应的历史特征数据,建立一种疾病的预测模型时,获取单元还用于:
从一种疾病的历史病理数据中,获取第二病症集合对应的历史测试者的历史诊断结果;
基于第二病症集合中包含的各个病症和相应的历史特征数据,以及对应的历史测试者的历史诊断结果,分别确定第二病症集合中包含的每一个病症对应的权重值,其中,一个病症对应的权重值与一个病症对应的相关度呈正相关;
基于第二病症集合中包含的各个病症与对应的权重值的乘积的加和,建立一种疾病的预测模型,其中,一种疾病的预测模型与第二病症集合中包含的各个病症与对应的权重值的乘积的加和呈正相关。
较佳的,在获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果时,确定单元具体包括:
从获取的测试者的病理数据中,筛选出第二病症特征集合中包含的各个病症对应的特征数据;
将特征数据带入一种疾病的预测模型,获得预测概率,其中,预测概率表征测试者患有一种疾病的概率;
确定预测概率高于预设的预测门限值时,判定测试者患有一种疾病。
本发明实施例中,获取一种疾病的预测模型,其中,预测模型是基于一种疾病的历史病理数据与一种疾病的相关度建立的模型,并且相关度是通过对历史病理数据进行协方差矩阵处理以及数据类型筛选处理后获得的;获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果。这样,系统获取历史病理数据中包括的各个病症以及相应的历史特征数据,先通过对历史病理数据进行协方差处理,筛选出与上述一种疾病相关度较高的病症,减少了分析采用的病症的数量,然后,通过数据类型筛选处理,去除了对病理分析产生干扰的病症,进一步,减少了分析采用的病症的数量,使系统在从不同的存储设备获取病理数据时,提高了进行数据接入、数据传输和数据存储的效率,进一步地,通过调整通过相关度以及数据类型筛选的相应的门限值,提高了预测模型的预测精度,以及病理分析的效率。
附图说明
图1为本发明实施例中病理数据的预测模型建立的方法的流程图;
图2为本发明实施例中病理数据的分析方法的流程图;
图3为本发明实施例中病理数据的分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了在进行病理数据分析时,提高特征数据的接入、传输、存储和分析的效率,提高疾病预测的精确度,本发明实施例中,设计了一种病理数据的分析方法,该方法为:获取一种基于测试者的各个病症与疾病相关度建立的预测模型,并将测试者的病理数据带入该预测模型,获得预测结果,从而获得测试者的分析结果。
下面结合附图对本申请优选的实施方式进行详细说明。
本发明实施例中,对测试者的病理数据进行分析之前,基于各种疾病的历史病理数据,建立每一种疾病对应的预测模型,下面仅针对一种疾病的预测模型的建立过程进行说明。
参阅图1所示,本发明实施例中,对病理数据进行分析之前,建立一种疾病的预测模型的具体流程如下:
步骤100:系统获取一种疾病的历史病理数据。
实际应用中,执行步骤100时,一种疾病的历史病理数据至少包括一种疾病的若干病症的历史特征数据。
例如,青光眼的历史病理数据中包括的病症为性别、年龄、高血压、糖尿病以及心脏病。
步骤110:系统对历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合。
实际应用中,系统基于各个病症的历史特征数据,分别确定每一个病症的历史特征数据均值,并基于每一个病症对应的历史特征数据与相应的历史特征数据均值的各个差值,获得每一个病症对应的差值向量。
可选的,系统可以采用以下公式计算差值向量:
T=X-E(X)
其中,T为差值向量,X为一个病症的历史特征数据向量,E(X)为X的数学期望,即一个病症的历史特征数据均值。
例如,系统获取病症左裸眼度数的10个历史特征数据为{2.5,0.5,2.2,1.9,3.1,2.3,2,1,1.5,1.1},病症右裸眼度数的10个历史特征数据数据为{2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9}。然后,系统确定病症左裸眼度数的平均值为1.81,病症右裸眼度数的平均值为1.91。进一步地,系统确定病症左裸眼度数对应的差值向量为{0.69,-1.31,0.39,1.29,0.49,0.19,-0.81,-0.31,-0.71},病症右裸眼度数对应的差值向量为{0.49,-1.21,0.99,0.29,1.09,0.79,-0.31,-0.81,-0.31,-1.01}。
然后,系统分别计算每两个病症的差值向量的乘积向量,以及分别计算每一个病症的差值向量与自身的乘积向量,然后,分别计算每一个乘积向量包含的各个元素的元素均值,并基于每一个乘积向量对应的元素均值,获得一种疾病的特征协方差矩阵。
可选的,系统可以采用以下公式计算两个病症的差值向量对应的乘积向量的元素均值:
cov(T1,T2)=E(T1*T2)=E((X-E(X))(Y-E(Y)))
其中,X,Y分别为病症X对应的历史特征数据向量,和病症Y对应的历史特征数据向量,E(X),E(Y)分别为病症X对应的历史特征数据均值,和病症Y对应的历史特征数据均值,T1,T2分别为病症X和病症Y对应的差值向量,cov(T1,T2)为病症X和病症Y对应的协方差,即病症X和病症Y对应的乘积向量T1*T2包含的所有元素的元素均值。
可选的,系统可以采用以下公式计算一种疾病的特征协方差矩阵:
其中,covZ为疾病Z的特征协方差矩阵,T1,T2分别为病症X和病症Y对应的差值向量。
例如,系统基于病症左裸眼度数的差值向量{0.69,-1.31,0.39,1.29,0.49,0.19,-0.81,-0.31,-0.71},以及病症右裸眼度数的差值向量{0.49,-1.21,0.99,0.29,1.09,0.79,-0.31,-0.81,-0.31,-1.01},确定疾病青光眼的特征协方差矩阵为:
其中,covz为疾病青光眼的特征协方差矩阵。
进一步地,系统通过对一种疾病的特征协方差矩阵进行矩阵变换,获得特征协方差矩阵对应的特征值集合。
可选的,系统可以采用以下方式计算一种疾病的特征协方差矩阵,获得特征值集合:
|μE-cov|=0
其中,u为特征值集合,cov为疾病的特征协方差矩阵,E是单位矩阵。
例如:疾病青光眼的特征协方差矩阵为:
获得疾病青光眼的特征协方差矩阵对应的特征值集合u为:{0.0490833989,1.28402771}。
其中,特征值集合中的一个特征值与一个病症相对应,且一个特征值表征相应的病症与一种疾病的相关度,即特征值越大,对应的相关度就越高,对疾病的影响就越大。
步骤120:系统筛选出相关度符合第一预设条件的各个病症,获得第一病症集合。
实际应用中,系统将上述特征值集合中的各个特征值,按照由大到小的顺序进行排序,获得排序结果,然后,按照排序结果,筛选出N个取值最大的特征值对应的病症,获得第一病症集合,可选的,N的取值范围是N=(0.7~0.95)M,其中,N为整数,M为历史测试者的总数。其中,对于疾病青光眼,N的优选取值范围为N=(0.8~0.9)M。
例如,疾病肝病的特征协方差矩阵对应的特征值集合u为:{0.5,1.2,1.5,0.6,0.9},并且对应的病症依次为性别、年龄、高血压、糖尿病以及心脏病。系统将特征值集合中的各个特征值,按照由大到小的顺序进行排序,获得排序结果(1.5,1.2,0.9,0.6,0.5),获取N的值为3,则获得第一病症集合为{高血压,年龄,心脏病}。
这样,系统可以通过各个病症对应的特征值的大小,判断每一个病症对疾病的影响,然后,通过调整N的大小,去除影响即与疾病的相关度较小的病症,从而对各个病症进行降维处理,从而提高数据处理的速度、效率以及病理分析的精度。
步骤130:系统从第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合。
实际应用中,系统从第一病症集合包含的各个病症中,筛选出数据类型为分类变量的病症,获得分类变量病症集合。
例如,第一病症集合中包含的各个病症为{性别,年龄,感冒,骨折},系统筛选出数据类型为分类变量的病症,获得分类变量病症集合为{性别,感冒,骨折}。
然后,系统基于分类变量病症集合中包含的每一个病症对应的历史测试者的总数与第一病症集合对应的历史测试者的总数的比值,分别确定分类变量病症集合中包含的每一个病症的占比。
例如,历史测试者的总数为18034,其中,有23名历史测试者做过心脏病支架手术(分类变量病症),系统确定病症心脏病支架手术的占比为:23/18034。
进一步地,系统筛选出分类变量病症集合中对应的占比低于相应的预设占比门限值的病症,获得占比病症集合。
例如,系统预先设定的心脏病支架手术对应的占比门限值为0.001,高血压对应的占比门限为0.00001,确定心脏病支架手术的占比23/18034低于0.001,并且确定高血压的占比100/18034高于0.00001,则判定占比病症集合为{心脏病支架手术}。
最后,系统在第一病症集合包含的各个病症中,去除占比病症集合中包含的各个病症,获得第二病症集合。
例如,第一病症集合为{性别,年龄,高血压,心脏病支架手术},占比病症集合为{心脏病支架手术},则系统获得第二病症集合为{性别,年龄,高血压}。
这样,通过对比重较小的病症进行筛选,系统就可以将对疾病进行病理分析时产生干扰的病症进行去除,进一步提高病理分析的效率和精度。
步骤140:系统基于第二病症集合中包含的各个病症以及相应的历史特征数据,建立一种疾病的预测模型。
实际应用中,系统从一种疾病的历史病理数据中,获取第二病症集合对应的历史测试者的历史诊断结果。然后,系统基于第二病症集合中包含的各个病症相应的历史特征数据,以及对应的历史测试者的历史诊断结果,分别确定第二病症集合中包含的每一个病症对应的权重值,其中,一个病症对应的权重值与一个病症对应的相关度呈正相关。
进一步地,系统基于第二病症集合中包含的各个病症与对应的权重值的乘积的加和,建立一种疾病的预测模型,其中,一种疾病的预测模型与第二病症集合中包含的各个病症与对应的权重值的乘积的加和呈正相关。
可选的,一种疾病的预测模型可以采用以下公式表示:
其中,P为预测概率,wi为权重值,xi为病症的特征数据,i∈(0,n),n为第二病症集合中包含的病症的数量。
最后,系统判定预测模型的曲线下面积(Area Under roc Curve,AUC)是否高于预设精度门限值,若是,则确定该预测模型为上述一种疾病的预测模型,否则,通过不断地对N以及各个数据类型为分类变量的病症对应的预设占比门限值进行调整,提高预测的精度,直到系统判定预测模型的曲线下面积(Area Under roc Curve,AUC)高于预设精度门限值。
其中,AUC为任意给定一个正样本和一个负样本,正样本的预测概率高于负样本的预测概率的概率,正样本为历史特征数据中历史诊断结果为患病的历史测试者的数据,负样本为历史特征数据中历史诊断结果为未患病的历史测试者的数据。
这样,系统基于各种疾病的历史病理数据,分别针对每一种疾病建立相应的预测模型,以便在后续步骤中可以通过建立的预测模型,对测试者进行相应的病理数据分析。
参阅图2所示,本发明实施例中,对病理数据进行分析的具体流程如下:
步骤200:系统获取测试者的病理数据。
实际应用中,执行步骤200时,测试者的病理数据包括测试者的各个病症对应的特征数据。
步骤210:系统确定测试者进行病理分析的一种疾病,并对测试者的特征数据进行筛选。
实际应用中,系统确定测试者进行病理分析的一种疾病,以及该一种疾病对应的第二病症特征集合,然后,从测试者的病理数据中,筛选出该第二病症特征集合中包含的各个病症对应的特征数据。
例如,测试者的病理数据中包含的病症为{性别,年龄,肝病,心脏病,青光眼},并确定第二病症特征集合为{肝病,心脏病},则系统获取测试者的肝病和心脏病对应的特征数据。
步骤220:系统将特征数据带入上述一种疾病对应的预测模型,获得预测概率。
实际应用中,系统获取测试者进行病理分析的一种疾病对应的预测模型,并将筛选后的特征数据带入该预测模型,获得预测概率。
例如,系统获取的预测模型P=0.1+0.2x1+0.3x2+0.1x3,并且获得筛选后的特征数据x1为0.5,x2为0.1,x3为1,则获得预测概率为0.33。
步骤230:系统判定预测概率是否高于预测门限值。
实际应用中,执行步骤230时,若是,则执行步骤240,否则,执行步骤250。
例如,系统设定预测门限值为0.7,系统确定测试者的预测概率为0.9,高于预测门限值,则执行步骤240。
步骤240:系统判定测试者患有进行病理分析的一种疾病。
步骤250:系统判定测试者未患有进行病理分析的一种疾病。
基于上述实施例,参阅图3所示,病理数据的分析的装置的结构示意图,本发明实施例中,病理数据的分析装置具体包括:
获取单元30,用于获取一种疾病的预测模型,其中,预测模型是基于一种疾病的历史病理数据与一种疾病的相关度建立的模型,并且相关度是通过对历史病理数据进行协方差矩阵处理以及数据类型筛选处理后获得的;
确定单元31,用于获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果。
较佳的,在获取一种疾病的预测模型之前,获取单元30还用于:
获取一种疾病的历史病理数据,其中,历史病理数据中至少包含一种疾病的若干病症的历史特征数据;
对历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合,其中,特征值集合中的一个特征值与一个病症相对应,且一个特征值表征相应的病症与一种疾病的相关度;
筛选出相关度符合第一预设条件的各个病症,获得第一病症集合;
从第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合;
基于第二特征集合中包含的各个病症以及相应的历史特征数据,建立一种疾病的预测模型。
较佳的,在对历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合时,获取单元30还用于:
基于各个病症的历史特征数据,分别确定每一个病症的历史特征数据均值;
基于每一个病症对应的历史特征数据与相应的历史特征数据均值的各个差值,获得每一个病症对应的差值向量;
分别计算每两个病症的差值向量的乘积向量,以及分别计算每一个病症的差值向量与自身的乘积向量;
分别计算每一个乘积向量包含的各个元素的元素均值,并基于每一个乘积向量对应的元素均值,获得一种疾病的特征协方差矩阵;
通过对一种疾病的特征协方差矩阵进行矩阵变换,获得特征协方差矩阵对应的特征值集合。
较佳的,在筛选出相关度符合第一预设条件的各个病症,获得第一病症集合时,获取单元30还用于:
将特征值集合中的各个特征值,按照由大到小的顺序进行排序,获得排序结果;
按照排序结果,筛选出N个取值最大的特征值对应的病症,获得第一病症集合,其中,N为整数。
较佳的,在从第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合时,获取单元30还用于:
从第一病症集合包含的各个病症中,筛选出数据类型为分类变量的病症,获得分类变量病症集合;
基于分类变量病症集合中包含的每一个病症对应的历史测试者的总数与第一病症集合对应的历史测试者的总数的比值,分别确定分类变量病症集合中包含的每一个病症的占比;
筛选出分类变量病症集合中对应的占比低于相应的预设占比门限值的病症,获得占比病症集合;
在第一病症集合包含的各个病症中,去除占比病症集合中包含的各个病症,获得第二病症集合。
较佳的,在基于第二病症集合中包含的各个病症以及相应的历史特征数据,建立一种疾病的预测模型时,获取单元30还用于:
从一种疾病的历史病理数据中,获取第二病症集合对应的历史测试者的历史诊断结果;
基于第二病症集合中包含的各个病症和相应的历史特征数据,以及对应的历史测试者的历史诊断结果,分别确定第二病症集合中包含的每一个病症对应的权重值,其中,一个病症对应的权重值与一个病症对应的相关度呈正相关;
基于第二病症集合中包含的各个病症与对应的权重值的乘积的加和,建立一种疾病的预测模型,其中,一种疾病的预测模型与第二病症集合中包含的各个病症与对应的权重值的乘积的加和呈正相关。
较佳的,在获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果时,确定单元31具体包括:
从获取的测试者的病理数据中,筛选出第二病症特征集合中包含的各个病症对应的特征数据;
将特征数据带入一种疾病的预测模型,获得预测概率,其中,预测概率表征测试者患有一种疾病的概率;
确定预测概率高于预设的预测门限值时,判定测试者患有一种疾病。
本发明实施例中,获取一种疾病的预测模型,其中,预测模型是基于一种疾病的历史病理数据与一种疾病的相关度建立的模型,并且相关度是通过对历史病理数据进行协方差矩阵处理以及数据类型筛选处理后获得的;获取测试者的病理数据,并将病理数据带入一种疾病的预测模型,确定测试者的病理数据的分析结果。这样,系统获取历史病理数据中包括的各个病症以及相应的历史特征数据,先通过对历史病理数据进行协方差处理,筛选出与上述一种疾病相关度较高的病症,减少了采用的病症的数量,然后,通过数据类型筛选处理,去除了对病理分析产生干扰的病症,使系统在从不同的存储设备获取采用的病症的病理数据时,提高了进行数据接入、数据传输和数据存储的效率,进一步地,通过调整通过相关度以及数据类型筛选的相应的门限值,提高了预测模型的预测精度,以及预测分析的效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种病理数据的分析装置,其特征在于,包括:
获取单元,用于获取一种疾病的预测模型,其中,所述预测模型是基于所述一种疾病的历史病理数据与所述一种疾病的相关度建立的模型,并且所述相关度是通过对所述历史病理数据进行协方差矩阵处理以及数据类型筛选处理后获得的;
确定单元,用于获取测试者的病理数据,并将所述病理数据带入所述一种疾病的预测模型,确定所述测试者的病理数据的分析结果;
所述确定单元用于:从获取的所述测试者的病理数据中,筛选出第二病症集合中包含的各个病症对应的特征数据,并根据所述第二病症集合中包含的各个病症的特征数据与对应的权重值之间的乘积的加和,获得预测概率,根据所述预测概率,确定所述测试者的病理数据的分析结果。
2.如权利要求1所述的装置,其特征在于,在获取一种疾病的预测模型之前,所述获取单元还用于:
获取所述一种疾病的历史病理数据,其中,所述历史病理数据中至少包含所述一种疾病的若干病症的历史特征数据;
对所述历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合,其中,所述特征值集合中的一个特征值与一个病症相对应,且一个特征值表征相应的病症与所述一种疾病的相关度;
筛选出相关度符合第一预设条件的各个病症,获得第一病症集合;
从所述第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合;
基于所述第二病症集合中包含的各个病症以及相应的历史特征数据,建立所述一种疾病的预测模型。
3.如权利要求2所述的装置,其特征在于,在对所述历史病理数据中包含的各个病症的历史特征数据进行协方差矩阵处理,并基于协方差矩阵处理结果获得特征值集合时,所述获取单元还用于:
基于各个病症的历史特征数据,分别确定每一个病症的历史特征数据均值;
基于每一个病症对应的历史特征数据与相应的历史特征数据均值的各个差值,获得每一个病症对应的差值向量;
分别计算每两个病症的差值向量的乘积向量,以及分别计算每一个病症的差值向量与自身的乘积向量;
分别计算每一个乘积向量包含的各个元素的元素均值,并基于每一个乘积向量对应的元素均值,获得所述一种疾病的特征协方差矩阵;
通过对所述一种疾病的特征协方差矩阵进行矩阵变换,获得所述特征协方差矩阵对应的特征值集合。
4.如权利要求2所述的装置,其特征在于,在筛选出相关度符合第一预设条件的各个病症,获得第一病症集合时,所述获取单元还用于:
将所述特征值集合中的各个特征值,按照由大到小的顺序进行排序,获得排序结果;
按照所述排序结果,筛选出N个取值最大的特征值对应的病症,获得第一病症集合,其中,所述N为整数。
5.如权利要求2-4任一项所述的装置,其特征在于,在从所述第一病症集合包含的各个病症中,筛选出数据类型符合第二预设条件的病症,获得第二病症集合时,所述获取单元还用于:
从所述第一病症集合包含的各个病症中,筛选出数据类型为分类变量的病症,获得分类变量病症集合;
基于所述分类变量病症集合中包含的每一个病症对应的历史测试者的总数与所述第一病症集合对应的历史测试者的总数的比值,分别确定所述分类变量病症集合中包含的每一个病症的占比;
筛选出所述分类变量病症集合中对应的占比低于相应的预设占比门限值的病症,获得占比病症集合;
在所述第一病症集合包含的各个病症中,去除所述占比病症集合中包含的各个病症,获得所述第二病症集合。
6.如权利要求2-4任一项所述的装置,其特征在于,在基于所述第二病症集合中包含的各个病症以及相应的历史特征数据,建立所述一种疾病的预测模型时,所述获取单元还用于:
从所述一种疾病的历史病理数据中,获取所述第二病症集合对应的历史测试者的历史诊断结果;
基于所述第二病症集合中包含的各个病症和相应的历史特征数据,以及对应的历史测试者的历史诊断结果,分别确定所述第二病症集合中包含的每一个病症对应的权重值,其中,所述一个病症对应的权重值与所述一个病症对应的相关度呈正相关;
基于所述第二病症集合中包含的各个病症的特征数据与对应的权重值之间的乘积的加和,建立所述一种疾病的预测模型,其中,所述一种疾病的预测模型输出的预测概率与所述第二病症集合中包含的各个病症与对应的权重值的乘积的加和呈正相关。
7.如权利要求2-4任一项所述的装置,其特征在于,在获取测试者的病理数据,并将所述病理数据带入所述一种疾病的预测模型,确定所述测试者的病理数据的分析结果时,所述确定单元具体包括:
从获取的所述测试者的病理数据中,筛选出所述第二病症集合中包含的各个病症对应的特征数据;
将所述特征数据带入所述一种疾病的预测模型,获得预测概率,其中,所述预测概率表征所述测试者患有所述一种疾病的概率;
确定所述预测概率高于预设的预测门限值时,判定所述测试者患有所述一种疾病。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710058554.0A CN108346471B (zh) | 2017-01-23 | 2017-01-23 | 一种病理数据的分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710058554.0A CN108346471B (zh) | 2017-01-23 | 2017-01-23 | 一种病理数据的分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108346471A CN108346471A (zh) | 2018-07-31 |
CN108346471B true CN108346471B (zh) | 2020-11-03 |
Family
ID=62962135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710058554.0A Active CN108346471B (zh) | 2017-01-23 | 2017-01-23 | 一种病理数据的分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108346471B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341454B (zh) * | 2018-12-19 | 2023-07-25 | 中国电信股份有限公司 | 数据挖掘方法和装置 |
CN109730657A (zh) * | 2018-12-21 | 2019-05-10 | 程俊美 | 一种实现监测生理病理数据的系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184314A (zh) * | 2011-04-02 | 2011-09-14 | 中国医学科学院医学信息研究所 | 面向偏差性症状描述的自动辅助诊断方法 |
CN104866713A (zh) * | 2015-05-12 | 2015-08-26 | 南京霁云信息科技有限公司 | 基于增量局部鉴别子空间嵌入的川崎病和发烧诊断系统 |
CN106096319A (zh) * | 2016-07-14 | 2016-11-09 | 广州宝荣科技应用有限公司 | 一种处方管理应用系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130052665A1 (en) * | 2011-08-25 | 2013-02-28 | Bruce Xuefeng Ling | Methods for diagnosis of systemic juvenile idiopathic arthritis |
-
2017
- 2017-01-23 CN CN201710058554.0A patent/CN108346471B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184314A (zh) * | 2011-04-02 | 2011-09-14 | 中国医学科学院医学信息研究所 | 面向偏差性症状描述的自动辅助诊断方法 |
CN104866713A (zh) * | 2015-05-12 | 2015-08-26 | 南京霁云信息科技有限公司 | 基于增量局部鉴别子空间嵌入的川崎病和发烧诊断系统 |
CN106096319A (zh) * | 2016-07-14 | 2016-11-09 | 广州宝荣科技应用有限公司 | 一种处方管理应用系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108346471A (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Prusty et al. | SKCV: Stratified K-fold cross-validation on ML classifiers for predicting cervical cancer | |
Li et al. | Automatic detection of diabetic retinopathy in retinal fundus photographs based on deep learning algorithm | |
CN110399929B (zh) | 眼底图像分类方法、装置以及计算机可读存储介质 | |
Lin et al. | Transforming retinal photographs to entropy images in deep learning to improve automated detection for diabetic retinopathy | |
CN113962930B (zh) | 阿尔茨海默病风险评估模型建立方法和电子设备 | |
CN115691722A (zh) | 医疗数据检测的质控方法、装置、设备、介质及程序产品 | |
CN108346471B (zh) | 一种病理数据的分析方法及装置 | |
Waweru et al. | Deep learning in skin lesion analysis towards cancer detection | |
Fonseca et al. | Breast density classification with convolutional neural networks | |
CN117315379B (zh) | 面向深度学习的医学影像分类模型公平性评估方法及装置 | |
Usman et al. | A systematic literature review of machine learning based risk prediction models for diabetic retinopathy progression | |
Lakshmi et al. | Exploration of AI-powered DenseNet121 for effective diabetic retinopathy detection | |
CN113705595A (zh) | 异常细胞转移程度的预测方法、装置和存储介质 | |
CN116703880A (zh) | 一种免疫状态预测模型构建方法、预测方法及构建装置 | |
Shrestha et al. | A novel solution of deep learning for enhanced support vector machine for predicting the onset of type 2 diabetes | |
CN115526882A (zh) | 一种医学图像的分类方法、装置、设备及存储介质 | |
CN114936204A (zh) | 一种特征筛选方法、装置、存储介质及电子设备 | |
Aatila et al. | Transfer Learning in Keratoconus Classification. | |
Moghaddasi et al. | Study on the efficiency of a multi-layer perceptron neural network based on the number of hidden layers and nodes for diagnosing coronary-artery disease | |
CN112233742A (zh) | 一种基于聚类的病历文档分类系统、设备、存储介质 | |
CN114612255B (zh) | 一种基于电子病历数据特征选择的保险定价方法 | |
CN113782121B (zh) | 随机分组方法、装置、计算机设备及存储介质 | |
Li et al. | Prediction of Short-Term Breast Cancer Risk with Fusion of CC-and MLO-Based Risk Models in Four-View Mammograms | |
CN117392124B (zh) | 一种医学超声图像分级方法、系统、服务器、介质及设备 | |
Kumar et al. | Application of hybrid capsule network model for malaria parasite detection on microscopic blood smear images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |