CN110689961B

CN110689961B - 一种基于大数据分析技术的胃癌疾病风险检测装置

Info

Publication number: CN110689961B
Application number: CN201910828098.2A
Authority: CN
Inventors: 廖军; 刘丹丹; 刘礼
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2022-12-09
Anticipated expiration: 2039-09-03
Also published as: CN110689961A

Abstract

本发明公开了一种基于大数据分析技术的胃癌疾病风险检测装置，主要包括数据采集模块、数据库、数据预处理模块、特征提取模块和风险评估模块。本发明可有效的提高胃癌风险评估准确性。

Description

一种基于大数据分析技术的胃癌疾病风险检测装置

技术领域

本发明涉及大数据分析领域，具体是一种基于大数据分析技术的胃癌疾病风险检测装置。

背景技术

近些年，随着我国人口老龄化进程的加快以及城市污染等危险因素的逐渐加重，城市老百姓的癌症发病率不断上升，在临床医疗中,胃癌(gastric cancer)是世界最常见的系源于上皮的恶性肿瘤之一，在医学中对胃癌进行有效全面的风险检测越来越受到人们的重视。

目前，绝大多数胃癌属于腺癌，早期无明显症状，或出现上腹不适、嗳气等非特异性症状，常与胃炎、胃溃疡等胃慢性疾病症状相似，易被忽略，胃癌的早期诊断检测率仍较低；医生仅通过临床经验，无法有效的检测出胃癌疾病的风险情况。

由于年龄、性别、种族的特异性，不同地域的经济、文化、生存环境以及饮食等方面的差异；国内外对于胃癌风险评估结果已有成熟的数据；市场上也有成熟的疾病风险检测产品，但是还没有直接检测胃癌疾病风险的装置。

发明内容

本发明的目的是解决现有技术中存在的问题。

为实现本发明目的而采用的技术方案是这样的，一种基于大数据分析技术的胃癌疾病风险检测装置，主要包括数据采集模块、数据库、数据预处理模块、特征提取模块、风险评估模块和计算机可读介质。

所述数据采集模块获取测试者基本数据，并存储在数据库的疾病风险数据集中。

所述数据采集模块通过通信网络与医院信息装置和/或测试者终端互联，从而获取测试者基本数据。

所述测试者基本数据主要包括身高、年龄、体重、性别、每日饮食、生活环境、既往患病史、恶性肿瘤家族史数据和测试者防癌风险评估等级数据。

所述数据库存储数据预处理模块、特征提取模块和风险评估模块。

所述数据预处理模块对疾病风险数据集进行预处理，得到预处理后的疾病风险数据样本单元x₁，…，x_n，并发送至特征提取模块。

数据预处理模块对疾病风险数据集进行预处理的主要步骤如下：

1)删除疾病风险数据集中数据信息缺失项大于80％的行或列，从而更新疾病风险数据集。

2)将更新后的疾病风险数据集中的离散项进行数值化标注：判断测试者基本数据影响风险评估结果的概率，若概率大于50％，则将测试者基本数据数值化为2，相反，则将测试者基本数据数值化为1。

3)将更新后的疾病风险数据集中的连续项整合，再进行数值化标注。

4)基于数值化标注结果，建立预处理后的疾病风险数据单元x₁，…，x_n。

所述特征提取模块利用近邻成分分析法提取疾病风险数据单元x₁，…，x_n的特征，从而建立风险特征数据集T＝{(x₁，y₁),...,(x_n，y_n)}，并发送至风险评估模块。

特征提取模块利用近邻成分分析法提取疾病风险数据样本单元x₁，…，x_n特征的主要步骤如下：

1)给定疾病风险数据样本单元x₁，…，x_n，计算疾病风险数据样本单元x_i和疾病风险数据样本单元x_j之间的加权距离D_w(x_i,x_j)，即：

式中，x_i为d维特征向量。w为权重向量。w_l是关联于第l个特征的权值。|x_il-x_jl|表示第l个特征下疾病风险数据单元x_i和疾病风险数据单元x_j距离绝对值。i＝1，2，…，n。j＝1，2，…，n。

3)基于留一法，计算疾病风险数据样本单元x_i选择疾病风险数据样本单元x_j作为近邻时的概率分布p_ij，即：

式中，k(z)＝exp(-z/σ)是核函数。σ为核宽度。

3)将疾病风险数据样本单元x_i通过近邻样本单元正确分类的概率p_i如下所示：

式中，y_ij为样本标签，当且仅当y_i＝y_j时y_ij＝1，否则y_ij＝0。y_i∈{1...C}为x_i所对应的分类标签。

4)特征权重的目标函数ξ(w)如下所示：

式中，λ为正则化参数。λ≥0。

5)选取特征权重w_l大于0的数据样本单元作为胃癌风险数据的特征属性，从而建立风险数据集T＝{(x₁，y₁),...,(x_n,y_n)}。

所述风险评估模块对风险特征数据集T＝{(x₁，y₁),...,(x_n,y_n)}进行深度学习，得到风险评估结果y_c。

风险评估结果y_c如下：

式中，e为输出神经元的激活函数。

表示权重矩阵中第j个输入样本到连接到第c个输出神经元的权重。x_i为疾病风险数据样本单元。

表示权重矩阵中第i个输入样本连接到第j个神经元的权重，r_j为输入样本到隐藏层第j神经元的偏置。r_c为第c神经元输出的偏置。f为输入层到隐藏层的激活函数。

y_c＝1，表示无高风险，y_c＝2，表示高风险。

所述计算机可读介质内写入数据库所有数据。。

本发明的技术效果是毋庸置疑的。本发明具有以下效果：1)直接采集疾病风险数据，可有效的提高胃癌风险评估准确性，2)本发明可以避免受试者在医院有不必要的检查过程，提高检测速度。本发明通过胃癌特征数据评估胃癌疾病等级的风险，为预防疾病健康风险提供依据，节约了医疗资源，具有一致性和实用性。本发明直接检测胃癌疾病风险等级，可以提高胃癌风险检测的效率，并让患者避免不必要的检查过程，可以方便公众和相关部门掌握公众健康风险的走势。

附图说明

图1为检测装置示意图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1，一种基于大数据分析技术的胃癌疾病风险检测装置，主要包括数据采集模块、数据库、数据预处理模块、特征提取模块、风险评估模块和计算机可读介质。

所述测试者基本数据主要包括身高、年龄、体重、性别、每日饮食、生活环境、生活方式、生活习惯、心理情绪、既往患病史、恶性肿瘤家族史数据和测试者防癌风险评估等级数据。以数值方式对烦躁、高兴、伤心等心理情绪进行标注。每日饮食包括甜、辣、咸等。

比如对身高h和体重w进行体质比BMI计算，计算公式如下：

BMI＝w/h²； (1)

计算后，按标准BMI值范围顺序进行数值标注。

4)基于数值化标注结果，建立预处理后的疾病风险数据单元x1，…，x_n。

所述特征提取模块利用近邻成分分析法提取疾病风险数据单元x₁，…，x_n的特征，从而建立胃癌风险特征数据集T＝{(x₁,y₁),...,(x_n,y_n)}，并发送至风险评估模块。

式中，x_i为d维特征向量。w为权重向量。w_l是关联于第l个特征的权值。|x_il-x_jl|表示第l个特征下疾病风险数据单元x_i和疾病风险数据单元x_j距离绝对值。i＝1，2，…，n。j＝1，2，…，n。l＝1，2，…，d。n为向量个数。

4)基于留一法，计算疾病风险数据样本单元x_i选择疾病风险数据样本单元x_j作为近邻时的概率分布p_ij，即：

式中，k(z)＝exp(-z/σ)是核函数。σ为核宽度。核宽度σ影响每个点被选为参考点的概率。特别地，如果σ→0，则只有测试样本的最近邻可以被选为参考点。如果σ→+∞，则除测试样本外的所有样本点被选为参考点的概率相同。z指代D_w(x_i,x_j)或D_w(x_i,x_k)。x_k为疾病风险数据单元。

4)为了进行特征选择，重要的特征应该具有较大的权值，冗余和不相关的特征具有较小的权值。根据进一步引入正则化项，特征权重的目标函数ξ(w)如下所示：

式中，λ为正则化参数。λ≥0，可以通过交叉验证方法确定。

5)为了过滤掉不相关的特征，选取特征权重w_l大于0的数据样本单元作为胃癌风险数据的特征属性，从而建立胃癌风险数据集T＝{(x₁,y₁),...,(x_n,y_n)}。

所述风险评估模块对胃癌风险特征数据集T＝{(x1,y₁),...,(x_n,y_n)}进行深度学习，得到风险评估结果y_c。

风险评估结果y_c如下所示：

将胃癌风险数据集T＝{(x₁,y₁),...,(x_n,y_n)}输入到深度神经网络中，计算得到风险评估结果y_c，即：

式中，e为输出神经元的激活函数。

y_c＝1，表示无高风险，y_c＝2，表示高风险。

所述计算机可读介质内写入数据库所有数据，并实时更新。

实施例2：

一种基于大数据分析技术的胃癌疾病风险检测装置，主要包括数据采集模块、数据库、数据预处理模块、特征提取模块和风险评估模块。

所述风险评估模块对胃癌风险特征数据集T＝{(x₁,y₁),...,(x_n,y_n)}进行深度学习，得到风险评估结果y_c。

实施例3：

一种基于大数据分析技术的胃癌疾病风险检测装置，主要结构同实施例2所示，其中，所述数据采集模块通过通信网络与医院信息装置和/或测试者终端互联，从而获取测试者基本数据。

实施例4：

一种基于大数据分析技术的胃癌疾病风险检测装置，主要结构同实施例2所示，其中，数据预处理模块对疾病风险数据集进行预处理的主要步骤如下：

2)将更新后的疾病风险数据集中的离散项进行数值化标注。

实施例5：

一种基于大数据分析技术的胃癌疾病风险检测装置，主要结构同实施例2所示，其中，

实施例6：

一种基于大数据分析技术的胃癌疾病风险检测装置，主要结构同实施例2所示，其中，特征提取模块利用近邻成分分析法提取疾病风险数据样本单元x₁，…，x_n特征的主要步骤如下：

5)基于留一法，计算疾病风险数据样本单元x_i选择疾病风险数据样本单元x_j作为近邻时的概率分布p_ij，即：

式中，k(z)＝exp(-z/σ)是核函数。σ为核宽度。

4)特征权重的目标函数ξ(w)如下所示：

式中，λ为正则化参数。λ≥0。

5)选取特征权重w_l大于0的数据样本单元作为胃癌风险数据的特征属性，从而建立胃癌风险数据集T＝{(x1,y₁),...,(x_n,y_n)}。

实施例7：

一种基于大数据分析技术的胃癌疾病风险检测装置，主要结构同实施例2所示，其中，计算风险评估结果y_c的主要步骤如下：

1)建立深度神经网络。

2)将胃癌风险数据集T＝{(x₁,y₁),...,(x_n,y_n)}输入到深度神经网络中，计算得到风险评估结果y_c，即：

式中，e为输出神经元的激活函数。

实施例8：

一种基于大数据分析技术的胃癌疾病风险检测装置，主要结构同实施例2所示，还包括显示模块。显示模块显示风险评估结果y_c。

实施例9：

一种验证基于大数据分析技术的胃癌疾病风险检测装置的实验：

数据采集模块采集疾病风险数据。

比如数据预处理模块对测试者身高h和体重w数据进行体质比BMI计算。

计算后，按标准BMI值范围顺序进行数值标注；BMI值预处理表如表1所示；

表1 BMI值在模型中的划分区间及赋值

类型	BMI值	赋值
			肥胖	BMI>30	1
偏胖	25<BMI<30	2
			正常	18<BMI<25	3
偏瘦	BMI<18	4

所述特征提取模块利用近邻成分分析法提取疾病风险数据单元x₁，…，x_n的特征，从而建立胃癌风险特征数据集T＝{(x1,y₁),...,(xn,y_n)}，并发送至风险评估模块。胃癌风险数据集如表2如示。

表2胃癌风险数据特征结果

序号.	属性	数值
			1	胃癌	1＝非高风险,2＝高风险
2	性别	1＝男,2＝女
			4	BMI	1＝’BMI>30’,2＝’25<BMI<＝30’,3＝’18<BMI<＝25’，4＝’BMI<18’
5	B22干稀	1＝干,2＝适中,3＝稀
			6	B23咸淡	1＝重盐,2＝适中,3＝清淡
7	C05饮酒	1＝从不,2＝有时,3＝经常
			8	D01精神创伤	1＝是,2＝否
9	E06_1何种胃炎	1＝慢性浅表性胃炎,2＝慢性萎缩性胃炎
			10	E07胃溃疡	1＝是,2＝否
11	E08十二指肠溃疡	1＝是,2＝否
			12	F13一级血亲胃癌	1＝是,2＝否

当胃癌特征数据值如表3所示，检测出来胃癌疾病风险等级为2，高风险。

表3胃癌特征数据值

序号.	属性	数值
			1	性别	1
2	BMI	2
			4	B22干稀	1
5	B23咸淡	2
			6	C05饮酒	2
7	D01精神创伤	2
			8	E06_1何种胃炎	1
9	E07胃溃疡	1
			10	E08十二指肠溃疡	1
11	F13一级血亲胃癌	1

Claims

1.一种基于大数据分析技术的胃癌疾病风险检测装置，其特征在于，主要包括数据采集模块、数据库、数据预处理模块、特征提取模块和风险评估模块；

所述数据采集模块获取测试者基本数据，并存储在数据库的疾病风险数据集中；

所述数据库存储数据预处理模块、特征提取模块和风险评估模块；

所述数据预处理模块对疾病风险数据集进行预处理，得到预处理后的疾病风险数据样本单元x₁，…，x_n，并发送至特征提取模块；

所述特征提取模块利用近邻成分分析法提取疾病风险数据单元x₁，…，x_n的特征，从而建立风险特征数据集T＝{(x₁,y₁),...,(x_n,y_n)}，并发送至风险评估模块；

式中，x_i为d维特征向量；w为权重向量；w_l是关联于第l个特征的权值；|x_il-x_jl|表示第l个特征下疾病风险数据单元x_i和疾病风险数据单元x_j距离绝对值；i＝1，2，…，n；j＝1，2，…，n；

2)基于留一法，计算疾病风险数据样本单元x_i选择疾病风险数据样本单元x_j作为近邻时的概率分布p_ij，即：

式中，k(z)＝exp(-z/σ)是核函数；σ为核宽度；

式中，y_ij为样本标签，当且仅当y_i＝y_j时y_ij＝1，否则y_ij＝0；y_i∈{1...C}为x_i所对应的分类标签；

4)特征权重的目标函数ξ(w)如下所示：

式中，λ为正则化参数；λ≥0；

5)选取特征权重w_l大于0的数据样本单元作为胃癌风险数据的特征属性，从而建立胃癌风险数据集T＝{(x₁,y₁),...,(x_n,y_n)}；

所述风险评估模块对风险特征数据集T＝{(x₁,y₁),...,(x_n,y_n)}进行深度学习，得到风险评估结果y_c；y_c＝1，表示无高风险，y_c＝2，表示高风险；

风险评估结果y_c如下所示：

式中，e为输出神经元的激活函数；

表示权重矩阵中第j个输入样本到连接到第c个输出神经元的权重；x_i为疾病风险数据样本单元；

表示权重矩阵中第i个输入样本连接到第j个神经元的权重，r_j为输入样本到隐藏层第j神经元的偏置；r_c为第c神经元输出的偏置；f为输入层到隐藏层的激活函数。

2.根据权利要求1所述的一种基于大数据分析技术的胃癌疾病风险检测装置，其特征在于：所述测试者基本数据主要包括身高、年龄、体重、性别、每日饮食、生活环境、既往患病史、恶性肿瘤家族史数据和测试者防癌风险评估等级数据。

3.根据权利要求1或2所述的一种基于大数据分析技术的胃癌疾病风险检测装置，其特征在于：数据预处理模块对疾病风险数据集进行预处理的主要步骤如下：

1)删除疾病风险数据集中数据信息缺失项大于80％的行或列，从而更新疾病风险数据集；

2)将更新后的疾病风险数据集中的离散项进行数值化标注：判断测试者基本数据影响风险评估结果的概率，若概率大于50％，则将测试者基本数据数值化为2，相反，则将测试者基本数据数值化为1；

3)将更新后的疾病风险数据集中的连续项整合，再进行数值化标注；

4.根据权利要求1所述的一种基于大数据分析技术的胃癌疾病风险检测装置，其特征在于，所述数据采集模块通过通信网络与医院信息装置和/或测试者终端互联，从而获取测试者基本数据。

5.根据权利要求1所述的一种基于大数据分析技术的胃癌疾病风险检测装置，其特征在于，还包括计算机可读介质；

所述计算机可读介质内写入数据库所有数据。