CN115631849B - 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备 - Google Patents

基于深度神经网络的乳腺癌预后指示系统、存储介质及设备 Download PDF

Info

Publication number
CN115631849B
CN115631849B CN202211291501.0A CN202211291501A CN115631849B CN 115631849 B CN115631849 B CN 115631849B CN 202211291501 A CN202211291501 A CN 202211291501A CN 115631849 B CN115631849 B CN 115631849B
Authority
CN
China
Prior art keywords
matrix
breast cancer
gene
histology
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211291501.0A
Other languages
English (en)
Other versions
CN115631849A (zh
Inventor
许伊宁
赵天意
刘博�
王亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211291501.0A priority Critical patent/CN115631849B/zh
Publication of CN115631849A publication Critical patent/CN115631849A/zh
Application granted granted Critical
Publication of CN115631849B publication Critical patent/CN115631849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

基于深度神经网络的乳腺癌预后指示系统、存储介质及设备,属于癌症预后指示技术领域。本发明为了解决现有的乳腺癌预后预测准确率有待于提高的问题。本发明根据用户输入实例对应的组学特征在TCGA数据库中获取相同的全部乳腺癌实例的组学特征,然后针对每个组学数据分别计算特征的肯德尔相关系数矩阵,根据相关系数矩阵确定全局基因相似系数矩阵及最相近基因相似系数矩阵,并通过迭代计算多组学特征相似性融合矩阵进而获得多组学特征的全局相似性,之后根据非负矩阵分解的方式对其进行分解,根据分解结果对用户取户输入的组学特征进行加权,然后利用机器学习模型进行乳腺癌预后预测。本发明用于乳腺癌的预后指示。

Description

基于深度神经网络的乳腺癌预后指示系统、存储介质及设备
技术领域
本发明属于癌症预后指示技术领域,具体涉及一种乳腺癌预后指示系统、存储介质及设备。
背景技术
乳腺癌是女性中最常见的恶性肿瘤,发病率居女性恶性肿瘤第一位,乳腺癌患者不仅要经历疾病的折磨,还要忍受治疗带来的副作用。现在关于癌症的治疗中,存在“过度治疗”的现象,以乳腺癌中常见腋窝淋巴结清扫术为例,在9.7年的中位随访时间后,无腋窝淋巴结清扫术组的10年无疾病生存率是76.8%,腋窝淋巴结清扫术组的10年无疾病生存率是74.9%(low rank p=0.24;p=0.0024);无腋窝淋巴结清扫术组的10年累积发病率是17.6%,腋窝淋巴结清扫术组的10年累积发病率是17.3%(low rank p=0.92);无腋窝淋巴结清扫术组的10年总生存率是90.8%,腋窝淋巴结清扫术组的10年总生存率是88.2%(low rank p=0.20);无腋窝淋巴结清扫术组出现淋巴水肿的概率是4%,腋窝淋巴结清扫术组出现淋巴水肿的概率是13%(p<0.0001)。
另外根据《新英格兰医学杂志》的关于早期乳腺癌治疗的随机、大样本、长达20年的随访报告,有关于乳腺癌保乳手术和根治术后的长期治疗效果评估,经过长达20年的随访后,得出下列结果:乳腺癌保乳手术后的生存率为58.3%,根治术后的生存率为58.8%;乳腺癌保乳手术后的局部累计复发率为8.8%,根治术后的局部累计复发率为2.3%;乳腺癌保乳手术后的死亡率为41.7%,根治术后的死亡率为41.2%;乳腺癌所致死亡率分别为保乳术26.1%和根治术24.3%。
因此在乳腺癌的治疗中避免过度治疗,可以减轻患者痛苦,提高患者生存质量。但是一个矛盾点是,需要在进行治疗前准确判断出患者需要接收的治疗程度,误判会导致治疗过度或治疗不充分,前者导致患者痛苦增加,后者导致患者术后乳腺癌复发、恶化、转移概率提高。对于这一问题,传统cox生存分析的作用有限,本申请开发了基于图神经网络,使用基因组和转录组数据的乳腺癌预后预测方法,用于在临床上对未经治疗的乳腺癌患者做出预后指示,为治疗手段提供参考。
发明内容
本发明为了解决现有的乳腺癌预后预测准确率有待于提高的问题。
基于深度神经网络的乳腺癌预后指示系统,包括系统实例特征获取单元、相关系数计算单元、最相近基因相似系数矩阵生成单元、相似性多组学特征融合单元、用户输入加权单元和乳腺癌转移预测单元;其中,
系统实例特征获取单元:根据用户输入实例对应的组学特征在TCGA数据库中获取相同的全部乳腺癌实例的组学特征FTCGA
相关系数计算单元:针对组学特征Fraw和组学特征FTCGA中的每个组学数据,分别计算特征的肯德尔相关系数矩阵T;
全局基因相似系数矩阵生成单元:通过公式(1)生成标准化特征相似系数矩阵P;矩阵P对角线元素代表基因与自身的相关系数;
Figure BDA0003897842970000021
其中,P(v)表示组学v对应的全局基因相似系数矩阵;NOmic是根据用户输入组学特征确定的组学个数;T(i,j)是肯德尔相关系数矩阵的第i行j列元素,代表基因i和基因j的相关系数;
最相近基因相似系数矩阵生成单元:选取大小为k的核,代表对于每个基因关注前k个与它最相似的基因,其余的赋值为0;通过公式(2)计算核矩阵:
Figure BDA0003897842970000022
其中,S(v)表示组学v对应的最相近基因相似系数矩阵;
这个操作表示对于每个基因选取k个与它最相似的基因作为重点关注基因列表,其余基因相似性系数赋为0,不予考虑;
相似性多组学特征融合单元:通过公式(3)迭代计算多组学特征相似性融合矩阵:
Figure BDA0003897842970000023
其中,
Figure BDA0003897842970000024
为组学v数据在t次迭代后的特征相似性融合矩阵,
Figure BDA0003897842970000025
t=0代表未经迭代的初始矩阵;
通过公式(4)计算多组学特征的全局相似性:
Figure BDA0003897842970000026
如果输入的是单一组学特征,那么
Figure BDA0003897842970000027
就是对应的
Figure BDA0003897842970000028
用户输入加权单元:首先根据非负矩阵分解的方式对
Figure BDA0003897842970000029
进行分解,得到非负矩阵分解中z个基对应的矩阵W;然后根据矩阵W对用户取户输入的组学特征Fraw进行加权,记为F;
乳腺癌转移预测单元:将F输入给乳腺癌转移预测模型预测乳腺癌是否转移,所述的乳腺癌转移预测模型为机器学习模型,模型输出乳腺癌预后预测结果。
进一步地,所述基于深度神经网络的乳腺癌预后指示系统还包括用户输入特征获取单元;
用户输入特征获取单元:用于获取户输入的实例对应的组学特征Fraw
进一步地,所述用户输入加权单元中根据非负矩阵分解的方式对
Figure BDA0003897842970000031
进行分解,得到非负矩阵分解中z个基对应的矩阵W的过程包括以下步骤:
非负矩阵分解是把一个高维度矩阵分解成两个低维度矩阵的积:
Figure BDA0003897842970000032
W矩阵有z个基,H矩阵每一列为V矩阵投影到W上得到的向量,矩阵分解方法把x个基因的y维特征减少为z维,此时用W(x×z)和H(z×y)表示原矩阵;
上述问题的解由如下最小化问题求解获得:
minimize||V-WH||2,s.t.W≥0,H≥0
引入特征相似性约束算子δ,问题的解转化为:
minimize||V-δ(WH)||2,s.t.W≥0,H≥0
其中δ=(D-1/2·D-1/2),D为矩阵分解中的分解矩阵;
目标函数转化为:
minimize||V-D-1/2WHD-1/2||2,s.t.W≥0,H≥0
这里
Figure BDA0003897842970000033
定义标签约束
Figure BDA0003897842970000034
C为已知转移相关基因标签信息,I是单位矩阵,标签约束表示C中基因类别已知,I中基因每个基因单独一类;引入矩阵Z将上述约束嵌入目标函数,使得同类基因映射到同一点,目标函数转化为:
minimize||V-D-1/2W(AZ)D-1/2||2,s.t.W≥0,Z=A-1H≥0
对上式求解得到W和H。
进一步地,用户输入的组学特征Fraw为基因表达量CE、DNA甲基化特征METH、基因特征突变率MR中的一种或多种。
进一步地,相似性多组学特征融合单元中的迭代次数为3。
进一步地,所述的乳腺癌转移预测模型包括:输入层、第一Hidden层、第一激活层、第二Hidden层、第二激活层、第三Hidden层、第三激活层、第一Drop层、第四Hidden层、第四激活层、第一Flatten层、第一Dense层、第一BatchNormalization层、第二Drop层、第二Dense层和输出层;
其中Hidden是隐层,对数据进行感知操作,Output=h(Input)=ω·input+b,ω和b权重和偏置;Input、Output表示输入和输出;
ReLU是激活函数,ReLU(Input)=max{0,Input};
“Flatten”层把二维数据重新排列变成一维数据;
“Dense”层进行全连接操作,全连接就是对所有获取的数据分配一个权值;
“BatchNormalization”进行批量标准化操作;
“Drop”操作随机丢弃一些神经元。
进一步地,第一Drop层随机drop0.5的数据。
一种计算机存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度神经网络的乳腺癌预后指示系统。
一种基于深度神经网络的乳腺癌预后指示设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度神经网络的乳腺癌预后指示系统。
有益效果:
本发明针对每个具体的实例,通过全部TCGA乳腺癌实例中的分布情况,计算基于与其它所有基因的肯德尔相关系数,可以有效提升预测的准确性,同时本发明还根据最相近基因相似系数矩阵和全局基因相似系数迭代计算多组学特征相似性融合矩阵,可以在使相似性矩阵更快收敛的基础上进一步提升预测的准确性。当本发明采用多组学特征时还可以进一步提升预测效果。
附图说明
图1为本发明流程示意图。
图2为神经网络结构示意图。
具体实施方式
解决背景技术中存在问题的一个解决思路是提升预后差、有转移风险的乳腺癌的预后预测准确率,为了提高乳腺癌转移预测准确率,一个重要的步骤是识别乳腺癌转移相关基因,对此做出如下本发明的设计。下面结合具体实施方式对本发明做出具体说明。
具体实施方式一:结合图1和图2说明本实施方式,
本实施方式为一种基于深度神经网络的乳腺癌预后指示系统,包括:
用户输入特征获取单元:用于获取户输入的实例对应的组学特征Fraw,用户输入的组学特征Fraw为基因表达量CE、DNA甲基化特征METH、基因特征突变率MR中的一种或多种;即可以是三种组学特征的一种、两种或者三种。需要说明的是用户输入的一个实例的组学特征,这个输入需要结合大量其它乳腺癌实例进行后续分析,其它实例的多组学特征由本发明的系统(主要是系统实例特征加载单元)收集并预处理,用户只需要提供待分析的原始数据。
系统实例特征获取单元:根据用户输入实例对应的组学特征在TCGA数据库中获取相同的全部乳腺癌实例的组学特征FTCGA;基于用户输入实例对应的组学特征,获取全部实例的组学特征FTCGA也为中的三种组学特征的一种或多种;
TCGA数据库中存储有全部乳腺癌实例对应的基因表达量CE、DNA甲基化特征METH、基因特征突变率MR组学特征,当然如果用户输入的不限于这三种特征,对应数据库中也存储不限于基因表达量CE、DNA甲基化特征METH、基因特征突变率MR的组学特征;
相关系数计算单元:针对组学特征Fraw和组学特征FTCGA中的每个组学数据,分别计算特征的肯德尔相关系数矩阵(kendall correlation),需要说明的是计算肯德尔相关系数矩阵时是将用户输入的实例和系统中存在的实例对应的组学特征放在一起计算。
将基因表达量CE、DNA甲基化特征METH、基因特征突变率MR对应的肯德尔相关系数矩阵分别为记为Tge、Tme、Tmr;当组学仅有一个时,即单一组学,计算单一组学的肯德尔相关系数矩阵即可,即Tge、Tme、Tmr中的一个。
肯德尔相关系数是常用的测量两个变量统计学关系的统计值,对于每一个基因的数值表示,通过它在全部TCGA乳腺癌实例中的分布情况,计算它与其它所有基因的肯德尔相关系数,肯德尔相关系数的定义和计算公式如下:
在统计学中,肯德尔相关系数是以Maurice Kendall命名的,并经常用希腊字母τ(tau)表示其值。肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。
假设两个随机变量分别为X、Y(也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第i(1<=i<=N)个值分别用Xi、Yi表示。X与Y中的对应元素组成一个元素对集合XY,其包含的元素为(Xi,Yi)(1<=i<=N)。当集合XY中任意两个元素(Xi,Yi)与(Xj,Yj)的排行相同时(也就是说当出现情况1或2时;情况1:Xi>Xj且Yi>Yj,情况2:Xi<Xj且Yi<Yj),这两个元素就被认为是一致的。当出现情况3或4时(情况3:Xi>Xj且Yi<Yj,情况4:Xi<Xj且Yi>Yj),这两个元素被认为是不一致的。当出现情况5或6时(情况5:Xi=Xj,情况6:Yi=Yj),这两个元素既不是一致的也不是不一致的。
Figure BDA0003897842970000061
其中,C表示XY中拥有一致性的元素对数(两个元素为一对);D表示XY中拥有不一致性的元素对数。
Figure BDA0003897842970000062
N1、N2分别是针对集合X、Y计算的,现在以计算N1为例,给出N1的由来(N2的计算可以类推);
将X中的相同元素分别组合成小集合,s表示集合X中拥有的小集合数(例如X包含元素:1 2 3 4 3 3 2,那么这里得到的s则为2,因为只有2、3有相同元素),Ui表示第i个小集合所包含的元素数。N2在集合Y的基础上计算而得。
全局基因相似系数矩阵生成单元:通过公式(1)生成标准化特征相似系数矩阵P;矩阵P对角线元素代表基因与自身的相关系数;
Figure BDA0003897842970000063
其中,P(v)表示组学v(三种组学之一)对应的全局基因相似系数矩阵;NOmic是根据用户输入组学特征确定的组学个数,本实施方式中为3个;T(i,j)是肯德尔相关系数矩阵Tge、Tme或Tmr的第i行j列元素,代表基因i和基因j的相关系数;
这种方法可以保证每次迭代中每个特征都与自己最相似,同时保证特征矩阵满秩,从而使相似性矩阵更快收敛。
最相近基因相似系数矩阵生成单元:选取大小为k的核,代表对于每个基因关注前k个与它最相似的基因,其余的赋值为0。通过公式(2)计算核矩阵:
Figure BDA0003897842970000064
其中,S(v)表示组学v对应的最相近基因相似系数矩阵;
这个操作表示对于每个基因选取k个与它最相似的基因作为重点关注基因列表,其余基因相似性系数赋为0,不予考虑;
相似性多组学特征融合单元:根据设置的迭代次数,通过公式(3)迭代计算多组学特征相似性融合矩阵:
Figure BDA0003897842970000071
其中,
Figure BDA0003897842970000072
为组学v数据在t次迭代后(即t+1次迭代)的特征相似性融合矩阵;
Figure BDA0003897842970000073
t=0代表未经迭代的初始矩阵,就是前面计算出来的肯德尔相关系数矩阵Tge、Tme或Tmr
可以自定义迭代次数,本系统中使用总迭代次数为3。
多次迭代是为了最终达到收敛,收敛的特征融合矩阵的值不再变化。每次迭代都更接近收敛,然而迭代次数过多会导致数据过于平滑,所以本发明选择迭代3次。
通过公式(4)计算多组学特征的全局相似性:
Figure BDA0003897842970000074
如果输入的是单一组学特征,那么
Figure BDA0003897842970000075
就是对应的
Figure BDA0003897842970000076
用户输入加权单元:首先根据非负矩阵分解的方式对
Figure BDA0003897842970000077
进行分解,得到非负矩阵分解中z个基对应的矩阵W;然后根据矩阵W对用户取户输入的组学特征Fraw进行加权,记为F;
非负矩阵分解的核心思想是把一个高维度矩阵分解成两个低维度矩阵的积,z远小于x、y:
Figure BDA0003897842970000078
W矩阵有z个基,H矩阵每一列为V矩阵投影到W上得到的向量,矩阵分解方法把x个基因的y维特征减少为z维,这时使用W(x×z)和H(z×y)就可以表示原矩阵了。
上述问题的解由如下最小化问题求解获得:
minimize||V-WH||2,s.t.W≥0,H≥0
引入特征相似性约束算子δ,问题的解转化为:
minimize||V-δ(WH)||2,s.t.W≥0,H≥0
其中δ=(D-1/2·D-1/2),D为矩阵分解中的分解矩阵,目标函数转化为:
minimize||V-D-1/2WHD-1/2||2,s.t.W≥0,H≥0
这里
Figure BDA0003897842970000079
约束非负矩阵分解算法,将转移相关基因标签信息作为附加的硬约束,使得具有相同类标签信息的数据在新的低维空间中仍然保持一致,从而预测未知基因的乳腺癌转移相关性。
定义标签约束
Figure BDA0003897842970000081
C为已知转移相关基因标签信息,来源于COSMIC中CGC数据库,I是单位矩阵,标签约束表示C中基因类别已知,I中基因每个基因单独一类。引入矩阵Z将上述约束嵌入目标函数,使得同类基因映射到同一点,目标函数转化为:
minimize||V-D-1/2W(AZ)D-1/2||2,s.t.W≥0,Z=A-1H≥0
对上式求解得到W和H;
通过公式(5)给用户输入的原始数据加权:
F=Fraw×W    (5)
乳腺癌转移预测单元:将F输入给乳腺癌转移预测模型预测乳腺癌是否转移,所述的乳腺癌转移预测模型为机器学习模型。
本实施方式中的乳腺癌转移预测模型如图2所示,包括:输入层、第一Hidden层、第一激活层、第二Hidden层、第二激活层、第三Hidden层、第三激活层、第一Drop层、第四Hidden层、第四激活层、第一Flatten层、第一Dense层、第一BatchNormalization层、第二Drop层、第二Dense层和输出层。
其中Hidden是隐层,对数据进行感知操作,可以理解为Output=h(Input)=ω·input+b,ω和b都是要训练的参数,系统参数已经训练完毕,用户直接使用即可;
ReLU是激活函数,ReLU(Input)=max{0,Input}。
“Flatten”层把二维数据(矩阵、图片等点阵)重新排列变成一维数据(数列)。
“Dense”层进行全连接操作,全连接就是对所有获取的数据分配一个权值,数字仍然是批尺寸。
“BatchNormalization”进行批量标准化操作。
“Drop”操作随机丢弃一些神经元,适当drop可以防止过拟合。
图2中箭头代表数据在层间的传递,第3个ReLU层后,随机drop0.5的数据。
模型输出乳腺癌预后预测结果。
具体实施方式二:
本实施方式为一种计算机存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度神经网络的乳腺癌预后指示系统。
应当理解,包括本发明描述的任何方法对应的可以被提供为计算机程序产品、软件或计算机化方法,其可以包括其上存储有指令的非暂时性机器可读介质,所述指令可以用于编程计算机系统,或其他电子装置。存储介质可以包括但不限于磁存储介质,光存储介质;磁光存储介质包括:只读存储器ROM、随机存取存储器RAM、可擦除可编程存储器(例如,EPROM和EEPROM)以及闪存层;或者适合于存储电子指令的其他类型的介质。
具体实施方式三:
本实施方式为基于深度神经网络的乳腺癌预后指示设备,所述设备包括处理器和存储器,应当理解,包括本发明描述的任何包括处理器和存储器的设备,设备还可以包括其他通过信号或指令进行显示、交互、处理、控制等以及其他功能的单元、模块;
所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度神经网络的乳腺癌预后指示系统。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (6)

1.基于深度神经网络的乳腺癌预后指示系统,其特征在于,包括系统实例特征获取单元、相关系数计算单元、最相近基因相似系数矩阵生成单元、相似性多组学特征融合单元、用户输入加权单元和乳腺癌转移预测单元;其中,
系统实例特征获取单元:根据用户输入实例对应的组学特征在TCGA数据库中获取相同的全部乳腺癌实例的组学特征FTCGA
相关系数计算单元:针对组学特征Fraw和组学特征FTCGA中的每个组学数据,分别计算特征的肯德尔相关系数矩阵T;
全局基因相似系数矩阵生成单元:通过公式(1)生成标准化特征相似系数矩阵P;矩阵P对角线元素代表基因与自身的相关系数;
Figure FDA0004131538860000011
其中,P(v)表示组学v对应的全局基因相似系数矩阵;NOmic是根据用户输入组学特征确定的组学个数;T(i,j)是肯德尔相关系数矩阵的第i行j列元素,代表基因i和基因j的相关系数;用户输入的组学特征Fraw为基因表达量CE、DNA甲基化特征METH、基因特征突变率MR中的一种或多种;
最相近基因相似系数矩阵生成单元:选取大小为k的核,代表对于每个基因关注前k个与它最相似的基因,其余的赋值为0;通过公式(2)计算核矩阵:
Figure FDA0004131538860000012
其中,S(v)表示组学v对应的最相近基因相似系数矩阵;
这个操作表示对于每个基因选取k个与它最相似的基因作为重点关注基因列表,其余基因相似性系数赋为0,不予考虑;
相似性多组学特征融合单元:通过公式(3)迭代计算多组学特征相似性融合矩阵:
Figure FDA0004131538860000013
其中,
Figure FDA0004131538860000014
为组学v数据在t次迭代后的特征相似性融合矩阵,
Figure FDA0004131538860000015
t=0代表未经迭代的初始矩阵;
通过公式(4)计算多组学特征的全局相似性:
Figure FDA0004131538860000021
如果输入的是单一组学特征,那么
Figure FDA0004131538860000022
就是对应的
Figure FDA0004131538860000023
用户输入加权单元:首先根据非负矩阵分解的方式对
Figure FDA0004131538860000024
进行分解,得到非负矩阵分解中z个基对应的矩阵W;然后根据矩阵W对用户输入的组学特征Fraw进行加权,记为F;包括以下步骤:
非负矩阵分解是把一个高维度矩阵分解成两个低维度矩阵的积:
Figure FDA0004131538860000025
W矩阵有z个基,H矩阵每一列为V矩阵投影到W上得到的向量,矩阵分解方法把x个基因的y维特征减少为z维,此时用W(x×z)和H(z×y)表示原矩阵;
上述问题的解由如下最小化问题求解获得:
minimize||V-WH||2,s.t.W≥0,H≥0
引入特征相似性约束算子δ,问题的解转化为:
minimize||V-δ(WH)||2,s.t.W≥0,H≥0
其中δ=(D-1/2·D-1/2),D为矩阵分解中的分解矩阵;
目标函数转化为:
minimize||V-D-1/2WHD-1/2||2,s.t.W≥0,H≥0
这里
Figure FDA0004131538860000026
定义标签约束
Figure FDA0004131538860000027
C为已知转移相关基因标签信息,I是单位矩阵,标签约束表示C中基因类别已知,I中基因每个基因单独一类;引入矩阵Z将标签约束嵌入目标函数,使得同类基因映射到同一点,目标函数转化为:
minimize||V-D-1/2W(AZ)D-1/2||2,s.t.W≥0,Z=A-1H≥0
对上式求解得到W和H;
乳腺癌转移预测单元:将F输入给乳腺癌转移预测模型预测乳腺癌是否转移,所述的乳腺癌转移预测模型为机器学习模型,模型输出乳腺癌预后预测结果;
所述的乳腺癌转移预测模型包括:输入层、第一Hidden层、第一激活层、第二Hidden层、第二激活层、第三Hidden层、第三激活层、第一Drop层、第四Hidden层、第四激活层、第一Flatten层、第一Dense层、第一BatchNormalization层、第二Drop层、第二Dense层和输出层;
其中Hidden是隐层,对数据进行感知操作,Output=h(Input)=ω·input+b,ω和b权重和偏置;Input、Output表示输入和输出;
ReLU是激活函数,ReLI(Input)=max{0,Input};
“Flatten”层把二维数据重新排列变成一维数据;
“Dense”层进行全连接操作,全连接就是对所有获取的数据分配一个权值;
“BatchNormalization”进行批量标准化操作;
“Drop”操作随机丢弃一些神经元。
2.根据权利要求1所述的基于深度神经网络的乳腺癌预后指示系统,其特征在于,所述基于深度神经网络的乳腺癌预后指示系统还包括用户输入特征获取单元;
用户输入特征获取单元:用于获取用户输入的实例对应的组学特征Fraw
3.根据权利要求2所述的基于深度神经网络的乳腺癌预后指示系统,其特征在于,相似性多组学特征融合单元中的迭代次数为3。
4.根据权利要求3所述的基于深度神经网络的乳腺癌预后指示系统,其特征在于,第一Drop层随机drop0.5的数据。
5.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至4之一所述的基于深度神经网络的乳腺癌预后指示系统。
6.一种基于深度神经网络的乳腺癌预后指示设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至4之一所述的基于深度神经网络的乳腺癌预后指示系统。
CN202211291501.0A 2022-10-19 2022-10-19 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备 Active CN115631849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211291501.0A CN115631849B (zh) 2022-10-19 2022-10-19 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211291501.0A CN115631849B (zh) 2022-10-19 2022-10-19 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备

Publications (2)

Publication Number Publication Date
CN115631849A CN115631849A (zh) 2023-01-20
CN115631849B true CN115631849B (zh) 2023-04-28

Family

ID=84905799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211291501.0A Active CN115631849B (zh) 2022-10-19 2022-10-19 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备

Country Status (1)

Country Link
CN (1) CN115631849B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161882A (zh) * 2019-12-04 2020-05-15 深圳先进技术研究院 一种基于深度神经网络的乳腺癌生存期预测方法
CN111899882A (zh) * 2020-08-07 2020-11-06 北京科技大学 一种预测癌症的方法及系统
CN112435714A (zh) * 2020-11-03 2021-03-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统
CN114882955A (zh) * 2022-04-08 2022-08-09 广州国家实验室 转录组图像生成装置、方法和应用
CN115171779A (zh) * 2022-07-13 2022-10-11 浙江大学 基于图注意力网络和多组学融合的癌症驱动基因预测装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140228233A1 (en) * 2011-06-07 2014-08-14 Traci Pawlowski Circulating biomarkers for cancer
KR20210111254A (ko) * 2018-11-30 2021-09-10 캐리스 엠피아이, 아이엔씨. 차세대 분자 프로파일링
WO2021112918A1 (en) * 2019-12-02 2021-06-10 Caris Mpi, Inc. Pan-cancer platinum response predictor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161882A (zh) * 2019-12-04 2020-05-15 深圳先进技术研究院 一种基于深度神经网络的乳腺癌生存期预测方法
CN111899882A (zh) * 2020-08-07 2020-11-06 北京科技大学 一种预测癌症的方法及系统
CN112435714A (zh) * 2020-11-03 2021-03-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统
CN114882955A (zh) * 2022-04-08 2022-08-09 广州国家实验室 转录组图像生成装置、方法和应用
CN115171779A (zh) * 2022-07-13 2022-10-11 浙江大学 基于图注意力网络和多组学融合的癌症驱动基因预测装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐绍凯 ; 陈洪波 ; 范琳 ; 刘喻 ; .烟酒成瘾者基因差异性表达及成瘾机理研究.生物医学工程研究.2018,(第03期),第33-37页. *
胡正平 ; 郭增洁 ; 王蒙 ; 孙哲 ; .基于局部特征融合的邻域排斥度量学习亲属关系认证算法.模式识别与人工智能.2017,(第06期),第52-59页. *

Also Published As

Publication number Publication date
CN115631849A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
Collin et al. Extending approximate Bayesian computation with supervised machine learning to infer demographic history from genetic polymorphisms using DIYABC Random Forest
CN111931931B (zh) 一种针对病理全场图像的深度神经网络训练方法、装置
Lv et al. Very short-term probabilistic wind power prediction using sparse machine learning and nonparametric density estimation algorithms
Chen et al. A hybrid intelligent method for three-dimensional short-term prediction of dissolved oxygen content in aquaculture
Kersting et al. Pre-symptomatic prediction of plant drought stress using dirichlet-aggregation regression on hyperspectral images
WO2022167821A1 (en) Drug optimisation by active learning
US20210300390A1 (en) Efficient computational inference using gaussian processes
CN115631849B (zh) 基于深度神经网络的乳腺癌预后指示系统、存储介质及设备
Tripto et al. Evaluation of classification and forecasting methods on time series gene expression data
CN116157846A (zh) 用于分析来自转移部位的病理学数据的机器学习模型
Xu et al. Association Discovery and Diagnosis of Alzheimer s Disease with Bayesian Multiview Learning
Lee et al. Survival prediction and variable selection with simultaneous shrinkage and grouping priors
CN113467881B (zh) 图表样式自动化调整方法、装置、计算机设备和存储介质
CN115620808A (zh) 基于改进Cox模型的癌症基因预后筛选方法及系统
Mbebi et al. L2, 1-norm regularized multivariate regression model with applications to genomic prediction
CN115473219A (zh) 负荷预测方法、装置、计算机设备和存储介质
Collignon et al. Comparison of the modified unbounded penalty and the LASSO to select predictive genes of response to chemotherapy in breast cancer
CN114781207A (zh) 基于不确定性和半监督学习的热源布局温度场预测方法
He et al. Rank-based greedy model averaging for high-dimensional survival data
Utkin et al. SurvBeX: An explanation method of the machine learning survival models based on the Beran estimator
CN112819256A (zh) 一种基于注意力机制的卷积时序房价预测方法
CN112735596A (zh) 一种相似患者的确定方法、装置、电子设备及存储介质
Xu et al. Bayesian ridge estimation of age-period-cohort models
CN116631641B (zh) 一种集成自适应相似患者图的疾病预测装置
CN116564524B (zh) 一种伪标签演变趋势正则的预后预测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant