CN113436682B - 风险人群的预测方法、装置、终端设备及存储介质 - Google Patents
风险人群的预测方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN113436682B CN113436682B CN202110735358.9A CN202110735358A CN113436682B CN 113436682 B CN113436682 B CN 113436682B CN 202110735358 A CN202110735358 A CN 202110735358A CN 113436682 B CN113436682 B CN 113436682B
- Authority
- CN
- China
- Prior art keywords
- training
- cancer
- training sample
- data
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 110
- 201000011510 cancer Diseases 0.000 claims abstract description 94
- 230000014509 gene expression Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 187
- 239000013598 vector Substances 0.000 claims description 76
- 238000004590 computer program Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 6
- 101150010487 are gene Proteins 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Image Analysis (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种风险人群的预测方法、预测装置、终端设备及存储介质。该预测方法包括:获取待测数据,该待测数据为待测用户的基因表达谱数据;将待测数据输入已训练的多任务预测模型进行预测,得到预测结果,该预测结果用于指示所述待测用户属于风险人群的概率。本申请通过已训练的多任务模型对待测数据进行预测,有助于提高癌症风险人群预测结果的准确性。此外,本申请还涉及区块链技术。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种风险人群的预测方法、风险人群的预测装置、终端设备及计算机可读存储介质。
背景技术
癌症是一种侵袭性疾病,治疗过程漫长且成本高昂,但大部分的治疗仅能够增加患者从诊断到死亡的存活时间。疾病都讲究“早发现早治疗”,对于癌症来说,也不例外。其中癌症风险人群的预测作为一项重要手段,能够提供有效信息,辅助医生进行诊断。
目前关于癌症风险人群的预测模型的研究层出不穷,但大部分预测模型对高风险人群预测的准确率较低,难以起到对高风险人群的提醒作用。
发明内容
有鉴于此,本申请实施例提供了一种风险人群的预测方法、风险人群的预测装置、终端设备及计算机可读存储介质,能够提升高风险人群的预测准确率,帮助实现对高风险人群的及时提醒。
本申请实施例的第一方面提供了一种风险人群的预测方法,包括:
获取待测数据,上述待测数据为待测用户的基因表达谱数据;
将上述待测数据输入已训练的多任务预测模型进行预测,得到预测结果,上述预测结果用于指示上述待测用户属于风险人群的概率;
其中,上述已训练的多任务预测模型通过以下步骤训练而得:
获取至少两种癌症的训练样本,上述训练样本为各个癌症的基因表达谱数据;
将每种癌症的训练样本输入待训练的多任务预测模型的输入层进行预处理;
利用上述待训练的多任务预测模型的共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量;
将每种癌症的训练样本向量输入上述待训练的多任务预测模型的特定任务层进行预测,得到每种癌症的训练预测结果;
根据每种癌症的训练预测结果对上述待训练的多任务预测模型进行优化,得到上述已训练的多任务预测模型。
第一获取模块,用于获取待测数据,上述待测数据为待测用户的基因表达谱数据;
预测模块,用于将上述待测数据输入已训练的多任务预测模型进行预测,得到预测结果,上述预测结果用于指示上述待测用户属于风险人群的概率;
第二获取模块,用于获取至少两种癌症的训练样本,上述训练样本为各个癌症的基因表达谱数据;
训练预处理模块,用于将每种癌症的训练样本输入待训练的多任务预测模型的输入层进行预处理;
训练样本处理模块,用于利用上述待训练的多任务预测模型的共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量;
训练预测模块,用于将每种癌症的训练样本向量输入上述待训练的多任务预测模型的特定任务层进行预测,得到每种癌症的训练预测结果;
模型优化模块,用于根据每种癌症的训练预测结果对上述待训练的多任务预测模型进行优化,得到上述已训练的多任务预测模型。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在终端设备上运行的计算机程序,上述处理器执行上述计算机程序时实现第一方面提供的风险人群的预测方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现第一方面提供的风险人群的预测方法的各步骤。
实施本申请实施例提供的一种风险人群的预测方法、风险人群的预测装置、终端设备及计算机可读存储介质具有以下有益效果:
通过先获取不少于两种癌症的训练样本,然后利用该训练样本对预先搭建的多任务预测模型进行训练,得到已训练的多任务预测模型。该训练过程是基于多任务深度学习进行的,即使是小规模的训练样本也能够提供更多癌症领域的共享信息。因此训练完成的多任务预测模型能够学习不同癌症的特征之间的交互关系,以增强每种癌症风险人群的分类性能。最后基于已训练的多任务预测模型基于待测数据预测待测用户是否为某一癌症的风险人群,能够提高风险人群预测结果的准确性,为用户提供及时有效的癌症风险预警信息。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种风险人群的预测方法的实现流程图;
图2是本申请实施例提供的一种多任务预测模型训练方法的实现流程图;
图3是本申请实施例提供的一种卷积操作和自注意力操作的实现流程图;
图4是本申请实施例提供的一种风险人群的预测装置的结构框图;
图5是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的风险人群的预测方法,可以由终端设备,例如笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或个人数字助理(personal digital assistant,PDA)执行。
本申请实施例涉及的风险人群的预测方法,应用于智慧医疗场景中,从而推动智慧城市的建设。
请参阅图1,图1示出了本申请实施例提供的一种风险人群的预测方法的实现流程图。该预测方法包括:
步骤101、获取待测数据。
在预测用户是否为某一癌症的风险人群之前,需要先获取该用户的基因表达数据,即先获取待测数据。在本申请实施例中,基因表达谱数据可以是mRNA表达谱数据,又称二代测序基因表达谱数据。
在一个实施例中,基因表达谱数据可以是多模态数据,例如利用影像学、医疗文本以及基因为外在表现形式的多元化数据。多模态数据的应用更贴近现实场景,不仅更容易获得,而且更利于预测模型学习相关癌症的完整特征,提高风险人群预测的准确性。
步骤102、将待测数据输入已训练的多任务预测模型进行预测,得到预测结果。
在获得待测数据之后,即可将该待测数据输入预先训练完成的多任务预测模型中进行预测,得到预测结果。其中,预测结果用于指示待测用户属于风险人群的概率,该概率能够为用户提供有效的癌症风险预警信息。
由上可以看出,本实施例提供的一种风险人群的预测方法,通过已训练的多任务模型对待测数据进行预测有助于提高癌症风险人群预测结果的准确性。为医生和待测用户提供有效的癌症风险预警信息。
请参阅图2,图2是本申请实施例提供的一种多任务预测模型训练方法的实现流程图。该训练方法包括:
步骤201、获取至少两种癌症的训练样本。
多任务预测模型是基于多任务深度学习进行训练的。多任务深度学习是一种归纳迁移的学习机制,通过利用隐含在多个相关任务中的训练信号,确定出特定领域的共享信息,从而提高模型对每个任务分类的精确度。该训练方法能够解决在模型训练过程中,因训练样本不足所带来的模型泛化能力差以及过拟合的问题。为了能够让多任务预测模型学习到癌症领域的共享信息,需要获取不少于两种癌症的基因表达谱数据作为训练样本。
步骤202、通过训练样本,对待训练的多任务预测模型进行训练,得到已训练的多任务预测模型。
在获得训练样本之后,即可基于该训练样本对多任务预测模型进行训练得到训练完成的多任务预测模型。
在一些实施例中,为了能够让多任务预测模型更全面的学习癌症的特征,上述步骤201具体包括:
针对每种癌症:
A1、获取癌症的多模态数据,多模态数据包括影像数据、电子病历和基因组数据。
对于每一种癌症,可以获取该癌症的多模态数据。其中多模态数据包括但不限于影像数据、电子病历和基因组数据,该数据可以从肿瘤基因组图谱(TCGA)数据库进行下载。具体地,可以下载指定数量的多模态数据,例如每种癌症下载150例多模态数据。
A2、对多模态数据中的每种数据分别进行特征表示,得到多个特征向量。
获得的多模态数据中的每种数据,也即影像数据、电子病历和基因组数据,均属于高维度数据,不利于模型的训练。因此需要对每种数据分别利用特征进行表示,降低样本维度,特征表示后可以得到每种数据对应的特征向量。
A3、对多个特征向量进行叠加操作或者串联操作,得到癌症的训练样本。
在得到多个特征向量之后,即可对多个特征执行叠加操作或者串联操作,得到一个综合对应癌症各方面特征的向量,该向量即为对应癌症的训练样本。
在一些实施例中,为了获得预测准确率较高的多任务预测模型,上述步骤202具体包括:
B1、将每种癌症的训练样本输入输入层进行预处理。
多任务预测模型包括输入层、共享层和特定任务层。将训练样本输入多任务预测模型中,会先输入到输入层,输入层可以对训练样本进行预处理。之所以需要对训练样本进行预处理,是因为:第一,输入的数据单位可能会不一致,会导致模型的收敛速度慢,训练时间长;第二,数据范围大的数据在模型分类过程中的作用可能偏大,而数据范围小的作用可能会偏小,对模型的预测造成干扰。基于以上两个原因进行训练样本的预处理操作,具体地,预处理操作可以包括数据标准化及数据归一化等处理操作。
需要注意的是,在本申请实施例中,输入层可以包括至少两个输入单元,每个输入单元对应接收一种癌症的训练样本。即两种以上癌症的样本是并列输入,有别于现有技术中将多个癌症的训练样本作为一个整体的数据集进行输入。本申请的预测方法能够让多任务预测模型学习到各个癌症的特征之间的相互作用,确定出癌症领域的共享信息。
B2、利用共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量。
在对训练样本执行预处理之后,可以利用共享层学习各个训练样本之间特征的相互作用,以获得癌症领域的共享信息。具体地利用共享层对预处理后的每种癌症的训练样本分别进行卷积操作和自注意力操作。
在一些实施例中,卷积操作和自注意力操作的过程可以参阅图3,即上述步骤B2具体包括:
B21、分别对每个训练样本执行第一卷积操作,得到每个训练样本的第一向量;
先对每个训练样本都执行第一卷积操作(即为图3中的fc),训练样本是高维的基因序列表达特征向量或训练样本向量,可以通过指定维度的卷积核将高维输入映射为稠密(dense)向量,以实现降维。其中卷积核大小可以为1维。
B22、对每个训练样本的第一向量分别执行第二卷积操作、第三卷积操作以及第四卷积操作,得到每个训练样本的第二向量、第三向量以及第四向量。
在利用共享层学习各个训练样本的特征的交互作用之前,先对每个样本的第一向量分别执行三次卷积操作(分别为图3中的fc Q,fc K,fc V),得到每个训练样本的第二向量、第三向量以及第四向量。参阅图3,以第一训练样本x1为例,其第二向量为q1,第三向量为k1,第四向量为v1,其它训练样本以此类推。其中,三次卷积操作之间的参数有所不同,具体设置可以根据实际需要进行调整。
B23、针对每个训练样本:
B231、将训练样本的第二向量分别与各个训练样本的第三向量做点积运算,得到至少两个点积值;
B231、分别对每个点积值执行softmax操作,得到每个点积值的分布概率;
B231、将每个分布概率作为权重对各个训练样本的第四向量进行加权平均运算,得到训练样本的训练样本向量。
针对每个训练样本,对其执行的自注意力操作。为了便于理解,以第一训练样本x1为例:在得到q1之后,通过将q1分别与k1、k2…kn做点积运算,得到n个点积值。其中n与癌症数量相对应,如果获取的是两种癌症的训练样本,那么n为2。得到n个点积值之后,分别对每个点积值执行softmax操作,得到每个点积值的分布概率w。由于有n个点积值,那么执行softmax操作之后,即可获得n个分布概率:w1、w2…wn。得到分布概率之后,将n个分布概率作为权重,为所有训练样本的第三向量v1、v2…vn进行一一对应的加权操作。即w1为v1的权重,w2为v2的权重,…,wn为vn的权重,最后计算加权后的所有训练样本的第三向量的平均值,作为第一训练样本x1在共享层的输出,即第一训练样本向量z1。通过该方法输出的z1,可以学习到q1与其他任务的特征之间的交互关系。对于剩余训练样本x2、x3…xn,以此类推,执行和第一训练样本x1同样的操作,即可获得所有训练样本对应的训练样本向量,由此实现模型对癌症风险人群的分类性能的显著提升。
需要注意的是,上述预测方法阐述的是单头的自注意力操作,同样也可以采用多头的注意力操作。在进行第二卷积操作、第三卷积操作以及第四卷及操作的时候,选取不同的卷积和大小得到头部,其余部分Transformer结构相同,在此不再赘述。
B3、将每种癌症的训练样本向量输入特定任务层进行预测,得到每种癌症的训练预测结果。
在得到每种癌症的训练样本向量之后,即可将其输入到多任务模型的特定任务层进行预测。其中,特定任务层包括多个任务预测单元,一个训练样本向量输入一个任务预测单元中进行预测,分别得到每种癌症的训练预测结果。
B4、根据每种癌症的训练预测结果对待训练的多任务预测模型进行优化,得到已训练的多任务预测模型。
在得到每种癌症的训练预测结果之后,即可根据该训练预测结果对待训练的多任务预测模型进行优化,以得到训练完成的多任务预测模型。
在一个实施例中,待训练的多任务模型的优化过程如下:
C1、根据每种癌症的训练预测结果计算预测损失值的平均值;
C2、判断平均值是否小于设定阈值:
C3、若平均值小于设定阈值,则停止训练,得到已训练的多任务预测模型;
C4、若平均值大于或等于设定阈值,则返回执行将每种癌症的训练样本输入输入层进行预处理的步骤及其后续步骤,直至平均值小于设定阈值,停止训练,得到已训练的多任务预测模型。
每个任务预测单元对应输出一种癌症的训练预测结果。在得到每种癌症所对应的训练预测结果之后,可以计算出这些训练预测结果各自的预测损失值,并求取预测损失值的平均值,将该平均值作为训练误差。当训练误差小于设定阈值时,则说明多任务预测模型已经收敛,也即多任务训练模型已经训练完成。但是,如果训练误差还没有小到可以认为多任务预测模型已经收敛的程度,则需要进一步对模型进行训练,也即返回执行步骤B1及其后续步骤,直到该多任务训练模型收敛,得到训练完成的多任务训练模型为止,结束训练。
需要注意的是,本申请的预测方法具备通用性,不单可用于癌症风险人群的分类任务,还使得基于广义上的采用多组学、多模态特征的疾病预后、生存分析预测成为应用方向。多组学、多模态数据往往包含众多数据源以及数据类型(包含高通量分子化验结果、影像学、病理诊断以及电子病历档案等),尤其是高通量的测序数据,特征维度远大于样本数量,面临维数灾难的挑战。在整合多模态数据时,进行简单的特征拼接进一步加剧维数灾难,需要对每一种类型的数据特征分别进行降维,极度依赖为具体任务特殊设计的特征筛选过程。因此,模型无法高效且有效地在异构数据上进行学习。
而在本申请实施例中,通过多任务深度学习的方式对多任务预测模型进行训练,可以解决单个任务样本的不足所带来的模型过拟合以及预测结果不准确的问题,并能够减少特征空间高维带来的不利影响。其中,将至少两种癌症的基因表达谱数据作为训练样本并行输入,利用模型的共享层实现不同任务之间的信息共享,即使对于小规模的训练样本数据,也能够提取出更多的癌症领域内的共享信息,以增强每种癌症风险人群的分类性能,并提高模型的泛化能力。该多任务预测模型不仅可以同时对不同癌症的小规模数据集进行分类,而且可以采用密切相关的数据集来帮助学习更好的表现形式并提高分类性能。
在一些实施例中,上述预测方法还包括:
将上述待测数据、预测结果和/或已训练的多任务预测模型上传至区块链(Blockchain)中。
其中,为了保证数据的安全性和对用户的公正透明性,可以将各个待测数据、预测结果和/或已训练的多任务预测模型上传至区块链进行存证。用户随后即可通过各自的设备从区块链中下载获得待测数据、预测结果和/或已训练的多任务预测模型,以便查证这些数据是否被篡改。本实施例所指区块链是采用分布式数据存储、点对点传输、共识机制及加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,本申请实施例还提供了一种风险人群的预测装置。
请参阅图4,图4是本申请实施例提供的一种风险人群的预测装置的结构框图。本实施例中该终端设备包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,风险人群的预测装置40包括:
第一获取模块41,用于获取待测数据,待测数据为待测用户的基因表达谱数据;
预测模块42,用于将待测数据输入已训练的多任务预测模型进行预测,得到预测结果,预测结果用于指示待测用户属于风险人群的概率;
第二获取模块,用于获取至少两种癌症的训练样本,训练样本为各个癌症的基因表达谱数据;
训练预处理模块,用于将每种癌症的训练样本输入待训练的多任务预测模型的输入层进行预处理;
训练样本处理模块,用于利用待训练的多任务预测模型的共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量;
训练预测模块,用于将每种癌症的训练样本向量输入待训练的多任务预测模型的特定任务层进行预测,得到每种癌症的训练预测结果;
模型优化模块,用于根据每种癌症的训练预测结果对待训练的多任务预测模型进行优化,得到已训练的多任务预测模型。
作为本申请一实施例,训练样本处理模块可以包括:
第一处理单元,用于分别对每个训练样本执行第一卷积操作,得到每个训练样本的第一向量;
第二处理单元,用于对每个训练样本的第一向量分别执行第二卷积操作、第三卷积操作以及第四卷积操作,得到每个训练样本的第二向量、第三向量以及第四向量;
第三处理单元,用于针对每个训练样本:
将训练样本的第二向量分别与各个训练样本的第三向量做点积运算,得到至少两个点积值;
分别对每个点积值执行softmax操作,得到每个点积值的分布概率;
将每个分布概率作为权重对各个训练样本的第四向量进行加权平均运算,得到训练样本的训练样本向量。
作为本申请一实施例,模型优化模块可以包括:
预测损失值计算单元,用于根据每种癌症的训练预测结果计算预测损失值的平均值;
模型优化单元,用于判断平均值是否小于设定阈值:
若平均值小于设定阈值,则停止训练,得到已训练的多任务预测模型;
若平均值大于或等于设定阈值,则再次触发训练预处理单元的执行,直至平均值小于设定阈值,停止训练,得到已训练的多任务预测模型。
作为本申请一实施例,第一获取模块可以包括:
第一获取单元,用于针对每种癌症,获取癌症的多模态数据,多模态数据包括影像数据、电子病历和基因组数据;
特征表示单元,用于对多模态数据中的每种数据分别进行特征表示,得到多个特征向量;
向量组合单元,用于对多个特征向量进行叠加操作或者串联操作,得到癌症的训练样本。
作为本申请一实施例,上述预测模型可以包括:
数据上传模块,用于在将待测数据输入已训练的多任务预测模型进行预测,得到预测结果之后,将待测数据和/或预测结果和/或已训练的多任务预测模型上传至区块链中。
应当理解的是,图4示出的风险人群的预测装置的结构框图中,各单元用于执行图1至图3对应的实施例中的各步骤,而对于图1至图3对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述,此处不再赘述。
图5是本申请另一实施例提供的一种终端设备的结构框图。如图5所示,该实施例的终端设备50包括:处理器51、存储器52以及存储在上述存储器52中并可在上述处理器51上运行的计算机程序53,例如风险人群的预测方法的程序。处理器51执行上述计算机程序53时实现上述各个风险人群的预测方法各实施例中的步骤,例如图1所示的101至102,或者图2所示的201至202。或者,所述处理器51执行所述计算机程序53时实现上述图4对应的实施例中各单元的功能,例如,图4所示的单元41至42的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序53可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器52中,并由所述处理器51执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序53在所述终端50中的执行过程。例如,所述计算机程序53可以被分割成数据获取模块和预测模块,各模块具体功能如上所述。
所述转台设备可包括,但不仅限于,处理器51、存储器52。本领域技术人员可以理解,图5仅仅是终端设备50的示例,并不构成对终端设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器51可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器52可以是所述终端设备50的内部存储单元,例如终端设备50的硬盘或内存。所述存储器52也可以是所述终端设备50的外部存储设备,例如所述终端设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器52还可以既包括所述终端设备50的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种风险人群的预测方法,其特征在于,所述预测方法包括:
获取待测数据,所述待测数据为待测用户的基因表达谱数据;
将所述待测数据输入已训练的多任务预测模型进行预测,得到预测结果,所述预测结果用于指示所述待测用户属于风险人群的概率;
其中,所述已训练的多任务预测模型通过以下步骤训练而得:
获取至少两种癌症的训练样本,所述训练样本为各个癌症的基因表达谱数据;
将每种癌症的训练样本输入待训练的多任务预测模型的输入层进行预处理;
利用所述待训练的多任务预测模型的共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量;
将每种癌症的训练样本向量输入所述待训练的多任务预测模型的特定任务层进行预测,得到每种癌症的训练预测结果;
根据每种癌症的训练预测结果对所述待训练的多任务预测模型进行优化,得到所述已训练的多任务预测模型;
其中,所述利用所述共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量,包括:
分别对每个训练样本执行第一卷积操作,得到每个训练样本的第一向量;
对每个训练样本的第一向量分别执行第二卷积操作、第三卷积操作以及第四卷积操作,得到每个训练样本的第二向量、第三向量以及第四向量;
针对每个训练样本:
将所述训练样本的第二向量分别与各个训练样本的第三向量做点积运算,得到至少两个点积值;
分别对每个点积值执行softmax操作,得到每个点积值的分布概率;
将每个所述分布概率作为权重对各个训练样本的第四向量进行加权平均运算,得到所述训练样本的训练样本向量。
2.根据权利要求1所述的预测方法,其特征在于,所述根据各个所述训练预测结果对所述待训练的多任务预测模型进行优化,得到所述已训练的多任务预测模型,包括:
根据每种癌症的训练预测结果计算预测损失值的平均值;
判断所述平均值是否小于设定阈值:
若所述平均值小于所述设定阈值,则停止训练,得到所述已训练的多任务预测模型;
若所述平均值大于或等于所述设定阈值,则返回执行所述将每种癌症的训练样本输入所述输入层进行预处理的步骤及其后续步骤,直至所述平均值小于所述设定阈值,停止训练,得到所述已训练的多任务预测模型。
3.根据权利要求1或2所述的预测方法,其特征在于,所述获取至少两种癌症的训练样本,包括:
针对每种癌症:
获取所述癌症的多模态数据,所述多模态数据包括影像数据、电子病历和基因组数据;
对所述多模态数据中的每种数据分别进行特征表示,得到多个特征向量;
对所述多个特征向量进行叠加操作或者串联操作,得到所述癌症的训练样本。
4.根据权利要求1所述的预测方法,其特征在于,在所述将所述待测数据输入已训练的多任务预测模型进行预测,得到预测结果之后,所述预测方法还包括:
将所述待测数据、所述预测结果和/或所述已训练的多任务预测模型上传至区块链中。
5.一种风险人群的预测装置,其特征在于,所述预测装置包括:
第一获取模块,用于获取待测数据,所述待测数据为待测用户的基因表达谱数据;
预测模块,用于将所述待测数据输入已训练的多任务预测模型进行预测,得到预测结果,所述预测结果用于指示所述待测用户属于风险人群的概率;
第二获取模块,用于获取至少两种癌症的训练样本,所述训练样本为各个癌症的基因表达谱数据;
训练预处理模块,用于将每种癌症的训练样本输入待训练的多任务预测模型的输入层进行预处理;
训练样本处理模块,用于利用所述待训练的多任务预测模型的共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量;
训练预测模块,用于将每种癌症的训练样本向量输入所述待训练的多任务预测模型的特定任务层进行预测,得到每种癌症的训练预测结果;
模型优化模块,用于根据每种癌症的训练预测结果对所述待训练的多任务预测模型进行优化,得到所述已训练的多任务预测模型;
其中,所述训练样本处理模块包括:
第一处理单元,用于分别对每个训练样本执行第一卷积操作,得到每个训练样本的第一向量;
第二处理单元,用于对每个训练样本的第一向量分别执行第二卷积操作、第三卷积操作以及第四卷积操作,得到每个训练样本的第二向量、第三向量以及第四向量;
第三处理单元,用于针对每个训练样本:
将训练样本的第二向量分别与各个训练样本的第三向量做点积运算,得到至少两个点积值;
分别对每个点积值执行softmax操作,得到每个点积值的分布概率;
将每个分布概率作为权重对各个训练样本的第四向量进行加权平均运算,得到训练样本的训练样本向量。
6.根据权利要求5所述的预测装置,其特征在于,所述模型优化模块,包括:
预测损失值计算单元,用于根据每种癌症的训练预测结果计算预测损失值的平均值;
模型优化单元,用于判断平均值是否小于设定阈值:
若平均值小于设定阈值,则停止训练,得到已训练的多任务预测模型;
若平均值大于或等于设定阈值,则再次触发训练预处理单元的执行,直至平均值小于设定阈值,停止训练,得到已训练的多任务预测模型。
7.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735358.9A CN113436682B (zh) | 2021-06-30 | 2021-06-30 | 风险人群的预测方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735358.9A CN113436682B (zh) | 2021-06-30 | 2021-06-30 | 风险人群的预测方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113436682A CN113436682A (zh) | 2021-09-24 |
CN113436682B true CN113436682B (zh) | 2024-05-24 |
Family
ID=77758094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110735358.9A Active CN113436682B (zh) | 2021-06-30 | 2021-06-30 | 风险人群的预测方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436682B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053401A (zh) * | 2017-12-27 | 2018-05-18 | 广州市申迪计算机系统有限公司 | 一种b超图像处理方法及装置 |
CN110162799A (zh) * | 2018-11-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 模型训练方法、机器翻译方法以及相关装置和设备 |
CN111598169A (zh) * | 2020-05-18 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、游戏测试方法、模拟操作方法及装置 |
CN111881968A (zh) * | 2020-07-22 | 2020-11-03 | 平安科技(深圳)有限公司 | 多任务分类方法、装置及相关设备 |
CN112163676A (zh) * | 2020-10-13 | 2021-01-01 | 北京百度网讯科技有限公司 | 多任务服务预测模型训练方法、装置、设备以及存储介质 |
CN112201346A (zh) * | 2020-10-12 | 2021-01-08 | 哈尔滨工业大学(深圳) | 癌症生存期预测方法、装置、计算设备及计算机可读存储介质 |
-
2021
- 2021-06-30 CN CN202110735358.9A patent/CN113436682B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053401A (zh) * | 2017-12-27 | 2018-05-18 | 广州市申迪计算机系统有限公司 | 一种b超图像处理方法及装置 |
CN110162799A (zh) * | 2018-11-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 模型训练方法、机器翻译方法以及相关装置和设备 |
CN111598169A (zh) * | 2020-05-18 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、游戏测试方法、模拟操作方法及装置 |
CN111881968A (zh) * | 2020-07-22 | 2020-11-03 | 平安科技(深圳)有限公司 | 多任务分类方法、装置及相关设备 |
CN112201346A (zh) * | 2020-10-12 | 2021-01-08 | 哈尔滨工业大学(深圳) | 癌症生存期预测方法、装置、计算设备及计算机可读存储介质 |
CN112163676A (zh) * | 2020-10-13 | 2021-01-01 | 北京百度网讯科技有限公司 | 多任务服务预测模型训练方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113436682A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amidi et al. | EnzyNet: enzyme classification using 3D convolutional neural networks on spatial representation | |
Iniesta et al. | Machine learning, statistical learning and the future of biological research in psychiatry | |
Wang et al. | SpliceFinder: ab initio prediction of splice sites using convolutional neural network | |
JP2022538866A (ja) | 画像前処理のためのシステム及び方法 | |
Hamida et al. | A Novel COVID‐19 Diagnosis Support System Using the Stacking Approach and Transfer Learning Technique on Chest X‐Ray Images | |
Wang et al. | Adaptive sampling using self-paced learning for imbalanced cancer data pre-diagnosis | |
Guo et al. | A centroid-based gene selection method for microarray data classification | |
Uddin et al. | Machine learning based diabetes detection model for false negative reduction | |
Wu et al. | Deep learning methods for predicting disease status using genomic data | |
Wang et al. | Predicting Protein Interactions Using a Deep Learning Method‐Stacked Sparse Autoencoder Combined with a Probabilistic Classification Vector Machine | |
WO2021062198A1 (en) | Single cell rna-seq data processing | |
Suquilanda-Pesántez et al. | NIFtHool: an informatics program for identification of NifH proteins using deep neural networks | |
Chi et al. | Deep semisupervised multitask learning model and its interpretability for survival analysis | |
Deng et al. | An oversampling method for multi-class imbalanced data based on composite weights | |
Thadajarassiri et al. | Semi-supervised knowledge amalgamation for sequence classification | |
Massi et al. | Feature selection for imbalanced data with deep sparse autoencoders ensemble | |
Chakraborty et al. | Horizontal crossover and co-operative hunting-based Whale Optimization Algorithm for feature selection | |
Oriol Sabat et al. | SALAI-Net: species-agnostic local ancestry inference network | |
Mostafa et al. | Feature reduction for hepatocellular carcinoma prediction using machine learning algorithms | |
Hayet-Otero et al. | Extracting relevant predictive variables for COVID-19 severity prognosis: An exhaustive comparison of feature selection techniques | |
Javidi et al. | Identification of robust deep neural network models of longitudinal clinical measurements | |
Kowald et al. | Transfer learning of clinical outcomes from preclinical molecular data, principles and perspectives | |
Saboor et al. | DDFC: deep learning approach for deep feature extraction and classification of brain tumors using magnetic resonance imaging in E-healthcare system | |
Miller et al. | Model-based metrics: Sample-efficient estimates of predictive model subpopulation performance | |
Ahsan et al. | Imbalanced class data performance evaluation and improvement using novel generative adversarial network-based approach: SSG and GBO |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |