CN117238381A - 通路相关性的确定方法及装置、存储介质及电子设备 - Google Patents
通路相关性的确定方法及装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117238381A CN117238381A CN202311522745.XA CN202311522745A CN117238381A CN 117238381 A CN117238381 A CN 117238381A CN 202311522745 A CN202311522745 A CN 202311522745A CN 117238381 A CN117238381 A CN 117238381A
- Authority
- CN
- China
- Prior art keywords
- gene
- vector
- determining
- vectors
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 1259
- 239000013598 vector Substances 0.000 claims abstract description 884
- 230000037361 pathway Effects 0.000 claims abstract description 212
- 230000006870 function Effects 0.000 claims description 386
- 230000014509 gene expression Effects 0.000 claims description 382
- 238000011144 upstream manufacturing Methods 0.000 claims description 68
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 9
- 239000000758 substrate Substances 0.000 claims description 6
- 239000000523 sample Substances 0.000 claims 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 26
- 241001465754 Metazoa Species 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 10
- 108020004999 messenger RNA Proteins 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 229920002477 rna polymer Polymers 0.000 description 6
- 108020004414 DNA Proteins 0.000 description 5
- 102000053602 DNA Human genes 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 230000014616 translation Effects 0.000 description 5
- 108020004705 Codon Proteins 0.000 description 4
- 230000031018 biological processes and functions Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 238000013401 experimental design Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 3
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000012010 growth Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 101150044508 key gene Proteins 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009145 protein modification Effects 0.000 description 3
- 108700024394 Exon Proteins 0.000 description 2
- 108091092195 Intron Proteins 0.000 description 2
- 108091027974 Mature messenger RNA Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 238000003209 gene knockout Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008635 plant growth Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 201000004384 Alopecia Diseases 0.000 description 1
- 108091033409 CRISPR Proteins 0.000 description 1
- 238000010453 CRISPR/Cas method Methods 0.000 description 1
- 102000003789 Nuclear pore complex proteins Human genes 0.000 description 1
- 108090000163 Nuclear pore complex proteins Proteins 0.000 description 1
- 238000012228 RNA interference-mediated gene silencing Methods 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 108700005075 Regulator Genes Proteins 0.000 description 1
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 230000021736 acetylation Effects 0.000 description 1
- 238000006640 acetylation reaction Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 101150010487 are gene Proteins 0.000 description 1
- -1 as shown in FIG. 2 Proteins 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 230000009368 gene silencing by RNA Effects 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 230000003779 hair growth Effects 0.000 description 1
- 208000024963 hair loss Diseases 0.000 description 1
- 230000003676 hair loss Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种通路相关性的确定方法及装置、存储介质及电子设备,其中,该方法包括:确定第一基因通路和第二基因通路,其中,第一基因通路中包括第一基因,第二基因通路中包括第二基因;确定用于表示第一基因的第一目标向量,并确定用于表示第二基因的第二目标向量;根据第一目标向量和第二目标向量,确定第一基因通路和第二基因通路是否相关。通过本申请,解决了通路相关性的确定效率较低的问题,进而达到了提升通路相关性的确定效率的效果。
Description
技术领域
本申请实施例涉及基因领域,具体而言,涉及一种通路相关性的确定方法及装置、存储介质及电子设备。
背景技术
相关技术中,往往是通过基因表达数据确定基因通路之间的相关性,一方面,这需要昂贵的基因表达数据和周期绵长的实验设计,且对样本获取环境和研究对象基因型敏感。这使得研究者在数据采集和实验设计过程中面临较高的经济和时间成本。另一方面,基于基因表达数据的相关性研究需要严格控制数据质量和准确性,以及复杂的统计和生物信息学分析,以确保研究结果的可靠性和可解释性。这需要具备专业的数据分析技能和丰富的领域知识,为研究者增加了技术门槛和学习成本。可以理解的是,相关技术中,确定基因通路之间的相关性的效率较低。
发明内容
本申请实施例提供了一种通路相关性的确定方法及装置、存储介质及电子设备,以至少解决相关技术中通路相关性的确定效率较低的问题。
根据本申请的一个实施例,提供了一种通路相关性的确定方法,包括:确定第一基因通路和第二基因通路,其中,所述第一基因通路中包括第一基因,所述第二基因通路中包括第二基因,所述第一基因是所述第一基因通路中满足第一预设条件的基因,所述第二基因是所述第二基因通路中满足所述第一预设条件的基因,所述第一预设条件包括所述基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值;确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路是否相关。
在一个示范性实施例中,所述确定用于表示所述第一基因的第一目标向量,包括:确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因的上游基因和/或的下游基因;根据所述第一组基因和所述第一基因,确定所述第一目标向量。
在一个示范性实施例中,所述根据所述第一组基因和所述第一基因,确定所述第一目标向量,包括:在所述第一组基因中的每两个基因中的一个基因不是另一基因的上游基因或下游基因的情况下,根据所述第一组基因和所述第一基因,确定第一组条件概率函数,并根据所述第一组基因和所述第一基因,确定第二组条件概率函数,其中,所述第一组条件概率函数中的第i个条件概率函数用于确定第一组条件概率中的第i个条件概率,所述第i个条件概率表示在确定得到所述第一组基因中的第i个基因的表达结果的情况下,确定得到所述第一基因的表达结果的概率,i为大于或者等于1的正整数,所述第二组条件概率函数中的第j个条件概率函数用于确定第二组条件概率中的第j个条件概率,所述第j个条件概率表示在确定得到所述第一基因的表达结果的情况下,确定得到所述第一组基因中的第j个基因的表达结果的概率,j为大于或者等于1的正整数;根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标损失函数,其中,所述目标损失函数的取值是随用于表示所述第一基因的向量的变化而变化;在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第二预设条件的情况下,将所述目标向量确定为所述第一目标向量。
在一个示范性实施例中,所述根据所述第一组基因和所述第一基因,确定第一组条件概率函数,包括:根据作为变量的第一组向量、作为变量的第二组向量和作为变量的第一向量,确定所述第一组条件概率函数,其中,所述第一组向量中的第i个向量是用于在所述第一组基因中的第i个基因满足所述第一预设条件时表示所述第i个基因的向量,所述第二组向量中的第i个向量是用于所述第一组基因中的第i个基因不满足所述第一预设条件时表示所述第i个基因的向量,所述第一向量是用于在所述第一基因满足所述第一预设条件时表示所述第一基因的向量,i为大于或者等于1的正整数。
在一个示范性实施例中,所述根据作为变量的第一组向量、作为变量的第二组向量和作为变量的第一向量,确定所述第一组条件概率函数,包括:通过执行以下步骤,根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定所述第一组条件概率函数中的第i个条件概率函数:根据所述第二组向量中的第i个向量和所述第一向量,确定第一表达式;根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定第二表达式;将所述第i个条件概率函数确定为所述第一表达式除以所述第二表达式。
在一个示范性实施例中,所述根据所述第二组向量中的第i个向量和所述第一向量,确定第一表达式,包括:将第一乘积表达式确定为对所述第一向量的转置和所述第二组向量中的第i个向量进行乘积操作;将所述第一表达式确定为,其中,/>表示所述第一乘积表达式。
在一个示范性实施例中,所述根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定第二表达式,包括:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第二组向量中的第i个向量进行乘积操作,并将第一乘积表达式确定为对所述第一向量的转置和所述第二组向量中的第i个向量进行乘积操作,其中,N大于或等于1的正整数;将所述第二表达式确定为+/>+...+/>,其中,/>表示所述第一乘积表达式,/>.../>表示所述N个乘积表达式。
在一个示范性实施例中,所述根据所述第一组基因和所述第一基因,确定第二组条件概率函数,包括:根据作为变量的第一组向量、作为变量的第一向量和作为变量的第三向量,确定所述第二组条件概率函数,其中,所述第一组向量中的第j个向量是用于在所述第一组基因中的第j个基因满足所述第一预设条件时表示所述第j个基因的向量,所述第一向量是用于在所述第一基因满足所述第一预设条件时表示所述第一基因的向量,所述第三向量是用于表示在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,j为大于或者等于1的正整数。
在一个示范性实施例中,所述根据作为变量的第一组向量、作为变量的第一向量和作为变量的第三向量,确定所述第二组条件概率函数,包括:通过执行以下步骤,根据所述第一组向量中的第j个向量、所述第一向量和所述第三向量,确定所述第二组条件概率函数中的第j个条件概率函数:根据所述第一组向量中的第j个向量和所述第三向量,确定第三表达式;根据所述第一组向量、所述第一向量和所述第三向量,确定第四表达式;将所述第j个条件概率函数确定为所述第三表达式除以所述第四表达式。
在一个示范性实施例中,所述根据所述第一组向量中的第j个向量和所述第三向量,确定第三表达式,包括:将第二乘积表达式确定为对所述第j个向量的转置和所述第三向量进行乘积操作;将所述第三表达式确定为,其中,/>表示所述第二乘积表达式。
在一个示范性实施例中,所述根据所述第一组向量、所述第一向量和所述第三向量,确定第四表达式,包括:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,并将第二乘积表达式确定为对所述第一向量的转置和所述第三向量进行乘积操作,其中,N大于或等于1的正整数;将所述第四表达式确定为+/>+.../>,其中,/>表示所述第二乘积表达式,/>.../>表示所述N个乘积表达式。
在一个示范性实施例中,所述根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标损失函数,包括:根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标概率密度函数;对所述目标概率密度函数进行取对数操作,得到所述目标损失函数。
在一个示范性实施例中,所述根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标概率密度函数,包括:对所述第一组条件概率函数中的各个条件概率函数执行乘积操作,得到第三乘积表达式;对所述第二组条件概率函数中的各个条件概率函数执行乘积操作,得到第四乘积表达式;将所述目标概率密度函数确定为所述第三乘积表达式和所述第四乘积表达式的乘积。
在一个示范性实施例中,所述在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第二预设条件的情况下,将所述目标向量确定为所述第一目标向量,包括:根据第一组向量、第二组向量和第一向量,得到第一组目标梯度函数,并根据所述第一组向量和第三向量,确定第二组目标梯度函数,其中,所述第一组向量中的第i个向量是用于在所述第一组基因中的第i个基因满足所述第一预设条件时表示所述第i个基因的向量,所述第三向量是用于在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,所述第二组向量中的第i个向量是用于所述第一组基因中的第i个基因不满足所述第一预设条件时表示所述第i个基因的向量。
在一个示范性实施例中,所述根据第一组向量、第二组向量和第一向量,得到第一组目标梯度函数,包括:通过执行以下步骤,确定所述第一组目标梯度函数中的第r组目标梯度函数中的第r1个目标梯度函数和第r2个目标梯度函数,其中,所述第一组目标梯度函数包括多组目标梯度函数,所述多组目标梯度函数包括所述第r组目标梯度函数,r为大于或者等于1的正整数:在所述第一组向量包括N个向量的情况下,根据所述N个向量、所述第一向量和所述第二组向量中的第r个向量,确定N个表达式;根据所述N个表达式和所述第r个向量,确定所述第r1个目标梯度函数;并根据所述N个表达式和所述第一向量,确定所述第r2个目标梯度函数。
在一个示范性实施例中,所述在所述第一组向量包括N个向量的情况下,根据所述N个向量、所述第一向量和所述第二组向量中的第r个向量,确定N个表达式,包括:通过执行以下步骤,根据所述N个向量、所述第二组向量中的第r个向量和所述第一向量,确定所述N个表达式中的第w个表达式,其中,w为大于或者等于1、且小于等于N的正整数:从所述N个向量和所述第一向量中获取T个向量,其中,所述T个向量是用于表示所述第一组基因和所述第一基因中不是所述第一组基因中的第r个基因的上游基因和/或下游基因的基因的向量;将T个乘积表达式确定为所述T个向量的转置与所述第r个向量的乘积,并将T个逻辑函数确定为... />,其中,/>.../>表示所述T个乘积表达式,/>;将第五乘积表达式确定为所述第一组向量中的第w个向量的转置与所述第r个向量的乘积,并将对应的逻辑函数确定为/>,其中,/>表示所述第五乘积表达式,/>;将所述第w个表达式确定为:/>。
在一个示范性实施例中,所述根据所述N个表达式和所述第r个向量,确定所述第r1个目标梯度函数,包括:将N1个乘积表达式确定为所述N个表达式和所述第r个向量的乘积;将所述第r1个目标梯度函数确定为tr-[z11+z12+...+z1T],其中,z11z12...z1T为所述N1个乘积表达式,tr为所述第r个向量。
在一个示范性实施例中,所述根据所述N个表达式和所述第一向量,确定所述第r2个目标梯度函数,包括:将N2个乘积表达式确定为所述N个表达式和所述第一向量的乘积;将所述第r2个目标梯度函数确定为s1-[z21+z22+...+z2T],其中,z21z22...z2T为所述N2个乘积表达式,s1为所述第一向量。
在一个示范性实施例中,所述根据所述第一组向量和第三向量,确定第二组目标梯度函数,包括:通过执行以下步骤,确定所述第二组目标梯度函数中的第k组目标梯度函数中的第k1个目标梯度函数,其中,所述第二组目标梯度函数包括一组或者多组目标梯度函数,所述一组或者多组目标梯度函数包括所述第k组目标梯度函数,k为大于或者等于1的正整数:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,其中,N大于或等于1的正整数;将N个逻辑函数确定为... />,其中,z1...zN表示所述N个乘积表达式,其中,;将所述第k1个目标梯度函数确定为t1-[ />.../>],其中,t1用于表示所述第三向量。
在一个示范性实施例中,所述根据所述第一组向量和第三向量,确定第二组目标梯度函数,包括:通过执行以下步骤,确定所述第二组目标梯度函数中的第k组目标梯度函数中的第k2个目标梯度函数,其中,所述第二组目标梯度函数包括一组或者多组目标梯度函数,所述一组或者多组目标梯度函数包括所述第k组目标梯度函数,k为大于或者等于1的正整数:将所述第k2个目标梯度函数确定为,并将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,其中,/>是所述第一组向量中的用于表示在第k个基因满足所述第一预设条件时表示所述第k个基因的向量,/>... />表示N个逻辑函数,z1...zN表示所述N个乘积表达式,/>。
在一个示范性实施例中,所述确定用于表示所述第二基因的第二目标向量,包括:确定所述第二基因通路中包括的除所述第二基因外的基因,得到第二组基因,其中,所述第二组基因包括在所述第二基因通路中所述第一基因的上游基因和/或下游基因;根据所述第二组基因和所述第二基因,确定所述第二目标向量。
在一个示范性实施例中,所述根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路是否相关,包括:确定所述第一目标向量和所述第二目标向量之间的距离,得到目标距离;根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关。
在一个示范性实施例中,所述根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关,包括:在所述目标距离大于或者等于预设的距离阈值的情况下,确定所述第一基因通路和所述第二基因通路相关;在所述目标距离小于预设的距离阈值的情况下,确定所述第一基因通路和所述第二基因通路不相关。
在一个示范性实施例中,所述基因的表达结果是根据所述基因的上游基因的表达结果确定的,所述基因的下游基因的表达结果是根据所述基因的表达结果确定的。
在一个示范性实施例中,所述第一基因的表达结果是根据所述第一基因的上游基因的表达结果确定的,所述第一基因的下游基因的表达结果是根据所述第一基因的表达结果确定的。
根据本申请的另一个实施例,提供了一种通路相关性的确定装置,包括:第一确定模块,用于确定第一基因通路和第二基因通路,其中,所述第一基因通路中包括第一基因,所述第二基因通路中包括第二基因,所述第一基因是所述第一基因通路中满足第一预设条件的基因,所述第二基因是所述第二基因通路中满足所述第一预设条件的基因,所述第一预设条件包括所述基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值;第二确定模块,用于确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;第三确定模块,用于根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路是否相关。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,可以直接通过表示基因通路中的核心基因的向量,来确定不同的基因通路之间是否相关,避免了通过漫长的实验周期来确定基因通路之间是否相关,可以理解的是,可以理解的是,减少了确定通路相关性所需的经济成本和时间成本,因此,可以解决通路相关性确定效率较低的问题,达到提升通路相关性确定效率的效果。
附图说明
图1是本申请实施例的一种通路相关性的确定方法的服务器设备的硬件结构框图;
图2是根据本申请实施例的一种可选的通路相关性的确定方法的应用场景示意图;
图3是根据本申请实施例的通路相关性的确定方法的流程图;
图4是根据本申请实施例一种可选的确定第一目标向量的示意图一;
图5是根据本申请实施例的一种可选的确定第一目标向量的示意图二;
图6是根据本申请实施例的一种可选的确定目标损失函数的示意图一;
图7是根据本申请实施例的一种可选的确定第一组条件概率函数的示意图一;
图8是根据本申请实施例的一种可选的确定第一组条件概率函数的示意图二;
图9是根据本申请实施例的一种可选的确定第二组条件概率函数的示意图一;
图10是根据本申请实施例的一种可选的确定第二组条件概率函数的示意图二;
图11是根据本申请实施例的一种可选的确定目标损失函数的示意图二;
图12是根据本申请实施例的一种可选的确定第一组目标梯度函数的示意图;
图13是根据本申请实施例的一种可选的确定N个表达式的示意图;
图14是根据本申请实施例的一种可选的确定第二目标向量的示意图;
图15是根据本申请实施例的通路相关性的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在服务器设备或者类似的运算装置中执行。以运行在服务器设备上为例,图1是本申请实施例的一种通路相关性的确定方法的服务器设备的硬件结构框图。如图1所示,服务器设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述服务器设备还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器设备的结构造成限定。例如,服务器设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的通路相关性的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器设备的通信供应方提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
为了更好的理解本申请实施例中的通路相关性的确定方法的应用场景,可以但不限于结合可选的实施例,对本申请实施例中的通路相关性的确定方法的应用场景进行解释和说明,可以但不限于适用于本申请实施例。
图2是根据本申请实施例的一种可选的通路相关性的确定方法的应用场景示意图,如图2所示,基于关键基因节点的通路相关性计算,可以但不限于通过以下步骤,确定第一基因通路和第二基因通路之间是否相关:
步骤S101,确定第一基因通路和第二基因通路,其中,第一基因通路中包括第一基因,第二基因通路中包括第二基因。可选的,第一基因通路可以但不限于包括基因2和基因1之间的通路、基因1和基因3之间的通路、基因1和基因4之间的通路以及基因1和基因5之间的通路,第二基因通路可以但不限于包括基因7和基因6之间的通路、基因6和基因8之间的通路、基因6和基因9之间的通路以及基因6和基因10之间的通路。第一基因是第一基因通路中满足第一预设条件的基因,第二基因是第二基因通路中满足第一预设条件的基因,第一预设条件包括基因的上游基因的数量与基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,例如,第一基因可以但不限于为第一基因通路中的基因1,第二基因可以但不限于为第二基因通路中的基因6。
步骤S102,确定用于表示基因1的第一目标向量,并确定用于表示基因6的第二目标向量。
步骤S103,根据第一目标向量和第二目标向量,确定第一基因通路和第二基因通路是否相关。
通过本申请实施例,以关键基因节点为特征计算基因通路之间的相关性,从大规模的基因信息和样本中提取有价值的信息,更好地探索基因通路之间的相关性。需要说明的是,第一基因通路和第二基因通路中包括的基因可以但不限于相同、部分相同、或者完全不同等等,在本实施例中,仅以第一基因通路和第二基因通路包括的基因完全不同为例,进行解释和说明。
在本实施例中提供了一种通路相关性的确定方法,图3是根据本申请实施例的通路相关性的确定方法的流程图,如图3所示,该流程包括如下步骤:
步骤S302,确定第一基因通路和第二基因通路,其中,所述第一基因通路中包括第一基因,所述第二基因通路中包括第二基因,所述第一基因是所述第一基因通路中满足第一预设条件的基因,所述第二基因是所述第二基因通路中满足所述第一预设条件的基因,所述第一预设条件包括所述基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值;
步骤S304,确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;
步骤S306,根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路是否相关。
通过上述步骤,可以直接通过表示基因通路中的核心基因的向量,来确定不同的基因通路之间是否相关,避免了通过漫长的实验周期来确定基因通路之间是否相关,可以理解的是,减少了确定通路相关性所需的经济成本和时间成本,因此,可以解决通路相关性确定效率较低的问题,达到提升通路相关性确定效率的效果。
其中,上述步骤的执行主体可以为服务器、终端等,但不限于此。
在上述步骤S302提供的技术方案中,第一基因通路中可以但不限于包括多个基因以及多个基因之间的通路,第一基因是第一基因通路包括的多个基因中的基因;第二基因通路中可以但不限于包括多个基因以及多个基因之间的通路,第二基因是第二基因通路包括的多个基因中的基因。
在本申请的各个实施例中,第一基因通路和第二基因通路是待确定是否相关的基因通路,第一基因通路和第二基因通路中包括的基因可以但不限于相同、部分相同、或者完全不同等等。
在本申请的各个实施例中,基因通路可以但不限于包括一组有序的基因(如图2所示,例如,基因通路包括基因2、基因1、基因3、基因4、基因5),其中,有序的基因包括具有上下游关系的一对基因或多对基因,例如,在上述具有上下游关系的一对基因中,或,在上述具有上下游关系的多对基因中的每对基因中,一个基因是另一个基因的上游基因,另一个基因是上述一个基因的下游基因,如图2所示,基因2是基因1的上游基因,基因1是基因2的下游基因。可选的,基因可以但不限于包括生物体的基因,比如,植物的基因或者动物的基因等等。在第一基因通路中,第一基因的表达结果是根据位于第一基因上游的基因的表达结果确定的,也就是说,位于第一基因的上游的基因的表达结果影响第一基因的表达结果;同理,第一基因下游的基因的表达结果是根据第一基因的表达结果确定的,也就是说,第一基因的表达结果影响位于第一基因的下游的基因的表达结果。
作为一种可选的示例,基因的表达结果可以但不限于包括通过基因的表达过程(例如,转录、RNA(Ribonucleic Acid,核糖核酸)剪接、翻译和蛋白质修饰)所形成的产物。
在本申请的各个实施例中,上述基因的表达过程是指基因从DNA(DeoxyriboNucleic Acid,脱氧核糖核酸)转录成mRNA(messenger RNA,信使核糖核酸),再通过mRNA翻译成蛋白质的过程。例如,转录(Transcription):在细胞的细胞核中,DNA的双链被解开,其中的一个链作为模板,通过RNA聚合酶(RNA polymerase)的作用,将DNA的信息转录成一条单链的mRNA。转录过程中,RNA聚合酶按照DNA上的碱基序列合成相应的mRNA分子,其中A(腺嘌呤)与U(尿嘧啶)配对,C(胞嘧啶)与G(鸟嘌呤)配对。
RNA剪接(RNA Splicing):在转录过程中,只有一小部分mRNA序列编码成蛋白质,其余部分称为内含子(introns)。RNA剪接是指将内含子从mRNA中剪除,将外显子(exons)连接起来的过程。这样,经过剪接的mRNA序列称为成熟mRNA。
翻译(Translation):成熟的mRNA通过核孔蛋白复合物进入细胞质,与核糖体结合进行翻译。翻译过程中,mRNA上的三个碱基一组称为密码子(codon),每个密码子对应一个特定的氨基酸。tRNA(转运RNA)通过把适配的氨基酸带到核糖体上,使氨基酸按照mRNA上的密码子序列连接起来,形成蛋白质的链。这个过程持续进行,直到遇到终止密码子,蛋白质合成终止。
蛋白质修饰(Protein Modification):合成的蛋白质可能需要经过修饰才能发挥功能。修饰包括磷酸化、甲基化、乙酰化等化学改变,以及蛋白质的折叠、剪切等结构改变。
在本申请的各个实施例中,上述第一基因通路和第二基因通路可以但不限于会导致目标事件的发生。上述目标事件可以但不限于包括:植物的生长事件,例如,植物的长度发生变化(如,植物的长度变大,或,植物的长度不变,或,植物的长度变小),植物的颜色发生变化(如,植物的颜色变黑,或,植物的颜色变绿),植物开花,或者,植物结出果实;动物的生长事件,例如,动物的体重发生变化(如,动物的体重增大,或者,动物的体重不变,或者,动物的体重减小),动物的毛发发生变化(如,动物的毛发脱落,动物的毛发停止生长)。
在本申请的各个实施例中,基因通路(例如,上述第一基因通路,或者,第二基因通路)中的基因(例如,第一基因,或者,第二基因)的表达结果与预设的目标事件之间的相关度可以但不限于是通过基因的上游基因的基因的第一数量、以及位于该基因的下游的基因的第二数量确定的,可以理解的是,相关度可以但不限于是通过影响基因的表达结果的上游的基因的第一数量以及该基因的表达结果影响的下游基因的第二数量确定的,相关度和第一数量与第二数量的之和呈正相关,例如,第一数量和第二数量之和越大,基因的表达结果与预设的目标事件之间的相关度越高。
第一基因是第一基因通路中满足第一预设条件的基因,可以理解的是,在第一基因通路中第一基因的上游基因的数量和下游基因的数量之和最大,或者第一基因的上游基因的数量和下游基因的数量之和大于或等于预设的数量阈值,在这样的情况下,第一基因可能是导致目标事件发生的核心基因,可以理解的是,第一基因的表达结果与目标事件之间的相关度大于或者等于预设的相关度阈值。
例如,如图2所示,基因1的上游基因包括基因1,基因1的下游基因包括基因3、基因4和基因5,基因2的下游基因包括基因1,基因3的上游基因包括基因1,基因4的上游基因包括基因1,基因5的上游基因包括基因1,在这样的情况下,第一基因可以但不限于为基因1。同理,第一基因可以但不限于为基因2。
在上述步骤S304提供的技术方案中,可以但不限于确定用于表示第一基因的第一目标向量,并确定用于表示第二基因的第二目标向量,可以理解的是,通过向量来表示基因通路中的基因,第一目标向量的确定方式和第二目标向量的确定方式可以但不限于相同。
可选的,在本实施例中,基因通路中的每个基因可以但不限于通过一个或者多个向量来表示,第一目标向量和第二目标向量可以但不限于不同,可以理解的是,表示第一基因的向量和表示第二基因的向量是不同的。
在一个示范性实施例中,可以但不限于通过以下方式确定用于表示第一基因的第一目标向量:确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因的上游基因和/或的下游基因;根据所述第一组基因和所述第一基因,确定所述第一目标向量。
可选的,在本实施例中,第一基因的上游基因可以但不限于在第一基因通路中位于第一基因的上游的基因,第一基因的上游基因可以但不限于包括一个或者多个基因,第一基因的下游基因可以但不限于包括在第一基因通路中位于第一基因的下游的基因,第一基因的下游基因可以但不限于包括一个或者多个基因,第一基因的表达结果是根据第一基因的上游基因的表达结果确定的,可以理解的是,第一基因的表达结果受到第一基因的上游基因的表达结果的影响,例如,在确定第一基因的表达结果的过程中需要使用第一基因的上游基因的表达结果。
可选的,在本实施例中,第一基因的下游基因的表达结果是根据第一基因的表达结果确定的,可以理解的是,第一基因的下游基因的表达结果受到第一基因的表达结果的影响,例如,在确定第一基因的下游基因的表达结果的过程中需要使用第一基因的表达结果。
可选的,在本实施例中,可以但不限于根据第一基因通路中包括的除第一基因外的基因和第一基因,确定第一目标向量,图4是根据本申请实施例一种可选的确定第一目标向量的示意图一,如图4所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,在这样的情况下,第一组基因可以但不限于包括基因2至5,可以但不限于根据基因2至5和基因1,确定第一目标向量。
在一个示范性实施例中,可以但不限于通过以下方式根据第一组基因和第一基因,确定第一目标向量:在所述第一组基因中的每两个基因中的一个基因不是另一基因的上游基因或下游基因的情况下,根据所述第一组基因和所述第一基因,确定第一组条件概率函数,并根据所述第一组基因和所述第一基因,确定第二组条件概率函数,其中,所述第一组条件概率函数中的第i个条件概率函数用于确定第一组条件概率中的第i个条件概率,所述第i个条件概率表示在确定得到所述第一组基因中的第i个基因的表达结果的情况下,确定得到所述第一基因的表达结果的概率,i为大于或者等于1的正整数,所述第二组条件概率函数中的第j个条件概率函数用于确定第二组条件概率中的第j个条件概率,所述第j个条件概率表示在确定得到所述第一基因的表达结果的情况下,确定得到所述第一组基因中的第j个基因的表达结果的概率,j为大于或者等于1的正整数;根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标损失函数,其中,所述目标损失函数的取值是随用于表示所述第一基因的向量的变化而变化;在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第二预设条件的情况下,将所述目标向量确定为所述第一目标向量。
可选的,在本实施例中,目标损失函数的取值是随用于表示第一基因的向量的变化而变化,可以理解的是,目标损失函数的一个自变量是用于表示第一基因的向量。
可选的,在本实施例中,可以但不限于在用于表示第一基因的向量为目标向量时目标损失函数满足第二预设条件的情况下,将目标向量确定为第一目标向量,图5是根据本申请实施例的一种可选的确定第一目标向量的示意图二,如图5所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,在这样的情况下,第一组基因可以但不限于包括基因2至5,在这样的情况下,可以但不限于根据第一组基因和第一基因,确定目标损失函数,在用于表示基因1的向量为目标向量时目标损失函数满足第二预设条件的情况下,将目标向量确定为第一目标向量。
可选的,在本实施例中,在第一组基因中的每两个基因中的一个基因不是另一基因的上游基因或下游基因的情况下,可以理解的是,在第一组基因中的各个基因的表达结果是相互独立确定的情况下,在第一组基因中位于第一基因的上游的各个基因之间的表达结果是相互独立的,并且在第一组基因中位于第一基因的下游的各个基因之间的表达结果是相互独立的,第一基因的上游基因的表达结果不会影响第一基因的下游基因的表达结果。可以理解的是,在第一组基因中位于第一基因的上游的各个基因之间的表达结果之间是不会相互影响的,在第一组基因中位于第一基因的下游的各个基因之间的表达结果之间是不会相互影响的,在第一组基因中位于第一基因的上游的各个基因的表达结果与在第一组基因中位于第一基因的下游的各个基因的表达结果之间是不会相互影响的。
可选的,在本实施例中,可以但不限于根据第一组条件概率函数和第二组条件概率函数,确定目标损失函数,图6是根据本申请实施例的一种可选的确定目标损失函数的示意图一,如图6所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,在这样的情况下,第一组基因可以但不限于包括基因2至5,在这样的情况下,可以但不限于根据基因2至5和基因1,确定第一组条件概率函数、/>、、/>。并根据基因2至5和基因1,确定第二组条件概率函数、/>、/>和/>。
在一个示范性实施例中,可以但不限于通过以下方式根据第一组基因和第一基因,确定第一组条件概率函数:根据作为变量的第一组向量、作为变量的第二组向量和作为变量的第一向量,确定所述第一组条件概率函数,其中,所述第一组向量中的第i个向量是用于在所述第一组基因中的第i个基因满足所述第一预设条件时表示所述第i个基因的向量,所述第三向量是用于在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,所述第二组向量中的第i个向量是用于所述第一组基因中的第i个基因不满足所述第一预设条件时表示所述第i个基因的向量。
可选的,在本实施例中,核心基因是在第一组基因和所述第一基因中,满足第一预设条件的基因的表达结果与预设的目标事件的相关度最大的基因,核心基因可以但不限于包括一个或者多个基因。
可选的,在本实施例中,第一组基因中的各个基因以及第一基因可能既是核心基因,也是上游基因或者下游基因,例如在图2中,基因1既是核心基因,基因1又是基因3、基因4和基因5的核心基因。可以理解的是,第一组基因中的各个基因和第一基因可以但不限于通过对应的两个向量进行表示。
可选的,在本实施例中,可以但不限于根据作为变量的第一组向量、作为变量的第二组向量和作为变量的第一向量,确定第一组条件概率函数,图7是根据本申请实施例的一种可选的确定第一组条件概率函数的示意图一,如图7所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。
第一组向量可以但不限于包括向量S2、S3、S4和S5,其中,S2是用于在基因2是核心基因时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4是核心基因时表示基因4的向量,S5是用于在基因5是核心基因时表示基因5的向量。
第二组向量可以但不限于包括向量t2、t3、t4和t5,其中,t2是用于在基因2不是核心基因时表示基因2的向量,t3是用于在基因3不是核心基因时表示基因3的向量,t4是用于在基因4不是核心基因时表示基因4的向量,t5是用于在基因5不是核心基因时表示基因5的向量。
在这样的情况下,可以但不限于根据第一组向量(例如,向量S2、S3、S4和S5)、第二组向量(例如,向量t2、t3、t4和t5)和向量S1(或称为,第一向量),确定第一组条件概率函数、/>、/>、/>。
在一个示范性实施例中,可以但不限于通过执行以下步骤,根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定所述第一组条件概率函数中的第i个条件概率函数:根据所述第二组向量中的第i个向量和所述第一向量,确定第一表达式;根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定第二表达式;将所述第i个条件概率函数确定为所述第一表达式除以所述第二表达式。
可选的,在本实施例中,可以但不限于以i=3,即确定第一组条件概率函数中的第3个条件概率函数为例,对本申请实施例中的确定第一组条件概率函数的过程进行解释和说明,可以但不限于适用于本申请实施例。
图8是根据本申请实施例的一种可选的确定第一组条件概率函数的示意图二,如图8所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。
第一组向量可以但不限于包括向量S2、S3、S4和S5,其中,S2是用于在基因2是核心基因时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4是核心基因时表示基因4的向量,S5是用于在基因5是核心基因时表示基因5的向量。
第二组向量可以但不限于包括向量t2、t3、t4和t5,其中,t2是用于在基因2不是核心基因时表示基因2的向量,t3是用于在基因3不是核心基因时表示基因3的向量,t4是用于在基因4不是核心基因时表示基因4的向量,t5是用于在基因5不是核心基因时表示基因5的向量。
在这样的情况下,可以但不限于根据向量t3和向量S1(或称为,第一向量),确定第一表达式;根据第一组向量(例如,向量S2、S3、S4和S5)、向量t3和向量S1,确定第二表达式;将第3个条件概率函数确定为第一表达式除以第二表达式。
在一个示范性实施例中,可以但不限于通过以下方式根据第二组向量中的第i个向量和第一向量,确定第一表达式:将第一乘积表达式确定为对所述第一向量的转置和所述第二组向量中的第i个向量进行乘积操作;将所述第一表达式确定为,其中,/>表示所述第一乘积表达式。
可选的,在本实施例中,可以但不限于将第一乘积表达式确定为对第一向量的转置和所述第二组向量中的第i个向量进行乘积操作,例如,将第一乘积表达式确定为,其中,S1是第一向量,t3是用于在基因3不是核心基因时表示基因3的向量,那么将第一表达式确定为/>。
在一个示范性实施例中,可以但不限于通过以下方式根据第一组向量、第二组向量中的第i个向量和第一向量,确定第二表达式:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第二组向量中的第i个向量进行乘积操作,并将第一乘积表达式确定为对所述第一向量的转置和所述第二组向量中的第i个向量进行乘积操作,其中,N大于或等于1的正整数;将所述第二表达式确定为+/>+...+/>,其中,/>表示所述第一乘积表达式,/>.../>表示所述N个乘积表达式。
可选的,在本实施例中,可以但不限于以N=4,即第一组向量中包括向量S2、S3、S4和S5为例,可以但不限于将4个乘积表达式分别确定为对S2、S3、S4和S5的转置和向量t3进行乘积操作,并将第一乘积表达式确定为对向量S1的转置和向量t3进行乘积操作,可以理解的是,第一乘积表达式可以但不限于为,其中,/>表示向量S1的转置。
将第二表达式确定为,其中,/>表示第一乘积表达式,/>表示4个乘积表达式,可以理解的是,第二表达式可以但不限于为:。
为了更好的理解本申请实施例中的第一组条件概率函数,可以但不限于以图2为例,确定第一组条件概率函数,其中,G={1,2,3,4,5}分别对应{基因1,基因2,基因3,基因4,基因5},第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。第一组向量可以但不限于包括向量S2、S3、S4和S5,其中,向量S2是用于在基因2是核心基因时表示基因2的向量,向量S3是用于在基因3是核心基因时表示基因3的向量,向量S4是用于在基因4是核心基因时表示基因4的向量,向量S5是用于在基因5是核心基因时表示基因5的向量。
第二组向量可以但不限于包括向量t2、t3、t4和t5,其中,向量t2是用于在基因2不是核心基因时表示基因2的向量,向量t3是用于在基因3不是核心基因时表示基因3的向量,向量t4是用于在基因4不是核心基因时表示基因4的向量,向量t5是用于在基因5不是核心基因时表示基因5的向量。
在这样的情况下,第一组条件概率函数可以但不限于包括:
在一个示范性实施例中,可以但不限于通过以下方式根据第一组基因和第一基因,确定第二组条件概率函数:根据作为变量的第一组向量、作为变量的第一向量和作为变量的第三向量,确定所述第二组条件概率函数,其中,所述第一组向量中的第j个向量是用于在所述第一组基因中的第j个基因满足所述第一预设条件时表示所述第j个基因的向量,所述核心基因是在所述第一组基因和所述第一基因中满足所述第一预设条件的基因,所述第一向量是用于在所述第一基因满足所述第一预设条件时表示所述第一基因的向量,所述第三向量是用于表示在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,j为大于或者等于1的正整数。
可选的,在本实施例中,可以但不限于根据作为变量的第一组向量、作为变量的第一向量和作为变量的第三向量,确定第二组条件概率函数,图9是根据本申请实施例的一种可选的确定第二组条件概率函数的示意图一,如图9所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。
第一组向量可以但不限于包括向量S2、S3、S4和S5,其中,S2是用于在基因2是核心基因时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4是核心基因时表示基因4的向量,S5是用于在基因5是核心基因时表示基因5的向量。向量S1是用于表示在基因1是核心基因时表示基因1的向量,向量t1是用于表示在基因1不是核心基因时表示基因1的向量。
在这样的情况下,可以但不限于根据第一组向量(例如,向量S2、S3、S4和S5)、向量S1(或称为,第一向量)、和向量t1(或称为,第三向量),确定第二组条件概率函数、/>、/>和/>。
在一个示范性实施例中,可以但不限于通过以下方式根据作为变量的第一组向量、作为变量的第一向量和作为变量的第三向量,确定第二组条件概率函数:通过执行以下步骤,根据所述第一组向量中的第j个向量、所述第一向量和所述第三向量,确定所述第二组条件概率函数中的第j个条件概率函数:根据所述第一组向量中的第j个向量和所述第三向量,确定第三表达式;根据所述第一组向量、所述第一向量和所述第三向量,确定第四表达式;将所述第j个条件概率函数确定为所述第三表达式除以所述第四表达式。
可选的,在本实施例中,可以但不限于以确定第二组条件概率函数中的为例,图10是根据本申请实施例的一种可选的确定第二组条件概率函数的示意图二,如图10所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。
第一组向量可以但不限于包括向量S2、S3、S4和S5,其中,S2是用于在基因2是核心基因时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4是核心基因时表示基因4的向量,S5是用于在基因5是核心基因时表示基因5的向量。向量S1是用于表示在基因1是核心基因时表示基因1的向量,向量t1是用于表示在基因1不是核心基因时表示基因1的向量。
在这样的情况下,可以但不限于根据第一组向量中的向量S3和向量t1(或称为,第三向量),确定第三表达式;根据第一组向量(例如,向量S2、S3、S4和S5)、向量S1(或称为,第一向量)和向量t1(或称为,第三向量),确定第四表达式;将条件概率函数确定为第三表达式除以第四表达式。/>
在一个示范性实施例中,可以但不限于通过以下方式根据第一组向量中的第j个向量和所述第三向量,确定第三表达式,包括:将第二乘积表达式确定为对所述第j个向量的转置和所述第三向量进行乘积操作;将所述第三表达式确定为,其中,/>表示所述第二乘积表达式。
可选的,在本实施例中,可以但不限于将第二乘积表达式确定为对第j个向量的转置和第三向量进行乘积操作,例如,以确定条件概率函数为例,将第二乘积表达式确定为向量S3的转置和向量t1(或称为,第三向量)进行乘积操作,也就是说,将第二乘积表达式确定为/>,将第三表达式确定为/>。
在一个示范性实施例中,可以但不限于通过以下方式根据第一组向量、第一向量和第三向量,确定第四表达式:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,并将第二乘积表达式确定为对所述第一向量的转置和所述第三向量进行乘积操作,其中,N大于或等于1的正整数;将所述第四表达式确定为+/>+.../>,其中,/>表示所述第二乘积表达式,/>.../>表示所述N个乘积表达式。
可选的,在本实施例中,可以但不限于以N=4,即第一组向量中包括向量S2、S3、S4和S5为例,可以但不限于将4个乘积表达式分别确定为对S2、S3、S4和S5的转置和向量t1(或称为,第三向量)进行乘积操作,并将第二乘积表达式确定为对向量S1(或称为,第一向量的转置和向量t1进行乘积操作,可以理解的是,第二乘积表达式可以但不限于为,其中,/>表示向量S3的转置。
将第四表达式确定为,其中,/>表示所述第二乘积表达式,/>表示所述N个乘积表达式,其中,/>表示第二乘积表达式,表示4个乘积表达式,可以理解的是,第四表达式可以但不限于为:。
为了更好的理解本申请实施例中的第二组条件概率函数,可以但不限于以图2为例,确定第一组条件概率函数,其中,G={1,2,3,4,5}分别对应{基因1,基因2,基因3,基因4,基因5},第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。第一组向量可以但不限于包括向量S2、S3、S4和S5,其中,向量S2是用于在基因2是核心基因时表示基因2的向量,向量S3是用于在基因3是核心基因时表示基因3的向量,向量S4是用于在基因4是核心基因时表示基因4的向量,向量S5是用于在基因5是核心基因时表示基因5的向量。
第二组向量可以但不限于包括向量t2、t3、t4和t5,其中,向量t2是用于在基因2不是核心基因时表示基因2的向量,向量t3是用于在基因3不是核心基因时表示基因3的向量,向量t4是用于在基因4不是核心基因时表示基因4的向量,向量t5是用于在基因5不是核心基因时表示基因5的向量。
在这样的情况下,第二组条件概率函数可以但不限于包括:
在一个示范性实施例中,可以但不限于通过以下方式根据第一组条件概率函数和第二组条件概率函数,确定目标损失函数:根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标概率密度函数;对所述目标概率密度函数进行取对数操作,得到所述目标损失函数。
可选的,在本实施例中,可以但不限于对目标概率密度函数进行取对数操作,得到目标损失函数,或者,对目标概率密度函数进行取对数操作,得到取对结果,对取对结果进行取负操作,得到目标损失函数。
在一个示范性实施例中,可以但不限于通过以下方式根据第一组条件概率函数和第二组条件概率函数,确定目标概率密度函数:对所述第一组条件概率函数中的各个条件概率函数执行乘积操作,得到第三乘积表达式;对所述第二组条件概率函数中的各个条件概率函数执行乘积操作,得到第四乘积表达式;将所述目标概率密度函数确定为所述第三乘积表达式和所述第四乘积表达式的乘积。
可选的,在本实施例中,可以但不限于将目标概率密度函数确定为第一组条件概率函数的各个条件概率函数和第二组条件概率函数的各个条件概率函数进行连乘,图11是根据本申请实施例的一种可选的确定目标损失函数的示意图二,如图11所示,G={1,2,3,4,5}分别对应{基因1,基因2,基因3,基因4,基因5},第一组条件概率函数可以但不限于包括、/>、/>、/>,第二组条件概率函数可以但不限于包括、/>、/>和/>。在这样的情况下,可以但不限于通过以下公式(1)确定目标概率密度函数:
(1)/>
其中,为目标概率密度函数,为第四乘积表达式,为第三乘积表达式。
在这样的情况下,可以但不限于对目标概率密度函数进行取对数操作,得到取对结果,对取对结果进行取负操作,得到目标损失函数,例如,,其中,,/>为目标损失函数。
在一个示范性实施例中,可以但不限于通过以下方式在用于表示所述第一基因的向量为目标向量时目标损失函数满足第二预设条件的情况下,将目标向量确定为第一目标向量:根据第一组向量、第二组向量和第一向量,得到第一组目标梯度函数,并根据所述第一组向量和第三向量,确定第二组目标梯度函数,其中,所述第一组向量中的第i个向量是用于在所述第一组基因中的第i个基因满足所述第一预设条件时表示所述第i个基因的向量,所述第三向量是用于在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,所述第二组向量中的第i个向量是用于所述第一组基因中的第i个基因不满足所述第一预设条件时表示所述第i个基因的向量。
可选的,在本实施例中,在第一组目标梯度函数的函数值与第二组目标梯度函数的函数值均为预设值(例如,0、0.2等等,本申请对此不作限制)、且当第一向量等于目标向量时,目标损失函数的函数值最小的情况下,将目标向量确定为第一目标向量,可以理解的是,在第一组目标梯度函数的函数值与第二组目标梯度函数的函数值均为预设值的情况下,目标损失函数的函数值最小,在这样的情况下,将目标向量确定为第一目标向量。
在一个示范性实施例中,可以但不限于通过执行以下步骤,确定所述第一组目标梯度函数中的第r组目标梯度函数中的第r1个目标梯度函数和第r2个目标梯度函数,其中,所述第一组目标梯度函数包括多组目标梯度函数,所述多组目标梯度函数包括所述第r组目标梯度函数,r为大于或者等于1的正整数:在所述第一组向量包括N个向量的情况下,根据所述N个向量、所述第一向量和所述第二组向量中的第r个向量,确定N个表达式;根据所述N个表达式和所述第r个向量,确定所述第r1个目标梯度函数;并根据所述N个表达式和所述第一向量,确定所述第r2个目标梯度函数。
可选的,在本实施例中,第一组目标梯度函数中可以但不限于包括多组目标梯度函数,每组目标梯度函数可以但不限于包括两个目标梯度函数,以第r组目标梯度函数中的第r1个目标梯度函数和第r2个目标梯度函数为例,第r1个目标梯度函数还可以但不限于是通过对目标损失函数求偏导得到的。
可选的,在本实施例中,图12是根据本申请实施例的一种可选的确定第一组目标梯度函数的示意图,如图12所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。G={1,2,3,4,5}分别对应{基因1,基因2,基因3,基因4,基因5}。第一组向量可以但不限于包括向量S2、S3、S4和S5,其中,向量S2是用于在基因2是核心基因时表示基因2的向量,向量S3是用于在基因3是核心基因时表示基因3的向量,向量S4是用于在基因4是核心基因时表示基因4的向量,向量S5是用于在基因5是核心基因时表示基因5的向量。向量t3是用于在基因3不是核心基因时表示基因3的向量,向量S1(或称为,第一向量)是用于在基因1是核心基因时表示基因1的向量。
在这样的情况下,第一组目标梯度函数可以但不限于包括:、/>、、/>、/>、/>、/>和/>。可以但不限于以确定/>和为例,那么可以但不限于根据向量S2、S3、S4和S5、向量S1和向量t3,确定N个表达式;根据N个表达式和向量t3,确定第r1个目标梯度函数/>;并根据N个表达式和向量t3,确定第r2个目标梯度函数/>。
在一个示范性实施例中,可以但不限于通过执行以下步骤,根据所述N个向量、所述第二组向量中的第r个向量和所述第一向量,确定所述N个表达式中的第w个表达式,其中,w为大于或者等于1、且小于等于N的正整数:从所述N个向量和所述第一向量中获取T个向量,其中,所述T个向量是用于表示所述第一组基因和所述第一基因中不是所述第一组基因中的第r个基因的上游基因和/或下游基因的基因的向量;将T个乘积表达式确定为所述T个向量的转置与所述第r个向量的乘积,并将T个逻辑函数确定为... />,其中,.../>表示所述T个乘积表达式,/>;将第五乘积表达式确定为所述第一组向量中的第w个向量的转置与所述第r个向量的乘积,并将对应的逻辑函数确定为/>,其中,/>表示所述第五乘积表达式,/>;将所述第w个表达式确定为:。
可选的,在本实施例中,第一组基因中的各个基因所对应的T个向量可以但不限于相同或者不同等等,可以理解的是,第一组基因中的各个基因都有对应的T个向量,需要说明的是,第一组基因中的各个基因对应的T个向量可能是空,T个向量中的每个向量可以但不限于是用于表示不位于第一组基因中的第r个基因的上游和/或下游的基因的向量,以图2为例,对于基因3来说,T个向量可以但不限于包括基因2、基因4和基因5,对于基因4来说,T个向量可以但不限于包括基因2、基因3和基因5,对于基因2来说,基因1、基因3和基因4和基因5均是位于基因2的下游基因,在这样的情况下,T个向量可以但不限于为空。
可选的,在本实施例中,可以但不限于通过以下公式(2)确定N个表达式:
(2)
其中,为第一组基因和第一基因中的核心基因,/>为第一组基因和第一基因中的第i个基因,/>为条件概率函数,用于确定第一组条件概率和第二组条件概率中的条件概率,/>是逻辑函数,/>,/>是大小为K的基因子集,基因/>是子集/>中的基因,子集/>用于记录在第一组基因和第一基因中不属于核心基因/>的上下游基因。子集大小K是超参数,与基因组无直接关系。/>是在基因/>不是核心基因时表示基因的向量,/>是在基因/>是核心基因时表示基因/>的向量的转置,/>是在基因/>是核心基因时表示基因/>的向量的转置。
举例来说,在图2中,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。G={1,2,3,4,5}分别对应{基因1,基因2,基因3,基因4,基因5},在这样的情况下,N个表达式可以但不限于包括、、/>和/>。在这样的情况下,;;;。
以确定为例,图13是根据本申请实施例的一种可选的确定N个表达式的示意图,如图13所示,第一组向量可以但不限于包括向量S2、S3、S4和S5,其中,向量S2是用于在基因2是核心基因时表示基因2的向量,向量S3是用于在基因3是核心基因时表示基因3的向量,向量S4是用于在基因4是核心基因时表示基因4的向量,向量S5是用于在基因5是核心基因时表示基因5的向量。向量t3是用于在基因3不是核心基因时表示基因3的向量,向量S1(或称为,第一向量)是用于在基因1是核心基因时表示基因1的向量。
在这样的情况下,从向量S1、S2、S3、S4和S5中获取T个向量,T个向量可以但不限于包括向量S2、S4、S5,其中,向量S2、S4、S5是用于表示第一组基因(例如,基因2至5)和第一基因(例如,基因1)中不位于基因3的上游和/或下游的基因的向量;将3个乘积表达式确定为向量S2、S4、S5的转置与向量t3的乘积,例如,三个乘积表达式分别为:、/>和/>,并将3个逻辑函数确定为/>,其中,/>表示3个乘积表达式;将第五乘积表达式确定为向量S1的转置与向量t3的乘积,例如,/>,并将对应的逻辑函数确定为/>,其中,/>表示第五乘积表达式,/>;将第w个表达式确定为:/>,例如,。
在一个示范性实施例中,可以但不限于通过以下方式根据N个表达式和第r个向量,确定第r1个目标梯度函数:将N1个乘积表达式确定为所述N个表达式和所述第r个向量的乘积;将所述第r1个目标梯度函数确定为tr-[z11+z12+...+z1T],其中,z11z12...z1T为所述N1个乘积表达式,tr为所述第r个向量。
可选的,在本实施例中,通过随机梯度的方式进行优化,可以但不限于通过以下公式(3)和(4)对向量进行梯度计算:
(3)
(4)
其中,是用于在基因/>不是核心基因时表示基因/>的向量,/>是用于在基因/>是核心基因时表示基因/>的向量。
在一个示范性实施例中,可以但不限于通过以下方式根据N个表达式和第一向量,确定第r2个目标梯度函数:将N2个乘积表达式确定为所述N个表达式和所述第一向量的乘积;将所述第r2个目标梯度函数确定为s1-[z21+z22+...+z2T],其中,z21z22...z2T为所述N2个乘积表达式,s1为所述第一向量。
可选的,在本实施例中,在图2中,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。G={1,2,3,4,5}分别对应{基因1,基因2,基因3,基因4,基因5},在这样的情况下,第一组目标梯度函数可以但不限于包括:、/>、/>、/>、、/>、/>、/>。可以但不限于以确定/>(或称为,第r2个目标梯度函数)和/>(或称为,第r1个目标梯度函数)为例,在这样的情况下,,/>。
又例如,
,
。
在一个示范性实施例中,可以但不限于通过执行以下步骤,确定所述第二组目标梯度函数中的第k组目标梯度函数中的第k1个目标梯度函数,其中,所述第二组目标梯度函数包括一组或者多组目标梯度函数,所述一组或者多组目标梯度函数包括所述第k组目标梯度函数,k为大于或者等于1的正整数:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,其中,N大于或等于1的正整数;将N个逻辑函数确定为... />,其中,z1...zN表示所述N个乘积表达式,其中,/>;将所述第k1个目标梯度函数确定为t1-[ />.../>],其中,t1用于表示所述第三向量。
在一个示范性实施例中,可以但不限于通过执行以下步骤,确定第二组目标梯度函数中的第k组目标梯度函数中的第k2个目标梯度函数,其中,所述第二组目标梯度函数包括一组或者多组目标梯度函数,所述一组或者多组目标梯度函数包括所述第k组目标梯度函数,k为大于或者等于1的正整数:将所述第k2个目标梯度函数确定为,并将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,其中,/>是所述第一组向量中的用于表示在第k个基因满足所述第一预设条件时表示所述第k个基因的向量,/>... />表示N个逻辑函数,z1...zN表示所述N个乘积表达式,/>。
可选的,在本实施例中,在图2中,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。G={1,2,3,4,5}分别对应{基因1,基因2,基因3,基因4,基因5},在这样的情况下,第二组目标梯度函数可以但不限于包括:、/>、/>、/>、/>、、/>、/>。可以但不限于以确定/>(或称为,第k1个目标梯度函数)、/>/>
(或称为,第k2个目标梯度函数)为例。
在这样的情况下,;。可以但不限于通过负采样的方法对损失函数进行训练优化,例如,上述的公式(2)在图2中,基因2至5均是基因1的上游或者下游的基因,在这样的情况下,T个向量为空,也就是说,/>为空,那么:/>;/>;/>;/>。
在这样的情况下,,。通过这样的方式,实现了对损失函数的训练优化,减少了损失函数的训练量,提升了损失函数的训练效率。
在一个示范性实施例中,可以但不限于通过以下方式定用于表示第二基因的第二目标向量:确定所述第二基因通路中包括的除所述第二基因外的基因,得到第二组基因,其中,所述第二组基因包括在所述第二基因通路中所述第一基因的上游基因和/或下游基因;根据所述第二组基因和所述第二基因,确定所述第二目标向量。
可选的,在本实施例中,第二目标向量的确定方式可以但不限于与第一目标向量的确定方式相同,第二基因通路中包括的基因可以但不限于与第一基因通路中包括的基因相同或者不同等等。
图14是根据本申请实施例的一种可选的确定第二目标向量的示意图,如图14所示,第二基因通路可以但不限于包括基因6至10,其中,第二基因可以但不限于为基因6,在这样的情况下,第二组基因可以但不限于包括基因7至10,可以但不限于根据基因7至10和基因6,确定第二目标向量。
可选的,在本实施例中,第二基因的表达结果是根据位于第二基因的上游基因的表达结果确定的,第二基因的下游的基因的表达结果是根据第二基因的表达结果确定的。可以理解的是,位于第二基因的上游的基因的表达结果影响第二基因的表达结果;同理,第二基因的表达结果影响位于第二基因的下游的基因的表达结果。
例如,在确定第二基因的表达结果的过程中,需要使用第二基因的上游基因的表达结果,在确定第二基因的下游基因的表达结果的过程中,需要使用第二基因的表达结果。
在上述步骤S306提供的技术方案中,可以但不限于根据第一目标向量和第二目标向量,确定第一基因通路和第二基因通路之间是否相关,可以理解的是,通过表示基因的向量,避免了通过昂贵的基因表达数据和漫长的实验设计,确定各个基因通路之间的相关性,减少了确定基因通路之间的相关性所需的时间,提升了确定基因通路之间的相关性的效率。
在一个示范性实施例中,可以但不限于通过以下方式根据第一目标向量和第二目标向量,确定第一基因通路和第二基因通路是否相关:确定所述第一目标向量和所述第二目标向量之间的距离,得到目标距离;根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关。
可选的,在本实施例中,目标距离的取值范围可以但不限于为[-1,1],在目标距离大于等于0、且小于或者等于1的情况下,表示第一基因通路和第二基因通路之间的相关性呈正相关,例如,已知第一基因通路会导致动物的毛发变黑,如果第一目标向量和第二目标向量之间的距离为0.8,可以理解的是,第二基因通路也会导致动物的毛发变黑。在目标距离小于0、且大于或者等于-1的情况下,表示第一基因通路和第二基因通路之间的相关性呈负相关,例如,已知第一基因通路不会导致动物的毛发变黑,在第一目标向量和第二目标向量之间的距离为-0.8的情况下,可以理解的是,第二基因通路也不会导致动物的毛发变黑。
可选的,在本实施例中,基于训练得到地作为关键基因的向量被用作基因通路相关性分析,可以但不限于使用余弦相似度函数进行相关性度量等等。可以但不限于通过以下方式确定第一目标向量和第二目标向量之间的距离,得到目标距离可以但不限于包括以下之一:确定所述第一目标向量和所述第二目标向量之间的余弦距离,得到所述目标距离;确定所述第一目标向量和所述第二目标向量之间的欧式距离,得到所述目标距离;确定所述第一目标向量和所述第二目标向量之间的马氏距离,得到所述目标距离。
例如,可以但不限于通过以下公式(5)确定第一目标向量和第二目标向量之间的余弦距离: (5)
其中,是第一目标向量,/>是第二目标向量,第一目标向量和第二目标向量之间的余弦距离的取值范围为[-1,1]。
在一个示范性实施例中,可以但不限于通过以下方式根据目标距离,确定第一基因通路和第二基因通路是否相关:在所述目标距离大于或者等于预设的距离阈值的情况下,确定所述第一基因通路和所述第二基因通路相关;在所述目标距离小于预设的距离阈值的情况下,确定所述第一基因通路和所述第二基因通路不相关。
可选的,在本实施例中,预设的距离阈值可以但不限于为0.1、或者0.2等等,本申请对此不作限制。在目标距离大于或者等于预设的距离阈值的情况下,确定第一基因通路和第二基因通路相关,相关性越高,意味着第一基因通路和第二基因通路代表的生物过程可能均导致目标事件的发生。
例如,在植物A的生长过程中,叶子变绿和植物的长高受到基因通路A的影响,在这样的情况下,如果确定基因通路A和基因通路B之间是相关的,在这样的情况下,确定在植物A的生长过程中,叶子变绿和植物的长高也受到基因通路B的影响。
又例如,在动物的发育过程中,基因通路A会导致动物长高和毛发的变化,如果确定基因通路A和基因通路B之间是相关的,在这样的情况下,确定在动物的发育过程中,基因通路B也会导致动物长高和毛发的变化。
在确定基因通路之间是否相关之后,可以但不限于对结果进行验证。当关键基因之间的相关性大于某一阈值(比如相关性大于0.95),设计基因敲除实验证明基因通路之间的相关性,并确定它们在特定生物过程中的相互作用。
首先,将实验样本分为两组,一个是敲除基因通路A的实验组,另一个是敲除基因通路B的实验组。对每个组进行关键基因敲除实验,以确保目标通路在这些实验样本中被有效抑制。
其次,收集实验组和对照组的细胞样本或组织样本。在实验组中,通过RNA干扰或基因编辑技术(如CRISPR/Cas9)对目标基因通路进行敲除。同时,在对照组中使用相同的处理方法,但针对不相关的基因进行敲除作为对照。
第三,RNA测序和基因表达分析:对所有样本进行RNA测序,以获得各个样本中基因的表达谱。然后,通过基因表达分析来确定目标基因通路在实验组和对照组中的表达水平差异。最后,比较敲除基因通路A和敲除基因通路B的实验组与对照组的基因表达谱。通过差异表达基因分析和通路富集分析,确定目标基因通路A和基因通路B之间是否存在共同的调节基因和生物学过程。如果存在显著的重叠,这将证明两个基因通路之间的相关性。
第四,最后,进一步进行功能验证实验,通过基因救援等方法恢复敲除的基因通路A或B,以观察是否对另一个通路的功能和相互作用产生影响。通过这个实验设计,我们可以获得关于基因通路A和基因通路B之间相关性的实验数据,并验证它们在特定生物过程中的相互作用。这有助于更深入地了解基因通路的功能和相互关系。
在一个示范性实施例中,所述基因的表达结果是根据所述基因的上游基因的表达结果确定的,所述基因的下游基因的表达结果是根据所述基因的表达结果确定的。
可选的,在本实施例中,基因的表达结果是根据位于该基因的上游基因的表达结果确定的,也就是说,位于该基因的上游的基因的表达结果影响该基因的表达结果;同理,该基因的下游基因的表达结果是根据该基因的表达结果确定的,也就是说,该基因的表达结果影响位于该基因的下游的基因的表达结果。
例如,在确定基因的表达结果的过程中,需要使用该基因的上游基因的表达结果,在确定基因的下游基因的表达结果的过程中,需要使用该基因的表达结果。
在一个示范性实施例中,所述第一基因的表达结果是根据所述第一基因的上游基因的表达结果确定的,所述第一基因的下游基因的表达结果是根据所述第一基因的表达结果确定的。
可选的,在本实施例中,第一基因的表达结果是根据位于第一基因的上游基因的表达结果确定的,也就是说,位于第一基因的上游的基因的表达结果影响第一基因的表达结果;同理,第一基因的下游基因的表达结果是根据第一基因的表达结果确定的,也就是说,第一基因的表达结果影响位于第一基因的下游的基因的表达结果。
例如,在确定第一基因的表达结果的过程中,需要使用第一基因的上游基因的表达结果,在确定第一基因的下游基因的表达结果的过程中,需要使用第一基因的表达结果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种通路相关性的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图15是根据本申请实施例的通路相关性的确定装置的结构框图,如图15所示,该装置包括:
第一确定模块1602,用于确定第一基因通路和第二基因通路,其中,所述第一基因通路中包括第一基因,所述第二基因通路中包括第二基因,所述第一基因是所述第一基因通路中满足第一预设条件的基因,所述第二基因是所述第二基因通路中满足所述第一预设条件的基因,所述第一预设条件包括所述基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值;
第二确定模块1604,用于确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;
第三确定模块1606,用于根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路是否相关。
通过上述装置,可以直接通过表示基因通路中的核心基因的向量,来确定不同的基因通路之间是否相关,避免了通过漫长的实验周期来确定基因通路之间是否相关,可以理解的是,减少了确定通路相关性所需的经济成本和时间成本,因此,可以解决通路相关性确定效率较低的问题,达到提升通路相关性确定效率的效果。
在一个示范性实施例中,所述第二确定模块,包括:第一确定单元,用于确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因的上游基因和/或的下游基因;第二确定单元,用于根据所述第一组基因和所述第一基因,确定所述第一目标向量。
在一个示范性实施例中,所述第二确定单元,用于:在所述第一组基因中的每两个基因中的一个基因不是另一基因的上游基因或下游基因的情况下,根据所述第一组基因和所述第一基因,确定第一组条件概率函数,并根据所述第一组基因和所述第一基因,确定第二组条件概率函数,其中,所述第一组条件概率函数中的第i个条件概率函数用于确定第一组条件概率中的第i个条件概率,所述第i个条件概率表示在确定得到所述第一组基因中的第i个基因的表达结果的情况下,确定得到所述第一基因的表达结果的概率,i为大于或者等于1的正整数,所述第二组条件概率函数中的第j个条件概率函数用于确定第二组条件概率中的第j个条件概率,所述第j个条件概率表示在确定得到所述第一基因的表达结果的情况下,确定得到所述第一组基因中的第j个基因的表达结果的概率,j为大于或者等于1的正整数;根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标损失函数,其中,所述目标损失函数的取值是随用于表示所述第一基因的向量的变化而变化;在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第二预设条件的情况下,将所述目标向量确定为所述第一目标向量。
在一个示范性实施例中,所述第二确定单元,用于:根据作为变量的第一组向量、作为变量的第二组向量和作为变量的第一向量,确定所述第一组条件概率函数,其中,所述第一组向量中的第i个向量是用于在所述第一组基因中的第i个基因满足所述第一预设条件时表示所述第i个基因的向量,所述第三向量是用于在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,所述第二组向量中的第i个向量是用于所述第一组基因中的第i个基因不满足所述第一预设条件时表示所述第i个基因的向量。
在一个示范性实施例中,所述第二确定单元,用于:通过执行以下步骤,根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定所述第一组条件概率函数中的第i个条件概率函数:根据所述第二组向量中的第i个向量和所述第一向量,确定第一表达式;根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定第二表达式;将所述第i个条件概率函数确定为所述第一表达式除以所述第二表达式。
在一个示范性实施例中,所述第二确定单元,用于:将第一乘积表达式确定为对所述第一向量的转置和所述第二组向量中的第i个向量进行乘积操作;将所述第一表达式确定为,其中,/>表示所述第一乘积表达式。
在一个示范性实施例中,所述第二确定单元,用于:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第二组向量中的第i个向量进行乘积操作,并将第一乘积表达式确定为对所述第一向量的转置和所述第二组向量中的第i个向量进行乘积操作,其中,N大于或等于1的正整数;将所述第二表达式确定为+/>+...+/>,其中,/>表示所述第一乘积表达式,/>.../>表示所述N个乘积表达式。
在一个示范性实施例中,所述第二确定单元,用于:根据作为变量的第一组向量、作为变量的第一向量和作为变量的第三向量,确定所述第二组条件概率函数,其中,所述第一组向量中的第j个向量是用于在所述第一组基因中的第j个基因满足所述第一预设条件时表示所述第j个基因的向量,所述核心基因是在所述第一组基因和所述第一基因中满足所述第一预设条件的基因,所述第一向量是用于在所述第一基因满足所述第一预设条件时表示所述第一基因的向量,所述第三向量是用于表示在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,j为大于或者等于1的正整数。
在一个示范性实施例中,所述第二确定单元,用于:通过执行以下步骤,根据所述第一组向量中的第j个向量、所述第一向量和第二向量,确定所述第二组条件概率函数中的第j个条件概率函数:根据所述第一组向量中的第j个向量和所述第三向量,确定第三表达式;
根据所述第一组向量、所述第一向量和所述第三向量,确定第四表达式;将所述第j个条件概率函数确定为所述第三表达式除以所述第四表达式。
在一个示范性实施例中,所述第二确定单元,用于:将第二乘积表达式确定为对所述第j个向量的转置和所述第三向量进行乘积操作;将所述第三表达式确定为,其中,表示所述第二乘积表达式。
在一个示范性实施例中,所述第二确定单元,用于:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,并将第二乘积表达式确定为对所述第一向量的转置和所述第三向量进行乘积操作,其中,N大于或等于1的正整数;将所述第四表达式确定为+/>+.../>,其中,/>表示所述第二乘积表达式,/>.../>表示所述N个乘积表达式。
在一个示范性实施例中,所述第二确定单元,用于:根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标概率密度函数;对所述目标概率密度函数进行取对数操作,得到所述目标损失函数。
在一个示范性实施例中,所述第二确定单元,用于:对所述第一组条件概率函数中的各个条件概率函数执行乘积操作,得到第三乘积表达式;对所述第二组条件概率函数中的各个条件概率函数执行乘积操作,得到第四乘积表达式;将所述目标概率密度函数确定为所述第三乘积表达式和所述第四乘积表达式的乘积。
在一个示范性实施例中,所述第二确定单元,用于:根据第一组向量、第二组向量和第一向量,得到第一组目标梯度函数,并根据所述第一组向量和第三向量,确定第二组目标梯度函数,其中,所述第一组向量中的第i个向量是用于在所述第一组基因中的第i个基因满足所述第一预设条件时表示所述第i个基因的向量,所述第三向量是用于在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,所述第二组向量中的第i个向量是用于所述第一组基因中的第i个基因不满足所述第一预设条件时表示所述第i个基因的向量。
在一个示范性实施例中,所述第二确定单元,用于:通过执行以下步骤,确定所述第一组目标梯度函数中的第r组目标梯度函数中的第r1个目标梯度函数和第r2个目标梯度函数,其中,所述第一组目标梯度函数包括多组目标梯度函数,所述多组目标梯度函数包括所述第r组目标梯度函数,r为大于或者等于1的正整数:在所述第一组向量包括N个向量的情况下,根据所述N个向量、所述第一向量和所述第二组向量中的第r个向量,确定N个表达式;根据所述N个表达式和所述第r个向量,确定所述第r1个目标梯度函数;并根据所述N个表达式和所述第一向量,确定所述第r2个目标梯度函数。
在一个示范性实施例中,所述第二确定单元,用于:通过执行以下步骤,根据所述N个向量、所述第二组向量中的第r个向量和所述第一向量,确定所述N个表达式中的第w个表达式,其中,w为大于或者等于1、且小于等于N的正整数:从所述N个向量和所述第一向量中获取T个向量,其中,所述T个向量是用于表示所述第一组基因和所述第一基因中不是所述第一组基因中的第r个基因的上游基因和/或下游基因的基因的向量;将T个乘积表达式确定为所述T个向量的转置与所述第r个向量的乘积,并将T个逻辑函数确定为...,其中,/>.../>表示所述T个乘积表达式,/>;将第五乘积表达式确定为所述第一组向量中的第w个向量的转置与所述第r个向量的乘积,并将对应的逻辑函数确定为/>,其中,/>表示所述第五乘积表达式,/>;将所述第w个表达式确定为:。
在一个示范性实施例中,所述第二确定单元,用于:将N1个乘积表达式确定为所述N个表达式和所述第r个向量的乘积;将所述第r1个目标梯度函数确定为tr-[z11+z12+...+z1T],其中,z11z12...z1T为所述N1个乘积表达式,tr为所述第r个向量。
在一个示范性实施例中,所述第二确定单元,用于:将N2个乘积表达式确定为所述N个表达式和所述第一向量的乘积;将所述第r2个目标梯度函数确定为s1-[z21+z22+...+z2T],其中,z21z22...z2T为所述N2个乘积表达式,s1为所述第一向量。
在一个示范性实施例中,所述第二确定单元,用于:通过执行以下步骤,确定所述第二组目标梯度函数中的第k组目标梯度函数中的第k1个目标梯度函数,其中,所述第二组目标梯度函数包括一组或者多组目标梯度函数,所述一组或者多组目标梯度函数包括所述第k组目标梯度函数,k为大于或者等于1的正整数:在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,其中,N大于或等于1的正整数;将N个逻辑函数确定为... />,其中,z1...zN表示所述N个乘积表达式,其中,/>;将所述第k1个目标梯度函数确定为t1-[.../>],其中,t1用于表示所述第三向量。
在一个示范性实施例中,所述第二确定单元,用于:通过执行以下步骤,确定所述第二组目标梯度函数中的第k组目标梯度函数中的第k2个目标梯度函数,其中,所述第二组目标梯度函数包括一组或者多组目标梯度函数,所述一组或者多组目标梯度函数包括所述第k组目标梯度函数,k为大于或者等于1的正整数:将所述第k2个目标梯度函数确定为,并将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,其中,/>是所述第一组向量中的用于表示在第k个基因满足所述第一预设条件时表示所述第k个基因的向量,/>... />表示N个逻辑函数,z1...zN表示所述N个乘积表达式,/>。
在一个示范性实施例中,所述第二确定模块,包括:第三确定单元,用于确定所述第二基因通路中包括的除所述第二基因外的基因,得到第二组基因,其中,所述第二组基因包括在所述第二基因通路中所述第一基因的上游基因和/或下游基因;第四确定单元,用于根据所述第二组基因和所述第二基因,确定所述第二目标向量。
在一个示范性实施例中,所述第三确定模块,包括:第五确定单元,用于确定所述第一目标向量和所述第二目标向量之间的距离,得到目标距离;第六确定单元,用于根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关。
在一个示范性实施例中,所述第六确定单元,用于:在所述目标距离大于或者等于预设的距离阈值的情况下,确定所述第一基因通路和所述第二基因通路相关;在所述目标距离小于预设的距离阈值的情况下,确定所述第一基因通路和所述第二基因通路不相关。
在一个示范性实施例中,上述装置还用于:所述基因的表达结果是根据所述基因的上游基因的表达结果确定的,所述基因的下游基因的表达结果是根据所述基因的表达结果确定的。
在一个示范性实施例中,上述装置还用于:所述第一基因的表达结果是根据所述第一基因的上游基因的表达结果确定的,所述第一基因的下游基因的表达结果是根据所述第一基因的表达结果确定的。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (28)
1.一种通路相关性的确定方法,其特征在于,
包括:
确定第一基因通路和第二基因通路,其中,所述第一基因通路中包括第一基因,所述第二基因通路中包括第二基因,所述第一基因是所述第一基因通路中满足第一预设条件的基因,所述第二基因是所述第二基因通路中满足所述第一预设条件的基因,所述第一预设条件包括所述基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值;
确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;
根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路是否相关。
2.根据权利要求1所述的方法,其特征在于,
所述确定用于表示所述第一基因的第一目标向量,包括:
确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因的上游基因和/或的下游基因;
根据所述第一组基因和所述第一基因,确定所述第一目标向量。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述第一组基因和所述第一基因,确定所述第一目标向量,包括:
在所述第一组基因中的每两个基因中的一个基因不是另一基因的上游基因或下游基因的情况下,根据所述第一组基因和所述第一基因,确定第一组条件概率函数,并根据所述第一组基因和所述第一基因,确定第二组条件概率函数,其中,所述第一组条件概率函数中的第i个条件概率函数用于确定第一组条件概率中的第i个条件概率,所述第i个条件概率表示在确定得到所述第一组基因中的第i个基因的表达结果的情况下,确定得到所述第一基因的表达结果的概率,i为大于或者等于1的正整数,所述第二组条件概率函数中的第j个条件概率函数用于确定第二组条件概率中的第j个条件概率,所述第j个条件概率表示在确定得到所述第一基因的表达结果的情况下,确定得到所述第一组基因中的第j个基因的表达结果的概率,j为大于或者等于1的正整数;
根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标损失函数,其中,所述目标损失函数的取值是随用于表示所述第一基因的向量的变化而变化;
在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第二预设条件的情况下,将所述目标向量确定为所述第一目标向量。
4.根据权利要求3所述的方法,其特征在于,
所述根据所述第一组基因和所述第一基因,确定第一组条件概率函数,包括:
根据作为变量的第一组向量、作为变量的第二组向量和作为变量的第一向量,确定所述第一组条件概率函数,其中,所述第一组向量中的第i个向量是用于在所述第一组基因中的第i个基因满足所述第一预设条件时表示所述第i个基因的向量,所述第二组向量中的第i个向量是用于所述第一组基因中的第i个基因不满足所述第一预设条件时表示所述第i个基因的向量,所述第一向量是用于在所述第一基因满足所述第一预设条件时表示所述第一基因的向量,i为大于或者等于1的正整数。
5.根据权利要求4所述的方法,其特征在于,
所述根据作为变量的第一组向量、作为变量的第二组向量和作为变量的第一向量,确定所述第一组条件概率函数,包括:
通过执行以下步骤,根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定所述第一组条件概率函数中的第i个条件概率函数:
根据所述第二组向量中的第i个向量和所述第一向量,确定第一表达式;
根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定第二表达式;
将所述第i个条件概率函数确定为所述第一表达式除以所述第二表达式。
6.根据权利要求5所述的方法,其特征在于,
所述根据所述第二组向量中的第i个向量和所述第一向量,确定第一表达式,包括:
将第一乘积表达式确定为对所述第一向量的转置和所述第二组向量中的第i个向量进行乘积操作;
将所述第一表达式确定为,其中,/>表示所述第一乘积表达式。
7.根据权利要求5所述的方法,其特征在于,
所述根据所述第一组向量、所述第二组向量中的第i个向量和所述第一向量,确定第二表达式,包括:
在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第二组向量中的第i个向量进行乘积操作,并将第一乘积表达式确定为对所述第一向量的转置和所述第二组向量中的第i个向量进行乘积操作,其中,N大于或等于1的正整数;
将所述第二表达式确定为+/>+...+/>,其中,/>表示所述第一乘积表达式,.../>表示所述N个乘积表达式。
8.根据权利要求3所述的方法,其特征在于,
所述根据所述第一组基因和所述第一基因,确定第二组条件概率函数,包括:
根据作为变量的第一组向量、作为变量的第一向量和作为变量的第三向量,确定所述第二组条件概率函数,其中,所述第一组向量中的第j个向量是用于在所述第一组基因中的第j个基因满足所述第一预设条件时表示所述第j个基因的向量,所述第一向量是用于在所述第一基因满足所述第一预设条件时表示所述第一基因的向量,所述第三向量是用于表示在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,j为大于或者等于1的正整数。
9.根据权利要求8所述的方法,其特征在于,
所述根据作为变量的第一组向量、作为变量的第一向量和作为变量的第三向量,确定所述第二组条件概率函数,包括:
通过执行以下步骤,根据所述第一组向量中的第j个向量、所述第一向量和所述第三向量,确定所述第二组条件概率函数中的第j个条件概率函数:
根据所述第一组向量中的第j个向量和所述第三向量,确定第三表达式;
根据所述第一组向量、所述第一向量和所述第三向量,确定第四表达式;
将所述第j个条件概率函数确定为所述第三表达式除以所述第四表达式。
10.根据权利要求9所述的方法,其特征在于,
所述根据所述第一组向量中的第j个向量和所述第三向量,确定第三表达式,包括:
将第二乘积表达式确定为对所述第j个向量的转置和所述第三向量进行乘积操作;
将所述第三表达式确定为,其中,/>表示所述第二乘积表达式。
11.根据权利要求9所述的方法,其特征在于,
所述根据所述第一组向量、所述第一向量和所述第三向量,确定第四表达式,包括:
在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,并将第二乘积表达式确定为对所述第一向量的转置和所述第三向量进行乘积操作,其中,N大于或等于1的正整数;
将所述第四表达式确定为+/>+.../>,其中,/>表示所述第二乘积表达式,/>.../>表示所述N个乘积表达式。
12.根据权利要求3所述的方法,其特征在于,
所述根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标损失函数,包括:
根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标概率密度函数;
对所述目标概率密度函数进行取对数操作,得到所述目标损失函数。
13.根据权利要求12所述的方法,其特征在于,
所述根据所述第一组条件概率函数和所述第二组条件概率函数,确定目标概率密度函数,包括:
对所述第一组条件概率函数中的各个条件概率函数执行乘积操作,得到第三乘积表达式;
对所述第二组条件概率函数中的各个条件概率函数执行乘积操作,得到第四乘积表达式;
将所述目标概率密度函数确定为所述第三乘积表达式和所述第四乘积表达式的乘积。
14.根据权利要求3所述的方法,其特征在于,
所述在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第二预设条件的情况下,将所述目标向量确定为所述第一目标向量,包括:
根据第一组向量、第二组向量和第一向量,得到第一组目标梯度函数,并根据所述第一组向量和第三向量,确定第二组目标梯度函数,其中,所述第一组向量中的第i个向量是用于在所述第一组基因中的第i个基因满足所述第一预设条件时表示所述第i个基因的向量,所述第三向量是用于在所述第一基因不满足所述第一预设条件时表示所述第一基因的向量,所述第二组向量中的第i个向量是用于所述第一组基因中的第i个基因不满足所述第一预设条件时表示所述第i个基因的向量;
在所述第一组目标梯度函数的函数值与所述第二组目标梯度函数的函数值均为预设值、且当所述第一向量等于所述目标向量时,所述目标损失函数的函数值最小的情况下,将所述目标向量确定为所述第一目标向量。
15.根据权利要求14所述的方法,其特征在于,
所述根据第一组向量、第二组向量和第一向量,得到第一组目标梯度函数,包括:
通过执行以下步骤,确定所述第一组目标梯度函数中的第r组目标梯度函数中的第r1个目标梯度函数和第r2个目标梯度函数,其中,所述第一组目标梯度函数包括多组目标梯度函数,所述多组目标梯度函数包括所述第r组目标梯度函数,r为大于或者等于1的正整数:
在所述第一组向量包括N个向量的情况下,根据所述N个向量、所述第一向量和所述第二组向量中的第r个向量,确定N个表达式;
根据所述N个表达式和所述第r个向量,确定所述第r1个目标梯度函数;并根据所述N个表达式和所述第一向量,确定所述第r2个目标梯度函数。
16.根据权利要求15所述的方法,其特征在于,
所述在所述第一组向量包括N个向量的情况下,根据所述N个向量、所述第一向量和所述第二组向量中的第r个向量,确定N个表达式,包括:
通过执行以下步骤,根据所述N个向量、所述第二组向量中的第r个向量和所述第一向量,确定所述N个表达式中的第w个表达式,其中,w为大于或者等于1、且小于等于N的正整数:
从所述N个向量和所述第一向量中获取T个向量,其中,所述T个向量是用于表示所述第一组基因和所述第一基因中不是所述第一组基因中的第r个基因的上游基因和/或下游基因的基因的向量;
将T个乘积表达式确定为所述T个向量的转置与所述第r个向量的乘积,并将T个逻辑函数确定为... />,其中,/>.../>表示所述T个乘积表达式,/>;
将第五乘积表达式确定为所述第一组向量中的第w个向量的转置与所述第r个向量的乘积,并将对应的逻辑函数确定为,其中,/>表示所述第五乘积表达式,;
将所述第w个表达式确定为:。
17.根据权利要求15所述的方法,其特征在于,
所述根据所述N个表达式和所述第r个向量,确定所述第r1个目标梯度函数,包括:
将N1个乘积表达式确定为所述N个表达式和所述第r个向量的乘积;
将所述第r1个目标梯度函数确定为tr-[z11+z12+...+z1T],其中,z11z12...z1T为所述N1个乘积表达式,tr为所述第r个向量。
18.根据权利要求15所述的方法,其特征在于,
所述根据所述N个表达式和所述第一向量,确定所述第r2个目标梯度函数,包括:
将N2个乘积表达式确定为所述N个表达式和所述第一向量的乘积;
将所述第r2个目标梯度函数确定为s1-[z21+z22+...+z2T],其中,z21z22...z2T为所述N2个乘积表达式,s1为所述第一向量。
19.根据权利要求14所述的方法,其特征在于,
所述根据所述第一组向量和第三向量,确定第二组目标梯度函数,包括:
通过执行以下步骤,确定所述第二组目标梯度函数中的第k组目标梯度函数中的第k1个目标梯度函数,其中,所述第二组目标梯度函数包括一组或者多组目标梯度函数,所述一组或者多组目标梯度函数包括所述第k组目标梯度函数,k为大于或者等于1的正整数:
在所述第一组向量包括N个向量的情况下,将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,其中,N大于或等于1的正整数;
将N个逻辑函数确定为... />,其中,z1...zN表示所述N个乘积表达式,其中,/>;
将所述第k1个目标梯度函数确定为t1-[ .../>],其中,t1用于表示所述第三向量。
20.根据权利要求14所述的方法,其特征在于,
所述根据所述第一组向量和第三向量,确定第二组目标梯度函数,包括:
通过执行以下步骤,确定所述第二组目标梯度函数中的第k组目标梯度函数中的第k2个目标梯度函数,其中,所述第二组目标梯度函数包括一组或者多组目标梯度函数,所述一组或者多组目标梯度函数包括所述第k组目标梯度函数,k为大于或者等于1的正整数:
将所述第k2个目标梯度函数确定为,并将N个乘积表达式分别确定为对所述N个向量中的每个向量的转置和所述第三向量进行乘积操作,其中,/>是所述第一组向量中的用于表示在第k个基因满足所述第一预设条件时表示所述第k个基因的向量,/>... />表示N个逻辑函数,z1...zN表示所述N个乘积表达式,。
21.根据权利要求1所述的方法,其特征在于,
所述确定用于表示所述第二基因的第二目标向量,包括:
确定所述第二基因通路中包括的除所述第二基因外的基因,得到第二组基因,其中,所述第二组基因包括在所述第二基因通路中所述第一基因的上游基因和/或下游基因;
根据所述第二组基因和所述第二基因,确定所述第二目标向量。
22.根据权利要求1至21中任一项所述的方法,其特征在于,
所述根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路是否相关,包括:
确定所述第一目标向量和所述第二目标向量之间的距离,得到目标距离;
根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关。
23.根据权利要求22所述的方法,其特征在于,
所述根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关,包括:
在所述目标距离大于或者等于预设的距离阈值的情况下,确定所述第一基因通路和所述第二基因通路相关;
在所述目标距离小于预设的距离阈值的情况下,确定所述第一基因通路和所述第二基因通路不相关。
24.根据权利要求1至21中任一项所述的方法,其特征在于,
所述基因的表达结果是根据所述基因的上游基因的表达结果确定的,所述基因的下游基因的表达结果是根据所述基因的表达结果确定的。
25.根据权利要求2至20中任一项所述的方法,其特征在于,
所述第一基因的表达结果是根据所述第一基因的上游基因的表达结果确定的,所述第一基因的下游基因的表达结果是根据所述第一基因的表达结果确定的。
26.一种通路相关性的确定装置,其特征在于,
包括:
第一确定模块,用于确定第一基因通路和第二基因通路,其中,所述第一基因通路中包括第一基因,所述第二基因通路中包括第二基因,所述第一基因是所述第一基因通路中满足第一预设条件的基因,所述第二基因是所述第二基因通路中满足所述第一预设条件的基因,所述第一预设条件包括所述基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值;
第二确定模块,用于确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;
第三确定模块,用于根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路是否相关。
27.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至25任一项中所述的方法的步骤。
28.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述处理器执行所述计算机程序时实现所述权利要求1至25任一项中所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311522745.XA CN117238381B (zh) | 2023-11-15 | 2023-11-15 | 通路相关性的确定方法及装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311522745.XA CN117238381B (zh) | 2023-11-15 | 2023-11-15 | 通路相关性的确定方法及装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117238381A true CN117238381A (zh) | 2023-12-15 |
CN117238381B CN117238381B (zh) | 2024-02-20 |
Family
ID=89083031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311522745.XA Active CN117238381B (zh) | 2023-11-15 | 2023-11-15 | 通路相关性的确定方法及装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117238381B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017126212A (ja) * | 2016-01-14 | 2017-07-20 | 富士通株式会社 | パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置 |
CN115440298A (zh) * | 2022-08-01 | 2022-12-06 | 赛业(广州)生物科技有限公司 | 基于表达差异的致病基因定位方法、系统、设备及介质 |
CN115662510A (zh) * | 2022-09-14 | 2023-01-31 | 吉林大学 | 因果参数的确定方法、装置、设备以及存储介质 |
-
2023
- 2023-11-15 CN CN202311522745.XA patent/CN117238381B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017126212A (ja) * | 2016-01-14 | 2017-07-20 | 富士通株式会社 | パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置 |
CN115440298A (zh) * | 2022-08-01 | 2022-12-06 | 赛业(广州)生物科技有限公司 | 基于表达差异的致病基因定位方法、系统、设备及介质 |
CN115662510A (zh) * | 2022-09-14 | 2023-01-31 | 吉林大学 | 因果参数的确定方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117238381B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Plant miRNA–lncRNA interaction prediction with the ensemble of CNN and IndRNN | |
Wang et al. | Inferring gene–gene interactions and functional modules using sparse canonical correlation analysis | |
Aluru et al. | Reverse engineering and analysis of large genome-scale gene networks | |
Deng et al. | JRmGRN: joint reconstruction of multiple gene regulatory networks with common hub genes using data from multiple tissues or conditions | |
CN107679367A (zh) | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 | |
Hill | The pursuit of hoppiness: propelling hop into the genomic era | |
US20220139498A1 (en) | Apparatuses, systems, and methods for extracting meaning from dna sequence data using natural language processing (nlp) | |
CN117238381B (zh) | 通路相关性的确定方法及装置、存储介质及电子设备 | |
CN116631496A (zh) | 一种基于多层异构图的miRNA靶标预测方法及系统和应用 | |
Kao et al. | naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing | |
CN117253549B (zh) | 通路相关性的确定方法及装置、存储介质及电子设备 | |
Zhang et al. | CeSpGRN: Inferring cell-specific gene regulatory networks from single cell multi-omics and spatial data | |
Lee et al. | Use of a graph neural network to the weighted gene co-expression network analysis of Korean native cattle | |
Joehanes | Network analysis of gene expression | |
Wu et al. | Identification of gene regulatory networks from time course gene expression data | |
Backofen et al. | Comparative RNA Genomics | |
Shamaiah et al. | Graphical models and inference on graphs in genomics: challenges of high-throughput data analysis | |
CN117637031B (zh) | 一种基因调控网络重建方法、系统及设备 | |
CN113921085B (zh) | 非编码rna基因协同调控作用的预测方法 | |
CN109801676A (zh) | 一种用于评价化合物对基因通路活化作用的方法及装置 | |
US20230144683A1 (en) | Platform and method for determining critical transcription factors (tf) for tf-based human induced pluripotent stem cell (hipsc) differentiation | |
Dehghani Amirabad | From genes to transcripts: integrative modeling and analysis of regulatory networks | |
Krakau | Statistical models to capture protein-RNA interaction footprints from truncation-based CLIP-seq data | |
Hu et al. | A spectral framework to map QTLs affecting joint differential networks of gene co-expression | |
Ba et al. | ClusterMatch aligns single-cell RNA-sequencing data at the multi-scale cluster level via stable matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |