CN117253549B - 通路相关性的确定方法及装置、存储介质及电子设备 - Google Patents

通路相关性的确定方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117253549B
CN117253549B CN202311522746.4A CN202311522746A CN117253549B CN 117253549 B CN117253549 B CN 117253549B CN 202311522746 A CN202311522746 A CN 202311522746A CN 117253549 B CN117253549 B CN 117253549B
Authority
CN
China
Prior art keywords
gene
vector
genes
determining
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311522746.4A
Other languages
English (en)
Other versions
CN117253549A (zh
Inventor
童浩南
张闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311522746.4A priority Critical patent/CN117253549B/zh
Publication of CN117253549A publication Critical patent/CN117253549A/zh
Application granted granted Critical
Publication of CN117253549B publication Critical patent/CN117253549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种通路相关性的确定方法及装置、存储介质及电子设备,其中,该方法包括:在第一基因通路中选择第一基因,并在第二基因通路中选择第二基因,其中,在第一基因通路中不包括第一基因的上游基因、但包括第一基因的下游基因,在第二基因通路中不包括第二基因的上游基因、但包括第二基因的下游基因;确定用于表示第一基因的第一目标向量,并确定用于表示第二基因的第二目标向量;根据第一目标向量和第二目标向量,确定第一基因通路和第二基因通路之间是否相关。通过本申请,解决了通路相关性的确定效率较低的问题,进而达到了提升通路相关性的确定效率的效果。

Description

通路相关性的确定方法及装置、存储介质及电子设备
技术领域
本申请实施例涉及基因领域,具体而言,涉及一种通路相关性的确定方法及装置、存储介质及电子设备。
背景技术
相关技术中,往往是通过基因表达数据确定基因通路之间的相关性,一方面,这需要昂贵的基因表达数据和周期绵长的实验设计,且对样本获取环境和研究对象基因型敏感。这使得研究者在数据采集和实验设计过程中面临较高的经济和时间成本。另一方面,基于基因表达数据的相关性研究需要严格控制数据质量和准确性,以及复杂的统计和生物信息学分析,以确保研究结果的可靠性和可解释性。这需要具备专业的数据分析技能和丰富的领域知识,为研究者增加了技术门槛和学习成本。可以理解的是,相关技术中,确定基因通路之间的相关性的效率较低。
发明内容
本申请实施例提供了一种通路相关性的确定方法及装置、存储介质及电子设备,以至少解决相关技术中通路相关性的确定效率较低的问题。
根据本申请的一个实施例,提供了一种通路相关性的确定方法,包括:在第一基因通路中选择第一基因,并在第二基因通路中选择第二基因,其中,在所述第一基因通路中不包括所述第一基因的上游基因、但包括所述第一基因的下游基因,在所述第二基因通路中不包括所述第二基因的上游基因、但包括所述第二基因的下游基因;确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关。
在一个示例性实施例中,所述确定用于表示所述第一基因的第一目标向量,包括:确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第一基因通路中所述第一基因的下游基因,所述各级下游基因中的第n级下游基因是所述第一基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;根据所述第一组基因和所述第一基因,确定所述第一目标向量。
在一个示例性实施例中,所述根据所述第一组基因和所述第一基因,确定所述第一目标向量,包括:根据所述第一组基因和所述第一基因,确定一组条件概率函数,其中,所述一组条件概率函数中的第i个条件概率函数用于确定一组条件概率中的第i个条件概率,所述第i个条件概率表示在确定得到第i组基因中的各个基因的表达结果的情况下,确定得到所述第一组基因和所述第一基因中的第i个基因的表达结果的概率,i为大于或者等于1的正整数;根据所述一组条件概率函数,确定目标损失函数,其中,所述目标损失函数的取值是随用于表示所述第一基因的向量的变化而变化;在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第一预设条件的情况下,将所述目标向量确定为所述第一目标向量。
在一个示例性实施例中,在所述第一组基因和所述第一基因中包括所述第i个基因的上游基因和下游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第i个基因的上游基因、不包括所述第i个基因的下游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第i个基因的下游基因、不包括所述第i个基因的上游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的各个下游基因,i为大于或者等于1的正整数。
在一个示例性实施例中,所述根据所述第一组基因和所述第一基因,确定一组条件概率函数,包括:根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数,其中,所述第一组向量中的第s个向量是用于在所述第一组基因中的第s个基因满足第二预设条件时表示所述第s个基因的向量,所述第二组向量中的第s个向量是用于所述第一组基因中的第s个基因不满足所述第二预设条件时表示所述第s个基因的向量,所述第一向量是用于在所述第一基因满足所述第二预设条件时表示所述第一基因的向量,所述第二向量是用于在所述第一基因不满足所述第二预设条件时表示所述第一基因的向量,所述第二预设条件包括在所述第一组基因和所述第一基因中基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,s为大于或者等于1的正整数。
在一个示例性实施例中,所述根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数,包括:通过执行以下步骤,根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数中的第i个条件概率函数:根据所述第一组向量、所述第二组向量与所述第二向量中的第i个向量、和所述第一向量,确定第一表达式;根据所述第一组向量、所述第二组向量、所述第一向量和所述第二向量,确定第二表达式;将所述第i个条件概率函数确定为所述第一表达式除以所述第二表达式。
在一个示例性实施例中,所述根据所述第一组向量、所述第二组向量与所述第二向量中的第i个向量、和所述第一向量,确定第一表达式,包括:从所述第一组向量和所述第一向量中确定第i组向量,其中,所述第i组向量中的第t个向量是用于在所述第i组基因中的第t个基因满足所述第二预设条件时表示所述第i组基因中的第t个基因的向量,t为大于或等于1、且小于或等于ki的正整数,ki为所述第i组基因中包括的基因的数量;根据所述第i组向量,确定第i个表达式,其中,在所述第i组向量包括的向量的数量为1的情况下,将所述i个表达式确定为等于所述第i组向量包括的向量,在所述第i组向量包括的向量的数量大于1的情况下,将所述第i个表达式确定为对所述第i组向量执行求和操作;将第一乘积表达式确定为对所述第i个向量的转置和所述第i个表达式进行乘积操作;将所述第一表达式确定为,其中,/>表示所述第一乘积表达式。
在一个示例性实施例中,所述根据所述第一组向量、所述第二组向量、所述第一向量和所述第二向量,确定第二表达式,包括:在所述第一组向量和所述第一向量中包括的向量的数量为N+1、且所述第一组基因和所述第一基因包括N+1个基因的情况下,从所述第一组向量和所述第一向量中分别确定N+1组向量,其中,所述N+1组向量中的第j组向量中的第t个向量是用于在N+1组基因中的第j组基因中的第t个基因满足所述第二预设条件时表示所述第j组基因中的第t个基因的向量,t为大于或等于1、且小于或等于kj的正整数,kj为所述第j组基因中包括的基因的数量,j为大于或等于1、且小于或等于N+1的正整数,N为大于或等于1的正整数,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因;根据所述N+1组向量,确定N+1个表达式,其中,在所述N+1组向量中的第j组向量包括的向量的数量为1的情况下,将所述N+1个表达式中的第j个表达式确定为等于所述第j组向量包括的向量,在所述N+1组向量中的第j组向量包括的向量的数量大于1的情况下,将所述N+1个表达式中的第j个表达式确定为对所述第j组向量执行求和操作;将N+1个乘积表达式中的第j个乘积表达式确定为对所述第二组向量和所述第二向量中的第j个向量的转置和所述第j个表达式进行乘积操作之后再除以kj,其中,所述第二组向量和所述第二向量中包括的向量的数量为N+1;将所述第二表达式确定为+/>+...+/>,其中,/>,/>, />... />表示所述N+1个乘积表达式。
在一个示例性实施例中,所述根据所述一组条件概率函数,确定目标损失函数,包括:根据所述一组条件概率函数,确定目标概率密度函数;对所述目标概率密度函数进行取对数操作,得到所述目标损失函数。
在一个示例性实施例中,所述根据所述一组条件概率函数,确定目标概率密度函数,包括:将所述目标概率密度函数确定为对所述一组条件概率函数中的各个条件概率函数执行乘积操作。
在一个示例性实施例中,所述在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第一预设条件的情况下,将所述目标向量确定为所述第一目标向量,包括:根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定一组梯度函数,其中,所述第一组向量中的第s个向量是用于在所述第一组基因中的第s个基因满足第二预设条件时表示所述第s个基因的向量,所述第二组向量中的第s个向量是用于所述第一组基因中的第s个基因不满足所述第二预设条件时表示所述第s个基因的向量,所述第一向量是用于在所述第一基因满足所述第二预设条件时表示所述第一基因的向量,所述第二向量是用于在所述第一基因不满足所述第二预设条件时表示所述第一基因的向量,所述第二预设条件包括在所述第一组基因和所述第一基因中基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,s为大于或者等于1的正整数;在所述一组梯度函数的函数值均为预设值、且当所述第二向量等于所述目标向量时,所述目标损失函数的函数值最小的情况下,将所述目标向量确定为所述第一目标向量。
在一个示例性实施例中,所述根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定一组梯度函数,包括:通过执行以下步骤,确定所述一组梯度函数中的第j个梯度函数:在所述第二组向量和所述第二向量包括N+1个向量的情况下,根据所述N+1个向量,确定N+1个乘积表达式,其中,所述第二组向量包括所述N+1个向量中的N个向量,所述第二向量包括所述N+1个向量中的一个向量,j为大于或者等于1、且小于或等于N+1的正整数;根据所述N+1个乘积表达式和所述N+1个向量中的第j个向量,确定所述第j个梯度函数。
在一个示例性实施例中,所述根据所述N+1个向量,确定N+1个乘积表达式,包括:根据所述N+1个向量,生成目标哈夫曼树,其中,所述目标哈夫曼树包括作为叶子节点的N+1个节点,所述N+1个节点与所述N+1个向量具有一一对应的关系,所述N+1个节点中的第j个节点用于表示所述N+1个向量中的第j个向量;根据所述N+1个向量和所述目标哈夫曼树,确定所述N+1个乘积表达式。
在一个示例性实施例中,所述根据所述N+1个向量,生成目标哈夫曼树,包括;从作为叶子节点的所述N+1个节点开始,依次构建M级节点,直到所述M级节点中的第M级节点是根节点,其中,M为大于或等于1的正整数;其中,在所述N+1个节点中存在第2p-1个节点和第2p个节点的情况下,所述M级节点中的第1级节点中的第p个节点是所述N+1个节点中的所述第2p-1个节点和所述第2p个节点的父节点,所述第1级节点中的第p个节点表示的向量等于所述N+1个节点中的所述第2p-1个节点表示的向量与所述第2p个节点表示的向量之和;在所述N+1个节点中存在第2p-1个节点、但不存在第2p个节点的情况下,所述M级节点中的第1级节点中的第p个节点是所述N+1个节点中的所述第2p-1个节点的父节点,所述第1级节点中的第p个节点表示的向量等于所述N+1个节点中的所述第2p-1个节点表示的向量,p为大于或等于1的正整数;其中,在所述M级节点的第q-1级节点中存在第2p-1个节点和第2p个节点的情况下,所述M级节点中的第q级节点中的第p个节点是所述第q-1级节点中的所述第2p-1个节点和所述第2p个节点的父节点,所述第q级节点中的第p个节点表示的向量等于所述第q-1级节点中的所述第2p-1个节点表示的向量与所述第q-1级节点中的所述第2p个节点表示的向量之和;在所述第q-1级节点中存在第2p-1个节点、但不存在第2p个节点的情况下,所述M级节点中的第q级节点中的第p个节点是所述第q-1级节点中的所述第2p-1个节点的父节点,所述第q级节点中的第p个节点表示的向量等于所述第q-1级节点中的所述第2p-1个节点表示的向量,q为大于或等于2的正整数。
在一个示例性实施例中,所述根据所述N+1个向量和所述目标哈夫曼树,确定所述N+1个乘积表达式,包括:通过执行以下步骤,确定所述N+1个乘积表达式中的第j个乘积表达式,其中,j为大于或者等于1、且小于或者等于N+1的正整数:所述第一组基因和所述第一基因包括N+1个基因的情况下,在所述第一组基因和所述第一基因中确定第j组基因,其中,kj为所述第j组基因中包括的基因的数量,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因;在所述目标哈夫曼树中确定所述第j组基因中的每个基因对应的路径,得到kj条路径,其中,所述kj条路径中的第t条路径是从所述目标哈夫曼树中的根节点到作为叶子节点的所述N+1个节点中的第t个节点,所述第t个节点用于表示第t个向量,所述第t个向量是用于表示所述第j组基因中的第t个基因的向量,t为大于或等于1、且小于或等于kj的正整数;根据所述kj条路径,确定kj组向量,其中,所述kj组向量中的第t组向量包括所述kj条路径中的所述第t条路径上除所述N+1个节点中的第t个节点之外的各个节点表示的向量;在所述kj组向量包括Q个向量的情况下,根据所述Q个向量和第j个向量,确定Q个表达式,其中,所述第j个向量是用于在所述第j个基因不满足所述第二预设条件时表示所述第j个基因的向量,Q为大于或等于2的正整数;将所述第j个乘积表达式确定对所述Q个表达式与所述第j个向量进行乘积操作。
在一个示例性实施例中,所述根据所述Q个向量和第j个向量,确定Q个表达式,包括:通过执行以下步骤,根据所述Q个向量中的第r个向量和所述第j个向量,确定所述Q个表达式中的第r个表达式:将所述第r个表达式确定为,其中,/>,其中,wr是第r个乘积表达式,所述第r个乘积表达式是对第r个系数、所述第r个向量的转置和所述第j个向量进行乘积操作,用于表示所述第r个向量的节点是所述目标哈夫曼树中的目标节点、在所述目标节点是所述根节点的情况下,所述第r个系数为1,在所述目标节点不是所述根节点、且所述目标节点是所述目标节点的父节点的左子节点的情况下,所述第r个系数为1,在所述目标节点不是所述根节点、且所述目标节点是所述目标节点的父节点的右子节点的情况下,所述第r个系数为-1。
在一个示例性实施例中,所述根据所述N+1个乘积表达式和所述N+1个向量中的第j个向量,确定所述第j个梯度函数,包括:将第三表达式确定为对所述第j个向量减去第二求和表达式,其中,所述第二求和表达式等于所述N+1个乘积表达式之和;将所述第j个梯度函数确定为(tj-y0)/kj,其中,tj为所述第j个向量,y0为所述第三表达式,kj为第j组基因中包括的基因的数量,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因,所述第j个向量是用于在所述第j个基因不满足所述第二预设条件时表示所述第j个基因的向量。
在一个示例性实施例中,所述确定用于表示所述第二基因的第二目标向量,包括:确定所述第二基因通路中包括的除所述第二基因外的基因,得到第三组基因,其中,所述第三组基因包括在所述第二基因通路中所述第二基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第二基因通路中所述第二基因的下游基因,所述各级下游基因中的第n级下游基因是所述第二基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;根据所述第三组基因和所述第二基因,确定所述第二目标向量。
在一个示例性实施例中,所述根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关,包括:确定所述第一目标向量和所述第二目标向量之间的距离,得到目标距离;根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关。
在一个示例性实施例中,所述根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关,包括:在所述目标距离大于或者等于预设的目标距离阈值的情况下,确定所述第一基因通路和所述第二基因通路相关;在所述目标距离小于预设的目标距离阈值的情况下,确定所述第一基因通路和所述第二基因通路不相关。
根据本申请的另一个实施例,提供了一种通路相关性的确定装置,包括:选择模块,用于在第一基因通路中选择第一基因,并在第二基因通路中选择第二基因,其中,在所述第一基因通路中不包括所述第一基因的上游基因、但包括所述第一基因的下游基因,在所述第二基因通路中不包括所述第二基因的上游基因、但包括所述第二基因的下游基因;第一确定模块,用于确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;第二确定模块,用于根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,在第一基因通路中不包括第一基因的上游基因,但包括第一基因的下游基因,在第二基因通路中不包括第二基因的上游基因,但包括第二基因的下游基因,实现了通过表示第一基因的第一目标向量和表示第二基因的第二目标向量,确定第一基因通路和第二基因通路之间是否相关,缩短了确定基因通路之间是否相关所需的时间。因此,可以解决通路相关性的确定效率较低问题,达到提升通路相关性的确定效率的效果。
附图说明
图1是本申请实施例的一种通路相关性的确定方法的服务器设备的硬件结构框图;
图2是根据本申请实施例的一种可选的通路相关性的确定方法的应用场景示意图;
图3是根据本申请实施例的通路相关性的确定方法的流程图;
图4是根据本申请实施例的一种可选的确定第一目标向量的示意图一;
图5是根据本申请实施例的一种可选的确定第一目标向量的示意图二;
图6是根据本申请实施例的一种可选的确定目标损失函数的示意图一;
图7是根据本申请实施例的一种可选的确定一组条件概率函数的示意图;
图8是根据本申请实施例的一种确定第i个条件概率函数的示意图;
图9是根据本申请实施例的一种可选的确定第一表达式的示意图;
图10是根据本申请实施例的一种可选的确定第二表达式的示意图;
图11是根据本申请实施例的一种可选的确定目标损失函数的示意图二;
图12是根据本申请实施例的一种可选的确定第一目标向量的示意图三;
图13是根据本申请实施例的一种可选的确定N+1个乘积表达式的示意图;
图14是根据本申请实施例的一种可选的生成目标哈夫曼树的示意图;
图15是根据本申请实施例的一种可选的确定第j个乘积表达式的示意图;
图16是根据本申请实施例的一种可选的确定第r个表达式的示意图;
图17是根据本申请实施例的一种可选的确定第二目标向量的示意图;
图18是根据本申请实施例的通路相关性的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在服务器设备或者类似的运算装置中执行。以运行在服务器设备上为例,图1是本申请实施例的一种通路相关性的确定方法的服务器设备的硬件结构框图。如图1所示,服务器设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述服务器设备还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器设备的结构造成限定。例如,服务器设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的通路相关性的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器设备的通信供应方提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
为了更好的理解本申请实施例中的通路相关性的确定方法的应用场景,可以但不限于结合可选的实施例,对本申请实施例中的通路相关性的确定方法的应用场景进行解释和说明,可以但不限于适用于本申请实施例。
图2是根据本申请实施例的一种可选的通路相关性的确定方法的应用场景示意图,如图2所示,以调节基因节点为特征的基因通路相关性计算,可以但不限于通过以下步骤,确定第一基因通路和第二基因通路之间是否相关:
步骤S202,在第一基因通路中选择第一基因,并在第二基因通路中选择第二基因,其中,在第一基因通路中不包括第一基因的上游基因、但包括第一基因的下游基因,在第二基因通路中不包括第二基因的上游基因、但包括第二基因的下游基因。可选的,第一基因通路可以但不限于包括基因2和基因1之间的通路、基因1和基因3之间的通路、基因1和基因4之间的通路以及基因1和基因5之间的通路,第二基因通路可以但不限于包括基因7和基因6之间的通路、基因6和基因8之间的通路、基因6和基因9之间的通路以及基因6和基因10之间的通路。其中,第一基因可以但不限于为第一基因通路中的基因2,第二基因可以但不限于为第二基因通路中的基因7。
步骤S204,确定用于表示基因2的第一目标向量,并确定用于表示基因7的第二目标向量。
步骤S206,根据第一目标向量和第二目标向量,确定第一基因通路和第二基因通路之间是否相关。
需要说明的是,第一基因通路和第二基因通路中包括的基因可以但不限于相同、部分相同、或者完全不同等等,在本实施例中,仅以第一基因通路和第二基因通路包括的基因完全不同为例,进行解释和说明。
在本实施例中提供了一种通路相关性的确定方法,图3是根据本申请实施例的通路相关性的确定方法的流程图,如图3所示,该流程包括如下步骤:
步骤S302,在第一基因通路中选择第一基因,并在第二基因通路中选择第二基因,其中,在所述第一基因通路中不包括所述第一基因的上游基因、但包括所述第一基因的下游基因,在所述第二基因通路中不包括所述第二基因的上游基因、但包括所述第二基因的下游基因;
步骤S304,确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;
步骤S306,根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关。
通过上述步骤,在第一基因通路中不包括第一基因的上游基因,但包括第一基因的下游基因,在第二基因通路中不包括第二基因的上游基因,但包括第二基因的下游基因,实现了通过表示第一基因的第一目标向量和表示第二基因的第二目标向量,确定第一基因通路和第二基因通路之间是否相关,缩短了确定基因通路之间是否相关所需的时间。因此,可以解决通路相关性的确定效率较低问题,达到提升通路相关性的确定效率的效果。
其中,上述步骤的执行主体可以为服务器、终端等,但不限于此。
在上述步骤S302提供的技术方案中,第一基因通路中可以但不限于包括多个基因以及多个基因之间的通路,在第一基因通路中不包括第一基因的上游基因、但包括第一基因的下游基因,第一基因的数量大于或者等于1,第二基因通路中可以但不限于包括多个基因以及多个基因之间的通路,在第二基因通路中不包括第二基因的上游基因、但包括第二基因的下游基因,第二基因的数量大于或者等于1。
在本申请的各个实施例中,第一基因通路和第二基因通路是待确定是否相关的基因通路,第一基因通路和第二基因通路中包括的基因可以但不限于相同、部分相同、或者完全不同等等。
在本申请的各个实施例中,基因通路可以但不限于包括一组有序的基因(如图2所示,例如,基因通路包括基因2、基因1、基因3、基因4、基因5),其中,有序的基因包括具有上下游关系的一对基因或多对基因,例如,在上述具有上下游关系的一对基因中,或,在上述具有上下游关系的多对基因中的每对基因中,一个基因是另一个基因的上游基因,另一个基因是上述一个基因的下游基因,如图2所示,基因2是基因1的上游基因,基因1是基因2的下游基因。可选的,基因可以但不限于包括生物体的基因,比如,植物的基因或者动物的基因等等。在第一基因通路中,第一基因的下游基因的表达结果是根据第一基因的表达结果确定的,也就是说,第一基因的表达结果影响第一基因的下游基因的表达结果,同理,在第二基因通路中,第二基因的下游基因的表达结果是根据第二基因的表达结果确定的,也就是说,第二基因的表达结果影响第二基因的下游基因的表达结果。
作为一种可选的示例,基因的表达结果可以但不限于包括通过基因的表达过程(例如,转录、RNA(Ribonucleic Acid,核糖核酸)剪接、翻译和蛋白质修饰)所形成的产物。
在本申请的各个实施例中,上述基因的表达过程是指基因从DNA(DeoxyriboNucleic Acid,脱氧核糖核酸)转录成mRNA(messenger RNA,信使核糖核酸),再通过mRNA翻译成蛋白质的过程。例如,转录(Transcription):在细胞的细胞核中,DNA的双链被解开,其中的一个链作为模板,通过RNA聚合酶(RNA polymerase)的作用,将DNA的信息转录成一条单链的mRNA。转录过程中,RNA聚合酶按照DNA上的碱基序列合成相应的mRNA分子,其中A(腺嘌呤)与U(尿嘧啶)配对,C(胞嘧啶)与G(鸟嘌呤)配对。
RNA剪接(RNA Splicing):在转录过程中,只有一小部分mRNA序列编码成蛋白质,其余部分称为内含子(introns)。RNA剪接是指将内含子从mRNA中剪除,将外显子(exons)连接起来的过程。这样,经过剪接的mRNA序列称为成熟mRNA。
翻译(Translation):成熟的mRNA通过核孔蛋白复合物进入细胞质,与核糖体结合进行翻译。翻译过程中,mRNA上的三个碱基一组称为密码子(codon),每个密码子对应一个特定的氨基酸。tRNA(Transfer RNA,转运RNA)通过把适配的氨基酸带到核糖体上,使氨基酸按照mRNA上的密码子序列连接起来,形成蛋白质的链。这个过程持续进行,直到遇到终止密码子,蛋白质合成终止。
蛋白质修饰(Protein Modification):合成的蛋白质可能需要经过修饰才能发挥功能。修饰包括磷酸化、甲基化、乙酰化等化学改变,以及蛋白质的折叠、剪切等结构改变。
在上述步骤S304提供的技术方案中,可以但不限于确定用于表示第一基因的第一目标向量,并确定用于表示第二基因的第二目标向量,可以理解的是,通过向量的方式来表示基因通路中的基因,第一目标向量的确定方式和第二目标向量的确定方式可以但不限于相同。
在本申请的各个实施例中,基因通路中的每个基因可以但不限于通过一个或者多个向量来表示,第一目标向量和第二目标向量可以但不限于不同,可以理解的是,表示第一基因的向量和表示第二基因的向量可以但不限于是不同的。
在一个示范性实施例中,可以但不限于通过以下方式确定用于表示第一基因的第一目标向量,包括:确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第一基因通路中所述第一基因的下游基因,所述各级下游基因中的第n级下游基因是所述第一基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;根据所述第一组基因和所述第一基因,确定所述第一目标向量。
在本申请的各个实施例中,第一组基因中可以但不限于包括第一基因通路中第一基因的对应的各级下游基因,例如,在图2中,第一基因为基因2,在这样的情况下,第一组基因中的第1级下游基因可以但不限于为基因1,第一组基因中的第2级下游基因可以但不限于包括基因3、基因4和基因5。
在这样的情况下,第一组基因可以但不限于包括基因1、基因3、基因4和基因5,图4是根据本申请实施例的一种可选的确定第一目标向量的示意图一,如图4所示,可以但限于根据第一组基因(例如,基因1、基因3、基因4和基因5)和第一基因(例如,基因2),确定第一目标向量。
在一个示范性实施例中,可以但不限于通过以下方式根据第一组基因和第一基因,确定第一目标向量:根据所述第一组基因和所述第一基因,确定一组条件概率函数,其中,所述一组条件概率函数中的第i个条件概率函数用于确定一组条件概率中的第i个条件概率,所述第i个条件概率表示在确定得到第i组基因中的各个基因的表达结果的情况下,确定得到所述第一组基因和所述第一基因中的第i个基因的表达结果的概率,i为大于或者等于1的正整数;根据所述一组条件概率函数,确定目标损失函数,其中,所述目标损失函数的取值是随用于表示所述第一基因的向量的变化而变化;在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第一预设条件的情况下,将所述目标向量确定为所述第一目标向量。
在本申请的各个实施例中,目标损失函数的取值是随用于表示第一基因的向量的变化而变化,可以理解的是,目标损失函数的一个自变量是用于表示第一基因的向量。
在本申请的各个实施例中,可以但不限于在用于表示第一基因的向量为目标向量时目标损失函数满足第一预设条件的情况下,将目标向量确定为第一目标向量,图5是根据本申请实施例的一种可选的确定第一目标向量的示意图二,如图5所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因2,在这样的情况下,第一组基因可以但不限于包括基因1、基因3、基因4和基因5,在这样的情况下,可以但不限于根据第一组基因(例如,基因1、基因3、基因4和基因5)和第一基因(例如,基因2),确定目标损失函数,在用于表示基因2的向量为目标向量时目标损失函数满足第一预设条件的情况下,将目标向量确定为第一目标向量。
图6是根据本申请实施例的一种可选的确定目标损失函数的示意图一,如图6所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因2,在这样的情况下,第一组基因可以但不限于包括基因1、基因3、基因4和基因5,在这样的情况下,可以但不限于根据第一组基因(例如,基因1、基因3、基因4和基因5)和第一基因(例如,基因2),确定一组条件概率函数(例如,、/>、/>、/>和/>),例如,条件概率函数/>可以但不限于用于确定第1个条件概率,第1个条件概率表示在确定得到第1组基因中的基因2(或称为,/>)、基因3(或称为,/>)、基因4(或称为,/>)和基因5(或称为,)的表达结果的情况下,确定得到基因1(或称为,/>)的表达结果的概率。可以但不限于根据一组条件概率函数,确定目标损失函数。
在一个示范性实施例中,在所述第一组基因和所述第一基因中包括所述第i个基因的上游基因和下游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第i个基因的上游基因、不包括所述第i个基因的下游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第i个基因的下游基因、不包括所述第i个基因的上游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的各个下游基因,i为大于或者等于1的正整数。
在本申请的各个实施例中,在第一组基因和第一基因中可能只存在第i个基因的上游基因,或者只存在第i个基因的下游基因,或者存在第i个基因的上游基因和下游基因,例如,如图2所示,在第一组基因(例如,基因1、基因3、基因4和基因5)和第一基因(例如,基因2)中,只存在基因2的下游基因(例如,基因1),而不存在基因2的上游基因,存在基因1的上游基因(例如,基因2)和下游基因(例如,基因3、基因4和基因5)。
在本申请的各个实施例中,在第一组基因和第一基因中存在第i个基因的下游基因的情况下,第i个基因的下游基因的表达结果是根据第i个基因的表达结果确定的,也就是说,第i个基因的表达结果影响第i个基因的下游基因的表达结果,同理,在第一组基因和第一基因中存在第i个基因的上游基因的情况下,第i个基因表达结果是根据第i个基因的上游基因的表达结果确定的,也就是说,第i个基因的上游基因的表达结果影响第i个基因的表达结果。
在本申请的各个实施例中,第一组基因和第一基因中的各个基因可以但不限于具有对应的一组基因,例如,如图2所示,基因1的上游基因为基因2,基因1的下游基因为基因3、基因4和基因5,那么基因1所对应的一组基因可以但不限于包括基因2、基因3、基因4和基因5。仅存在基因2的下游基因,例如,基因1,那么基因2所对应的一组基因可以但不限于包括基因1。仅存在基因3的上游基因,例如,基因1,那么基因3所对应的一组基因可以但不限于包括基因1。
在一个示范性实施例中,可以但不限于通过以下方式根据第一组基因和第一基因,确定一组条件概率函数:根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数,其中,所述第一组向量中的第s个向量是用于在所述第一组基因中的第s个基因满足第二预设条件时表示所述第s个基因的向量,所述第二组向量中的第s个向量是用于所述第一组基因中的第s个基因不满足所述第二预设条件时表示所述第s个基因的向量,所述第一向量是用于在所述第一基因满足所述第二预设条件时表示所述第一基因的向量,所述第二向量是用于在所述第一基因不满足所述第二预设条件时表示所述第一基因的向量,所述第二预设条件包括在所述第一组基因和所述第一基因中基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,s为大于或者等于1的正整数。
在本申请的各个实施例中,在基因通路中满足第二预设条件的基因的数量可以但不限于大于等于1,可以理解的是,基因通路中可能包括一个或者多个满足第二预设条件的基因。
在本申请的各个实施例中,上述第一基因通路和第二基因通路可以但不限于会导致目标事件的发生。上述目标事件可以但不限于包括:植物的生长事件,例如,植物的长度发生变化(如,植物的长度变大,或,植物的长度不变,或,植物的长度变小),植物的颜色发生变化(如,植物的颜色变黑,或,植物的颜色变绿),植物开花,或者,植物结出果实;动物的生长事件,例如,动物的体重发生变化(如,动物的体重增大,或者,动物的体重不变,或者,动物的体重减小),动物的毛发发生变化(如,动物的毛发脱落,动物的毛发停止生长)。
在本申请的各个实施例中,基因通路中包括的各个基因可以但不限于通过两个向量进行表示,可以理解的是,对于同一个基因,可以但不限于具有一个在该基因满足第二预设条件时表示该基因的向量,以及具有一个在该基因不满足第二预设条件时表示该基因的向量。在基因满足第二预设条件的情况下,该基因可以但不限于为核心基因,在基因不满足第二预设条件的情况下,该基因可以但不限于不是核心基因,第一组基因中的各个基因以及第一基因可能既是核心基因,也是上游基因或者下游基因,例如在图2中,基因1既是核心基因,基因1又是基因3、基因4和基因5的上游基因。可以理解的是,第一组基因中的各个基因和第一基因可以但不限于通过对应的两个向量进行表示。
在本申请的各个实施例中,基因通路(例如,上述第一基因通路,或者,第二基因通路)中的基因(例如,第一基因,或者,第二基因)的表达结果与预设的目标事件之间的相关度可以但不限于是通过位于基因的上游基因的基因的第一数量与位于该基因的下游的基因的第二数量确定的,可以理解的是,相关度可以但不限于是通过影响基因的表达结果的上游的基因的第一数量以及该基因的表达结果影响的下游基因的第二数量确定的,相关度和第一数量与第二数量的之和呈正相关,可以理解的是,第一数量和第二数量之和越大,基因的表达结果与预设的目标事件之间的相关度越高。例如,在第一组基因中和第一基因中的各个基因是核心基因时,基因的表达结果与目标事件的相关度大于或者等于预设的阈值。例如,在第一组基因中和第一基因中的各个基因不是核心基因时,基因的表达结果与目标事件的相关度小于或者等于预设的阈值。
图7是根据本申请实施例的一种可选的确定一组条件概率函数的示意图,如图7所示,第一基因通路可以但不限于包括基因1至5,其中,第一基因可以但不限于为基因1,第一组基因可以但不限于包括基因2至5。
第一组向量可以但不限于包括向量S1、S3、S4和S5,其中,S1是用于在基因1满足第二预设条件时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4满足第二预设条件时表示基因4的向量,S5是用于在基因5满足所述第二预设条件时表示基因5的向量。
第二组向量可以但不限于包括向量t1、t3、t4和t5,其中,t1是用于在基因1不满足第二预设条件时表示基因2的向量,t3是用于在基因3不满足第二预设条件时表示基因3的向量,t4是用于在基因4不满足第二预设条件时表示基因4的向量,t5是用于在基因5不满足第二预设条件时表示基因5的向量。向量S2(或称为,第一向量)是用于在第一基因(例如,基因2)满足第二预设条件时表示第一基因的向量,向量t2(或称为,第二向量)是用于在第一基因(例如,基因2)不满足第二预设条件时表示第一基因的向量。
那么,可以但不限于根据作为变量的第一组向量(例如,向量S1、S3、S4和S5)、作为变量的第二组向量(例如,向量t1、t3、t4和t5)、作为变量的第一向量(例如,向量S2)和作为变量的第二向量(例如,向量t2),确定一组条件概率函数(例如,、/>、/>和/>)。
在一个示范性实施例中,可以但不限于通过执行以下步骤,根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数中的第i个条件概率函数:根据所述第一组向量、所述第二组向量与所述第二向量中的第i个向量、和所述第一向量,确定第一表达式;根据所述第一组向量、所述第二组向量、所述第一向量和所述第二向量,确定第二表达式;将所述第i个条件概率函数确定为所述第一表达式除以所述第二表达式。
在本申请的各个实施例中,第i个向量可以但不限于是第二组向量和第二向量中的向量,图8是根据本申请实施例的一种确定第i个条件概率函数的示意图,如图8所示,第一组向量可以但不限于包括向量S1、S3、S4和S5,其中,S1是用于在基因1满足第二预设条件时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4满足第二预设条件时表示基因4的向量,S5是用于在基因5满足所述第二预设条件时表示基因5的向量。
第二组向量可以但不限于包括向量t1、t3、t4和t5,其中,t1是用于在基因1不满足第二预设条件时表示基因2的向量,t3是用于在基因3不满足第二预设条件时表示基因3的向量,t4是用于在基因4不满足第二预设条件时表示基因4的向量,t5是用于在基因5不满足第二预设条件时表示基因5的向量。向量S2(或称为,第一向量)是用于在第一基因(例如,基因2)满足第二预设条件时表示第一基因的向量,向量t2(或称为,第二向量)是用于在第一基因(例如,基因2)不满足第二预设条件时表示第一基因的向量。
那么,可以但不限于根据第一组向量(例如,向量S1、S3、S4和S5)、第二组向量(例如,向量t1、t3、t4和t5)与第二向量(例如,向量t2)中的第i个向量、和第一向量(例如,向量S2),确定第一表达式;根据第一组向量(例如,向量S1、S3、S4和S5)、第二组向量(例如,向量t1、t3、t4和t5)、第一向量(例如,向量S2)和第二向量(例如,向量t2),确定第二表达式;将第i个条件概率函数确定为第一表达式除以第二表达式。
在一个示范性实施例中,可以但不限于通过以下方式根据第一组向量、第二组向量与第二向量中的第i个向量、和第一向量,确定第一表达式:从所述第一组向量和所述第一向量中确定第i组向量,其中,所述第i组向量中的第t个向量是用于在所述第i组基因中的第t个基因满足所述第二预设条件时表示所述第i组基因中的第t个基因的向量,t为大于或等于1、且小于或等于ki的正整数,ki为所述第i组基因中包括的基因的数量;根据所述第i组向量,确定第i个表达式,其中,在所述第i组向量包括的向量的数量为1的情况下,将所述i个表达式确定为等于所述第i组向量包括的向量,在所述第i组向量包括的向量的数量大于1的情况下,将所述第i个表达式确定为对所述第i组向量执行求和操作;将第一乘积表达式确定为对所述第i个向量的转置和所述第i个表达式进行乘积操作;将所述第一表达式确定为,其中,/>表示所述第一乘积表达式。
为了更好的理解确定第一表达式的过程,可以但不限于以第i个基因为基因1为例,第i个向量为向量t1进行解释和说明,可以但不限于适用于本申请实施例。
图9是根据本申请实施例的一种可选的确定第一表达式的示意图,如图9所示,第一组向量可以但不限于包括向量S1、S3、S4和S5,其中,S1是用于在基因1满足第二预设条件时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4满足第二预设条件时表示基因4的向量,S5是用于在基因5满足所述第二预设条件时表示基因5的向量。向量S2(或称为,第一向量)是用于在第一基因(例如,基因2)满足第二预设条件时表示第一基因的向量。
那么,第i组向量可以但不限于包括向量S2、S3、S4和S5,在这样的情况下,可以但不限于将第i个表达式确定为对第i组向量执行求和操作,例如,将i个表达式确定为S2+S3+S4+S5,将第一乘积表达式确定为对第i个向量(例如,向量t1)的转置和第i个表达式进行乘积操作,例如,将第一乘积表达式确定为[S2+S3+S4+S5](t1)T,将第一表达式确定为
在一个示范性实施例中,可以但不限于通过以下方式根据第一组向量、第二组向量、第一向量和第二向量,确定第二表达式:在所述第一组向量和所述第一向量中包括的向量的数量为N+1、且所述第一组基因和所述第一基因包括N+1个基因的情况下,从所述第一组向量和所述第一向量中分别确定N+1组向量,其中,所述N+1组向量中的第j组向量中的第t个向量是用于在N+1组基因中的第j组基因中的第t个基因满足所述第二预设条件时表示所述第j组基因中的第t个基因的向量,t为大于或等于1、且小于或等于kj的正整数,kj为所述第j组基因中包括的基因的数量,j为大于或等于1、且小于或等于N+1的正整数,N为大于或等于1的正整数,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因;根据所述N+1组向量,确定N+1个表达式,其中,在所述N+1组向量中的第j组向量包括的向量的数量为1的情况下,将所述N+1个表达式中的第j个表达式确定为等于所述第j组向量包括的向量,在所述N+1组向量中的第j组向量包括的向量的数量大于1的情况下,将所述N+1个表达式中的第j个表达式确定为对所述第j组向量执行求和操作;将N+1个乘积表达式中的第j个乘积表达式确定为对所述第二组向量和所述第二向量中的第j个向量的转置和所述第j个表达式进行乘积操作之后再除以kj,其中,所述第二组向量和所述第二向量中包括的向量的数量为N+1;将所述第二表达式确定为+/>+...+/>,其中,/>,/>, />... />表示所述N+1个乘积表达式。
为了更好的理解确定第二表达式的过程,下面可以但不限于结合可选的实施例,对本身实施例中确定第二表达式的过程进行解释和说明,可以但不限于适用于本申请实施例。
图10是根据本申请实施例的一种可选的确定第二表达式的示意图,如图10所示,第一组基因可以但不限于包括基因1、基因3、基因4和基因5,第一基因为基因2。第一组向量可以但不限于包括向量S1、S3、S4和S5,其中,S1是用于在基因1满足第二预设条件时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4满足第二预设条件时表示基因4的向量,S5是用于在基因5满足所述第二预设条件时表示基因5的向量。向量S2(或称为,第一向量)是用于在第一基因(例如,基因2)满足第二预设条件时表示第一基因的向量。
那么,N+1组向量可以但不限于包括基因1所对应的一组向量,基因2所对应的一组向量,基因3所对应的一组向量,基因4所对应的一组向量和基因5所对应的一组向量,其中,基因1的上游基因包括基因2,基因1的下游基因包括基因3、基因4和基因5,基因2的下游基因包括基因1,基因3的上游基因包括基因1,基因4的上游基因包括基因1,基因5的上游基因包括基因1。在这样的情况下,基因1所对应的一组向量包括向量S2、S3、S4和S5,基因2所对应的一组向量包括向量S1,基因3所对应的一组向量包括向量S1,基因4所对应的一组向量包括向量S1和基因5所对应的一组向量包括向量S1
可以但不限于根据N+1组向量,确定N+1个表达式,例如,N+1个表达式可以但不限于分别为:S2+S3+S4+S5,S1,S1,S1和S1
可以但不限于将N+1个乘积表达式中的第j个乘积表达式确定为第二组向量(例如,t1、t3、t4和t5)和第二向量(向量t1)中的第j个向量的转置和第j个表达式进行乘积操作之后再除以kj,例如,N+1个乘积表达式可以但不限于包括:、/>、/>和/>
那么可以但不限于将第二表达式确定为:
作为一种可选的示例,在本实施例中,一组条件概率函数可以但不限于如下:
/>
在一个示范性实施例中,可以但不限于通过以下方式根据所述一组条件概率函数,确定目标损失函数,包括:根据所述一组条件概率函数,确定目标概率密度函数;对所述目标概率密度函数进行取对数操作,得到所述目标损失函数。
在本申请的各个实施例中,可以但不限于对目标概率密度函数进行取对数操作,得到目标损失函数,或者,对目标概率密度函数进行取对数操作,得到取对结果,对取对结果进行取负操作,得到目标损失函数。
在一个示范性实施例中,可以但不限于通过以下方式根据一组条件概率函数,确定目标概率密度函数:将所述目标概率密度函数确定为对所述一组条件概率函数中的各个条件概率函数执行乘积操作。
在本申请的各个实施例中,可以但不限于将一组条件概率函数中的各个条件概率函数执行乘积操作,图11是根据本申请实施例的一种可选的确定目标损失函数的示意图二,如图11所示,一组条件概率函数可以但不限于包括、/>、/>和/>,在这样的情况下,可以但不限于将/>、/>、/>、/>和/>执行乘积操作,得到目标概率密度函数,可以但不限于对目标概率密度函数进行取对数操作,得到取对结果,对取对结果进行取负操作,得到目标损失函数,得到目标损失函数。
可以但不限于通过以下公式(1)确定目标损失函数:
(1)
其中,为第j个基因,/>为第j组基因,G为第一组基因和第一基因,,/>,其中,/>表示在第一组基因和第一基因中的各个基因满足第二预设条件时表示第一组基因和第一基因中的各个基因的向量Si的均值,k为G中包括的元素的个数(例如,第一组基因和第一基因中包括的基因的数量)。/>是在所述第j个基因不满足第二预设条件时表示第j个基因的向量的转置。
例如,如图2所示,在第一组基因包括基因1、基因3、基因4和基因5,第一基因为基因2的情况下,上述公式(1)可以但不限于展开为:
在一个示范性实施例中,可以但不限于通过以下方式在用于表示第一基因的向量为目标向量时目标损失函数满足第一预设条件的情况下,将目标向量确定为第一目标向量:根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定一组梯度函数,其中,所述第一组向量中的第s个向量是用于在所述第一组基因中的第s个基因满足第二预设条件时表示所述第s个基因的向量,所述第二组向量中的第s个向量是用于所述第一组基因中的第s个基因不满足所述第二预设条件时表示所述第s个基因的向量,所述第一向量是用于在所述第一基因满足所述第二预设条件时表示所述第一基因的向量,所述第二向量是用于在所述第一基因不满足所述第二预设条件时表示所述第一基因的向量,所述第二预设条件包括在所述第一组基因和所述第一基因中基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,s为大于或者等于1的正整数;在所述一组梯度函数的函数值均为预设值、且当所述第二向量等于所述目标向量时,所述目标损失函数的函数值最小的情况下,将所述目标向量确定为所述第一目标向量。
在本申请的各个实施例中,在一组梯度函数中的各个梯度函数均为预设值(例如,0、0.2等等,本申请对此不作限制)、且当第二向量等于目标向量时,目标损失函数的函数值最小的情况下,将目标向量确定为第一目标向量。
图12是根据本申请实施例的一种可选的确定第一目标向量的示意图三,如图12所示,
第一组基因可以但不限于包括基因1、基因3、基因4和基因5,第一基因为基因2。第一组向量可以但不限于包括向量S1、S3、S4和S5,其中,S1是用于在基因1满足第二预设条件时表示基因2的向量,S3是用于在基因3是核心基因时表示基因3的向量,S4是用于在基因4满足第二预设条件时表示基因4的向量,S5是用于在基因5满足所述第二预设条件时表示基因5的向量。向量S2(或称为,第一向量)是用于在第一基因(例如,基因2)满足第二预设条件时表示第一基因的向量。
第二组向量可以但不限于包括向量t1、t3、t4和t5,其中,t1是用于在基因1不满足第二预设条件时表示基因2的向量,t3是用于在基因3不满足第二预设条件时表示基因3的向量,t4是用于在基因4不满足第二预设条件时表示基因4的向量,t5是用于在基因5不满足第二预设条件时表示基因5的向量。向量S2(或称为,第一向量)是用于在第一基因(例如,基因2)满足第二预设条件时表示第一基因的向量,向量t2(或称为,第二向量)是用于在第一基因(例如,基因2)不满足第二预设条件时表示第一基因的向量。
在这样的情况下,可以但不限于根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定一组梯度函数,例如,,/>,/>,/>和/>
在一个示范性实施例中,可以但不限于通过执行以下步骤,确定所述一组梯度函数中的第j个梯度函数:在所述第二组向量和所述第二向量包括N+1个向量的情况下,根据所述N+1个向量,确定N+1个乘积表达式,其中,所述第二组向量包括所述N+1个向量中的N个向量,所述第二向量包括所述N+1个向量中的一个向量,j为大于或者等于1、且小于或等于N+1的正整数;根据所述N+1个乘积表达式和所述N+1个向量中的第j个向量,确定所述第j个梯度函数。
在本申请的各个实施例中,可以但不限于根据第二组向量和第二向量,确定N+1个乘积表达式,根据N+1个乘积表达式和N+1个向量中的第j个向量,确定第j个梯度函数。例如,以确定梯度函数为例,在这样的情况下,可以但不限于根据第二组向量和第二向量,确定N+1个乘积表达式,根据N+1个乘积表达式和N+1个向量中的向量t3,确定梯度函数/>
在一个示范性实施例中,可以但不限于通过以下方式根据N+1个向量,确定N+1个乘积表达式:根据所述N+1个向量,生成目标哈夫曼树,其中,所述目标哈夫曼树包括作为叶子节点的N+1个节点,所述N+1个节点与所述N+1个向量具有一一对应的关系,所述N+1个节点中的第j个节点用于表示所述N+1个向量中的第j个向量;根据所述N+1个向量和所述目标哈夫曼树,确定所述N+1个乘积表达式。
在本申请的各个实施例中,梯度的计算需要对整个基因网络求和,计算成本随着基因网络规模线性变化。为了降低计算成本,可以但不限于通过遍历二叉树上连接和/>路径上面的节点对损失函数进行训练优化,当使用层序Softmax模型进行预测时,给定第j组基因/>的条件下,估计第j个基因/>的概率/>。在层序Softmax模型中,可以但不限于通过Huffman(哈夫曼)树来减少计算的复杂度。
可以但不限于根据N+1个向量,生成目标哈夫曼树,在目标哈夫曼树中,每个向量都对应树上的一个叶子节点,而非叶子节点表示路径的内部节点。每个向量在Huffman树中有一个唯一的编码路径,这个编码可以但不限于通过二进制表示。这些编码用于指示在树中从根节点到达叶子节点的路径。
图13是根据本申请实施例的一种可选的确定N+1个乘积表达式的示意图,如图13所示,第二组向量可以但不限于包括向量t1、t3、t4和t5,其中,t1是用于在基因1不满足第二预设条件时表示基因2的向量,t3是用于在基因3不满足第二预设条件时表示基因3的向量,t4是用于在基因4不满足第二预设条件时表示基因4的向量,t5是用于在基因5不满足第二预设条件时表示基因5的向量。向量S2(或称为,第一向量)是用于在第一基因(例如,基因2)满足第二预设条件时表示第一基因的向量,向量t2(或称为,第二向量)是用于在第一基因(例如,基因2)不满足第二预设条件时表示第一基因的向量。
在这样的情况下,可以但不限于根据第二组向量和第二向量,生成目标哈夫曼树,根据第二组向量和第二向量和目标哈夫曼树,确定N+1个乘积表达式,例如,N+1个乘积表达式可以但不限于包括,/>,/>,/>
在一个示范性实施例中,可以但不限于通过以下方式根据所述N+1个向量,生成目标哈夫曼树:从作为叶子节点的所述N+1个节点开始,依次构建M级节点,直到所述M级节点中的第M级节点是根节点,其中,M为大于或等于1的正整数;其中,在所述N+1个节点中存在第2p-1个节点和第2p个节点的情况下,所述M级节点中的第1级节点中的第p个节点是所述N+1个节点中的所述第2p-1个节点和所述第2p个节点的父节点,所述第1级节点中的第p个节点表示的向量等于所述N+1个节点中的所述第2p-1个节点表示的向量与所述第2p个节点表示的向量之和;在所述N+1个节点中存在第2p-1个节点、但不存在第2p个节点的情况下,所述M级节点中的第1级节点中的第p个节点是所述N+1个节点中的所述第2p-1个节点的父节点,所述第1级节点中的第p个节点表示的向量等于所述N+1个节点中的所述第2p-1个节点表示的向量,p为大于或等于1的正整数;其中,在所述M级节点的第q-1级节点中存在第2p-1个节点和第2p个节点的情况下,所述M级节点中的第q级节点中的第p个节点是所述第q-1级节点中的所述第2p-1个节点和所述第2p个节点的父节点,所述第q级节点中的第p个节点表示的向量等于所述第q-1级节点中的所述第2p-1个节点表示的向量与所述第q-1级节点中的所述第2p个节点表示的向量之和;在所述第q-1级节点中存在第2p-1个节点、但不存在第2p个节点的情况下,所述M级节点中的第q级节点中的第p个节点是所述第q-1级节点中的所述第2p-1个节点的父节点,所述第q级节点中的第p个节点表示的向量等于所述第q-1级节点中的所述第2p-1个节点表示的向量,q为大于或等于2的正整数。
为了更好地理解本申请实施例中的生成目标哈夫曼树的过程,下面结合可选的实施例,对本申请实施例中的生成目标哈夫曼数的过程进行解释和说明,可以但不限于适用于本申请实施例。
图14是根据本申请实施例的一种可选的生成目标哈夫曼树的示意图,如图14所示,第二组向量可以但不限于包括向量t1、t3、t4和t5,其中,t1是用于在基因1不满足第二预设条件时表示基因2的向量,t3是用于在基因3不满足第二预设条件时表示基因3的向量,t4是用于在基因4不满足第二预设条件时表示基因4的向量,t5是用于在基因5不满足第二预设条件时表示基因5的向量。向量S2(或称为,第一向量)是用于在第一基因(例如,基因2)满足第二预设条件时表示第一基因的向量,向量t2(或称为,第二向量)是用于在第一基因(例如,基因2)不满足第二预设条件时表示第一基因的向量。
在这样的情况下,节点1用于表示向量t1,节点2用于表示向量t2,节点3用于表示向量t3,节点4用于表示向量t4,节点5用于表示向量t5。在这样的情况下,可以但不限于从作为叶子节点的节点1、节点2、节点3、节点4和节点5开始,依次构建3级节点,直到3级节点中的第3级节点是根节点,第1级节点包括节点6、节点7和节点8,第2级节点包括节点9和节点10,第3级节点包括节点11。
例如,在第1级节点中节点6是节点1和节点2的父节点,节点6表示的向量等于节点1表示的向量与节点2表示的向量之和,节点8是节点5的父节点,节点8表示的向量等于节点4表示的向量与节点5表示的向量之和。
在一个示范性实施例中,可以但不限于通过执行以下步骤,确定所述N+1个乘积表达式中的第j个乘积表达式,其中,j为大于或者等于1、且小于或者等于N+1的正整数:所述第一组基因和所述第一基因包括N+1个基因的情况下,在所述第一组基因和所述第一基因中确定第j组基因,其中,kj为所述第j组基因中包括的基因的数量,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因;在所述目标哈夫曼树中确定所述第j组基因中的每个基因对应的路径,得到kj条路径,其中,所述kj条路径中的第t条路径是从所述目标哈夫曼树中的根节点到作为叶子节点的所述N+1个节点中的第t个节点,所述第t个节点用于表示第t个向量,所述第t个向量是用于表示所述第j组基因中的第t个基因的向量,t为大于或等于1、且小于或等于kj的正整数;根据所述kj条路径,确定kj组向量,其中,所述kj组向量中的第t组向量包括所述kj条路径中的所述第t条路径上除所述N+1个节点中的第t个节点之外的各个节点表示的向量;在所述kj组向量包括Q个向量的情况下,根据所述Q个向量和第j个向量,确定Q个表达式,其中,所述第j个向量是用于在所述第j个基因不满足所述第二预设条件时表示所述第j个基因的向量,Q为大于或等于2的正整数;将所述第j个乘积表达式确定对所述Q个表达式与所述第j个向量进行乘积操作。
在本申请的各个实施例中,kj条路径的数量可以但不限于大于或者等于1,可以理解的是,第j组基因中的每个基因对应的路径可能是1条路径,也可能是2条及以上的路径。
图15是根据本申请实施例的一种可选的确定第j个乘积表达式的示意图,如图15所示,可以但不限于以确定乘积表达式为例,第一组基因可以但不限于包括基因1、基因3、基因4和基因5,第一基因可以但不限于为基因2,在这样的情况下,在第一组基因和第一基因中确定第j组基因,第j组基因可以但不限于包括基因1,在这样的情况下,kj等于1。
在目标哈夫曼树中确定基因1对应的路径,其中,基因1对应的路径是从目标哈夫曼树中的根节点(例如,节点11)到作为叶子节点的节点1,节点1用于表示向量t1,向量t1是用于表示基因1的向量;可以但不限于根据向量根据1条路径,确定1组向量,例如,一组向量可以但不限于包括向量1、向量2、向量3,其中,节点11用于表示向量1,节点9用于表示向量2,节点6用于表示向量3。
可以但不限于根据向量1、向量2、向量3和向量,确定3个表达式,其中,向量/>是用于在基因2不满足第二预设条件时表示基因2的向量;将乘积表达式确定对3个表达式与向量/>进行乘积操作,例如,乘积表达式/>可以但不限于确定为表达式1*表达式2*表达式3*t2
又例如,当第j组基因包含多个基因时,需要考虑所有可能的路径,对每个路径上的非叶子节点进行内积计算,并将这些计算结果用于条件概率的估计,例如,在确定乘积表达式的时候。,其中,/>是/>对应基因路径上的向量,例如,向量/>是基因2在层级1对应的基因路径上的向量,向量/>是基因3在层级1对应的基因路径上的向量。
在一个示范性实施例中,可以但不限于通过执行以下步骤,根据所述Q个向量中的第r个向量和所述第j个向量,确定所述Q个表达式中的第r个表达式:将所述第r个表达式确定为,其中,/>,其中,/>是第r个乘积表达式,所述第r个乘积表达式是对第r个系数、所述第r个向量的转置和所述第j个向量进行乘积操作,用于表示所述第r个向量的节点是所述目标哈夫曼树中的目标节点、在所述目标节点是所述根节点的情况下,所述第r个系数为1,在所述目标节点不是所述根节点、且所述目标节点是所述目标节点的父节点的左子节点的情况下,所述第r个系数为1,在所述目标节点不是所述根节点、且所述目标节点是所述目标节点的父节点的右子节点的情况下,所述第r个系数为-1。
在本申请的各个实施例中,第r个系数的取值范围可以但不限于包括1和-1,可以但不限于通过以下公式(2)进行判断:
(2)
其中,为第j个基因,/>为第j组基因,/>是逻辑函数,/>,/>是连接叶子节点/>的在二叉树上层级为/>的节点,/>是节点n的左子节点,/>是/>对应基因路径上的向量,/>是判断函数,当/>为真(即为左子节点)时返回1,否则返回-1。
图16是根据本申请实施例的一种可选的确定第r个表达式的示意图,如图16所示,将第r个表达式确定为,其中,/>,其中,/>是第r个乘积表达式,第r个乘积表达式是对第r个系数、第r个向量(例如,向量1(或称为,向量/>)、向量2(或称为,向量/>)或者向量3(或称为,/>))的转置和向量t2进行乘积操作。在这样的情况下,表达式1可以但不限于为/>,表达式2可以但不限于为/>,表达式3可以但不限于为/>
通过这样的方式,相比于需要对整个基因组进行累加操作的损失函数,本申请实施例中的损失函数只跟二叉树的深度线性相关,计算数量级由原来的降至,实现了训练优化,提升了训练效率。
在一个示范性实施例中,可以但不限于通过以下方式根据N+1个乘积表达式和N+1个向量中的第j个向量,确定所述第j个梯度函数:将第三表达式确定为对所述第j个向量减去第二求和表达式,其中,所述第二求和表达式等于所述N+1个乘积表达式之和;将所述第j个梯度函数确定为(tj-y0)/kj,其中,tj为所述第j个向量,y0为所述第三表达式,kj为第j组基因中包括的基因的数量,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因,所述第j个向量是用于在所述第j个基因不满足所述第二预设条件时表示所述第j个基因的向量。
在本申请的各个实施例中,可以但不限于通过以下公式(3)确定一组梯度函数:
(3)
其中,为第j个基因,/>为第j组基因。
例如,在第一组基因包括基因1、基因3、基因4和基因5,第一基因为基因2的情况下,一组梯度函数可以但不限于包括:
在一个示范性实施例中,可以但不限于通过以下方式确定用于表示第二基因的第二目标向量:确定所述第二基因通路中包括的除所述第二基因外的基因,得到第三组基因,其中,所述第三组基因包括在所述第二基因通路中所述第二基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第二基因通路中所述第二基因的下游基因,所述各级下游基因中的第n级下游基因是所述第二基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;根据所述第三组基因和所述第二基因,确定所述第二目标向量。
在本申请的各个实施例中,第二目标向量的确定方式可以但不限于与第一目标向量的确定方式相同,第二基因通路中包括的基因可以但不限于与第一基因通路中包括的基因相同或者不同等等。
在本申请的各个实施例中,第三组基因中可以但不限于包括第二基因通路中第二基因的对应的各级下游基因,例如,在图2中,第二基因为基因7,在这样的情况下,第三组基因中的第1级下游基因可以但不限于为基因6,第一组基因中的第2级下游基因可以但不限于包括基因8、基因9和基因10。
图17是根据本申请实施例的一种可选的确定第二目标向量的示意图,如图17所示,可以但限于根据第三组基因(例如,基因6、基因8、基因9和基因10)和第二基因(例如,基因7),确定第二目标向量。
在上述步骤S306提供的技术方案中,可以但不限于根据第一目标向量和第二目标向量,确定第一基因通路和第二基因通路之间是否相关,可以理解的是,通过表示基因的向量,避免了通过昂贵的基因表达数据和漫长的实验设计,确定各个基因通路之间的相关性,减少了确定基因通路之间的相关性所需的时间,提升了确定基因通路之间的相关性的效率。
在一个示范性实施例中,可以但不限于通过以下方式根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关,包括:确定所述第一目标向量和所述第二目标向量之间的距离,得到目标距离;根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关。
在本申请的各个实施例中,目标距离的取值范围可以但不限于为[-1,1],在目标距离大于等于0、且小于或者等于1的情况下,表示第一基因通路和第二基因通路之间的相关性呈正相关,例如,已知第一基因通路会导致动物的毛发变黑,如果第一目标向量和第二目标向量之间的距离为0.8,可以理解的是,第二基因通路也会导致动物的毛发变黑。在目标距离小于0、且大于或者等于-1的情况下,表示第一基因通路和第二基因通路之间的相关性呈负相关,例如,已知第一基因通路不会导致动物的毛发变黑,在第一目标向量和第二目标向量之间的距离为-0.8的情况下,可以理解的是,第二基因通路也不会导致动物的毛发变黑。
在本申请的各个实施例中,基于训练得到的作为调节基因的向量被用作基因通路相关性分析,可以但不限于使用余弦相似度函数进行相关性度量等等。可以但不限于通过以下方式确定第一目标向量和第二目标向量之间的距离,得到目标距离可以但不限于包括以下之一:确定所述第一向量和所述第二向量之间的余弦距离,得到所述目标距离;确定所述第一向量和所述第二向量之间的欧式距离,得到所述目标距离;确定所述第一向量和所述第二向量之间的马氏距离,得到所述目标距离。
例如,可以但不限于通过以下公式(3)确定第一目标向量和第二目标向量之间的余弦距离:(3)
其中,是第一目标向量,/>是第二目标向量,第一目标向量和第二目标向量之间的余弦距离的取值范围为[-1,1]。
在一个示范性实施例中,可以但不限于通过以下方式根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关:在所述目标距离大于或者等于预设的目标距离阈值的情况下,确定所述第一基因通路和所述第二基因通路相关;在所述目标距离小于预设的目标距离阈值的情况下,确定所述第一基因通路和所述第二基因通路不相关。
在本申请的各个实施例中,预设的距离阈值可以但不限于为0.1、或者0.3等等,本申请对此不作限制。在目标距离大于或者等于预设的距离阈值的情况下,确定第一基因通路和第二基因通路相关,相关性越高,意味着第一基因通路和第二基因通路代表的生物过程可能均导致目标事件的发生。
例如,在植物A的生长过程中,叶子变绿和植物的长高受到基因通路A的影响,在这样的情况下,如果确定基因通路A和基因通路B之间是相关的,在这样的情况下,确定在植物A的生长过程中,叶子变绿和植物的长高也受到基因通路B的影响。
又例如,在动物的发育过程中,基因通路A会导致动物长高和毛发的变化,如果确定基因通路A和基因通路B之间是相关的,在这样的情况下,确定在动物的发育过程中,基因通路B也会导致动物长高和毛发的变化。
当不同通路的调节因子之间的相关性大于某一阈值(比如相关性大于0.95),可以但不限于设计基因过表达实验证明基因通路之间的相关性,并确定它们在特定生物过程中的相互作用。
首先,将实验样本分为两组,一个是过表达基因通路A的实验组,另一个是过表达基因通路B的实验组。对每个组进行相应的基因过表达实验,以确保目标通路在这些实验样本中得到有效增强表达。接着,收集实验组和对照组的细胞样本或组织样本。在实验组中,通过转染目标基因通路A的增强表达载体,将目标基因过表达。同时,在对照组中使用相同的处理方法,但转染不相关的基因表达载体作为对照。第三,对所有样本进行RNA测序,以获得各个样本中基因的表达谱。然后,通过基因表达分析来确定目标基因通路A和基因通路B在实验组和对照组中的表达水平差异。第四,比较过表达基因通路A和过表达基因通路B的实验组与对照组的基因表达谱。通过差异表达基因分析和通路富集分析,确定目标基因通路A和基因通路B之间是否存在共同的调节基因和生物学过程。如果存在显著的重叠,这将证明两个基因通路之间的相关性。最后,进一步进行功能验证实验,通过基因救援等方法恢复正常表达的基因通路A或B,以观察是否对另一个通路的功能和相互作用产生影响。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种通路相关性的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图18是根据本申请实施例的通路相关性的确定装置的结构框图,如图18所示,该装置包括:
选择模块1802,用于在第一基因通路中选择第一基因,并在第二基因通路中选择第二基因,其中,在所述第一基因通路中不包括所述第一基因的上游基因、但包括所述第一基因的下游基因,在所述第二基因通路中不包括所述第二基因的上游基因、但包括所述第二基因的下游基因;
第一确定模块1804,用于确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;
第二确定模块1806,用于根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关。
在一个示范性实施例中,所述第一确定模块,包括:
第一确定单元,用于确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第一基因通路中所述第一基因的下游基因,所述各级下游基因中的第n级下游基因是所述第一基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;
第二确定单元,用于根据所述第一组基因和所述第一基因,确定所述第一目标向量。
在一个示范性实施例中,所述第二确定单元,用于:
根据所述第一组基因和所述第一基因,确定一组条件概率函数,其中,所述一组条件概率函数中的第i个条件概率函数用于确定一组条件概率中的第i个条件概率,所述第i个条件概率表示在确定得到第i组基因中的各个基因的表达结果的情况下,确定得到所述第一组基因和所述第一基因中的第i个基因的表达结果的概率,i为大于或者等于1的正整数;
根据所述一组条件概率函数,确定目标损失函数,其中,所述目标损失函数的取值是随用于表示所述第一基因的向量的变化而变化;
在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第一预设条件的情况下,将所述目标向量确定为所述第一目标向量。
在一个示范性实施例中,所述第二确定单元,用于:
在所述第一组基因和所述第一基因中包括所述第i个基因的上游基因和下游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第i个基因的上游基因、不包括所述第i个基因的下游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第i个基因的下游基因、不包括所述第i个基因的上游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的各个下游基因,i为大于或者等于1的正整数。
在一个示范性实施例中,所述第二确定单元,用于:根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数,其中,所述第一组向量中的第s个向量是用于在所述第一组基因中的第s个基因满足第二预设条件时表示所述第s个基因的向量,所述第二组向量中的第s个向量是用于所述第一组基因中的第s个基因不满足所述第二预设条件时表示所述第s个基因的向量,所述第一向量是用于在所述第一基因满足所述第二预设条件时表示所述第一基因的向量,所述第二向量是用于在所述第一基因不满足所述第二预设条件时表示所述第一基因的向量,所述第二预设条件包括在所述第一组基因和所述第一基因中基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,s为大于或者等于1的正整数。
在一个示范性实施例中,所述第二确定单元,用于:
通过执行以下步骤,根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数中的第i个条件概率函数:
根据所述第一组向量、所述第二组向量与所述第二向量中的第i个向量、和所述第一向量,确定第一表达式;
根据所述第一组向量、所述第二组向量、所述第一向量和所述第二向量,确定第二表达式;
将所述第i个条件概率函数确定为所述第一表达式除以所述第二表达式。
在一个示范性实施例中,所述第二确定单元,用于:
从所述第一组向量和所述第一向量中确定第i组向量,其中,所述第i组向量中的第t个向量是用于在所述第i组基因中的第t个基因满足所述第二预设条件时表示所述第i组基因中的第t个基因的向量,t为大于或等于1、且小于或等于ki的正整数,ki为所述第i组基因中包括的基因的数量;
根据所述第i组向量,确定第i个表达式,其中,在所述第i组向量包括的向量的数量为1的情况下,将所述i个表达式确定为等于所述第i组向量包括的向量,在所述第i组向量包括的向量的数量大于1的情况下,将所述第i个表达式确定为对所述第i组向量执行求和操作;
将第一乘积表达式确定为对所述第i个向量的转置和所述第i个表达式进行乘积操作;
将所述第一表达式确定为,其中,/>表示所述第一乘积表达式。
在一个示范性实施例中,所述第二确定单元,用于:
在所述第一组向量和所述第一向量中包括的向量的数量为N+1、且所述第一组基因和所述第一基因包括N+1个基因的情况下,从所述第一组向量和所述第一向量中分别确定N+1组向量,其中,所述N+1组向量中的第j组向量中的第t个向量是用于在N+1组基因中的第j组基因中的第t个基因满足所述第二预设条件时表示所述第j组基因中的第t个基因的向量,t为大于或等于1、且小于或等于kj的正整数,kj为所述第j组基因中包括的基因的数量,j为大于或等于1、且小于或等于N+1的正整数,N为大于或等于1的正整数,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因;
根据所述N+1组向量,确定N+1个表达式,其中,在所述N+1组向量中的第j组向量包括的向量的数量为1的情况下,将所述N+1个表达式中的第j个表达式确定为等于所述第j组向量包括的向量,在所述N+1组向量中的第j组向量包括的向量的数量大于1的情况下,将所述N+1个表达式中的第j个表达式确定为对所述第j组向量执行求和操作;
将N+1个乘积表达式中的第j个乘积表达式确定为对所述第二组向量和所述第二向量中的第j个向量的转置和所述第j个表达式进行乘积操作之后再除以kj,其中,所述第二组向量和所述第二向量中包括的向量的数量为N+1;
将所述第二表达式确定为+/>+...+/>,其中,/>,/>, />... />表示所述N+1个乘积表达式。
在一个示范性实施例中,所述第二确定单元,用于:
根据所述一组条件概率函数,确定目标概率密度函数;
对所述目标概率密度函数进行取对数操作,得到所述目标损失函数。
在一个示范性实施例中,所述第二确定单元,用于:
将所述目标概率密度函数确定为对所述一组条件概率函数中的各个条件概率函数执行乘积操作。
在一个示范性实施例中,所述第二确定单元,用于:
根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定一组梯度函数,其中,所述第一组向量中的第s个向量是用于在所述第一组基因中的第s个基因满足第二预设条件时表示所述第s个基因的向量,所述第二组向量中的第s个向量是用于所述第一组基因中的第s个基因不满足所述第二预设条件时表示所述第s个基因的向量,所述第一向量是用于在所述第一基因满足所述第二预设条件时表示所述第一基因的向量,所述第二向量是用于在所述第一基因不满足所述第二预设条件时表示所述第一基因的向量,所述第二预设条件包括在所述第一组基因和所述第一基因中基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,s为大于或者等于1的正整数;
在所述一组梯度函数的函数值均为预设值、且当所述第二向量等于所述目标向量时,所述目标损失函数的函数值最小的情况下,将所述目标向量确定为所述第一目标向量。
在一个示范性实施例中,所述第二确定单元,用于:
通过执行以下步骤,确定所述一组梯度函数中的第j个梯度函数:
在所述第二组向量和所述第二向量包括N+1个向量的情况下,根据所述N+1个向量,确定N+1个乘积表达式,其中,所述第二组向量包括所述N+1个向量中的N个向量,所述第二向量包括所述N+1个向量中的一个向量,j为大于或者等于1、且小于或等于N+1的正整数;
根据所述N+1个乘积表达式和所述N+1个向量中的第j个向量,确定所述第j个梯度函数。
在一个示范性实施例中,所述第二确定单元,用于:
根据所述N+1个向量,生成目标哈夫曼树,其中,所述目标哈夫曼树包括作为叶子节点的N+1个节点,所述N+1个节点与所述N+1个向量具有一一对应的关系,所述N+1个节点中的第j个节点用于表示所述N+1个向量中的第j个向量;
根据所述N+1个向量和所述目标哈夫曼树,确定所述N+1个乘积表达式。
在一个示范性实施例中,所述第二确定单元,用于;
从作为叶子节点的所述N+1个节点开始,依次构建M级节点,直到所述M级节点中的第M级节点是根节点,其中,M为大于或等于1的正整数;
其中,在所述N+1个节点中存在第2p-1个节点和第2p个节点的情况下,所述M级节点中的第1级节点中的第p个节点是所述N+1个节点中的所述第2p-1个节点和所述第2p个节点的父节点,所述第1级节点中的第p个节点表示的向量等于所述N+1个节点中的所述第2p-1个节点表示的向量与所述第2p个节点表示的向量之和;在所述N+1个节点中存在第2p-1个节点、但不存在第2p个节点的情况下,所述M级节点中的第1级节点中的第p个节点是所述N+1个节点中的所述第2p-1个节点的父节点,所述第1级节点中的第p个节点表示的向量等于所述N+1个节点中的所述第2p-1个节点表示的向量,p为大于或等于1的正整数;
其中,在所述M级节点的第q-1级节点中存在第2p-1个节点和第2p个节点的情况下,所述M级节点中的第q级节点中的第p个节点是所述第q-1级节点中的所述第2p-1个节点和所述第2p个节点的父节点,所述第q级节点中的第p个节点表示的向量等于所述第q-1级节点中的所述第2p-1个节点表示的向量与所述第q-1级节点中的所述第2p个节点表示的向量之和;在所述第q-1级节点中存在第2p-1个节点、但不存在第2p个节点的情况下,所述M级节点中的第q级节点中的第p个节点是所述第q-1级节点中的所述第2p-1个节点的父节点,所述第q级节点中的第p个节点表示的向量等于所述第q-1级节点中的所述第2p-1个节点表示的向量,q为大于或等于2的正整数。
在一个示范性实施例中,所述第二确定单元,用于:
通过执行以下步骤,确定所述N+1个乘积表达式中的第j个乘积表达式,其中,j为大于或者等于1、且小于或者等于N+1的正整数:
所述第一组基因和所述第一基因包括N+1个基因的情况下,在所述第一组基因和所述第一基因中确定第j组基因,其中,kj为所述第j组基因中包括的基因的数量,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因;
在所述目标哈夫曼树中确定所述第j组基因中的每个基因对应的路径,得到kj条路径,其中,所述kj条路径中的第t条路径是从所述目标哈夫曼树中的根节点到作为叶子节点的所述N+1个节点中的第t个节点,所述第t个节点用于表示第t个向量,所述第t个向量是用于表示所述第j组基因中的第t个基因的向量,t为大于或等于1、且小于或等于kj的正整数;
根据所述kj条路径,确定kj组向量,其中,所述kj组向量中的第t组向量包括所述kj条路径中的所述第t条路径上除所述N+1个节点中的第t个节点之外的各个节点表示的向量;
在所述kj组向量包括Q个向量的情况下,根据所述Q个向量和第j个向量,确定Q个表达式,其中,所述第j个向量是用于在所述第j个基因不满足所述第二预设条件时表示所述第j个基因的向量,Q为大于或等于2的正整数;
将所述第j个乘积表达式确定对所述Q个表达式与所述第j个向量进行乘积操作。
在一个示范性实施例中,所述第二确定单元,用于:
通过执行以下步骤,根据所述Q个向量中的第r个向量和所述第j个向量,确定所述Q个表达式中的第r个表达式:
将所述第r个表达式确定为,其中,/>,其中,wr是第r个乘积表达式,所述第r个乘积表达式是对第r个系数、所述第r个向量的转置和所述第j个向量进行乘积操作,用于表示所述第r个向量的节点是所述目标哈夫曼树中的目标节点、在所述目标节点是所述根节点的情况下,所述第r个系数为1,在所述目标节点不是所述根节点、且所述目标节点是所述目标节点的父节点的左子节点的情况下,所述第r个系数为1,在所述目标节点不是所述根节点、且所述目标节点是所述目标节点的父节点的右子节点的情况下,所述第r个系数为-1。
在一个示范性实施例中,所述根第二确定单元,用于:
将第三表达式确定为对所述第j个向量减去第二求和表达式,其中,所述第二求和表达式等于所述N+1个乘积表达式之和;
将所述第j个梯度函数确定为(tj-y0)/kj,其中,tj为所述第j个向量,y0为所述第三表达式,kj为第j组基因中包括的基因的数量,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因,所述第j个向量是用于在所述第j个基因不满足所述第二预设条件时表示所述第j个基因的向量。
在一个示范性实施例中,所述第一确定模块,包括:
第三确定单元,用于确定所述第二基因通路中包括的除所述第二基因外的基因,得到第三组基因,其中,所述第三组基因包括在所述第二基因通路中所述第二基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第二基因通路中所述第二基因的下游基因,所述各级下游基因中的第n级下游基因是所述第二基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;
第四确定单元,用于根据所述第三组基因和所述第二基因,确定所述第二目标向量。
在一个示范性实施例中,所述第二确定模块,包括:
第五确定单元,用于确定所述第一目标向量和所述第二目标向量之间的距离,得到目标距离;
第六确定单元,用于根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关。
在一个示范性实施例中,所述第六确定单元,用于:
在所述目标距离大于或者等于预设的目标距离阈值的情况下,确定所述第一基因通路和所述第二基因通路相关;
在所述目标距离小于预设的目标距离阈值的情况下,确定所述第一基因通路和所述第二基因通路不相关。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (21)

1.一种通路相关性的确定方法,其特征在于,
包括:
在第一基因通路中选择第一基因,并在第二基因通路中选择第二基因,其中,在所述第一基因通路中不包括所述第一基因的上游基因、但包括所述第一基因的下游基因,在所述第二基因通路中不包括所述第二基因的上游基因、但包括所述第二基因的下游基因;
确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;
根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关;
其中,所述确定用于表示所述第一基因的第一目标向量,包括:
确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第一基因通路中所述第一基因的下游基因,所述各级下游基因中的第n级下游基因是所述第一基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;根据所述第一组基因和所述第一基因,确定所述第一目标向量;
其中,所述确定用于表示所述第二基因的第二目标向量,包括:
确定所述第二基因通路中包括的除所述第二基因外的基因,得到第三组基因,其中,所述第三组基因包括在所述第二基因通路中所述第二基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第二基因通路中所述第二基因的下游基因,所述各级下游基因中的第n级下游基因是所述第二基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;根据所述第三组基因和所述第二基因,确定所述第二目标向量。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述第一组基因和所述第一基因,确定所述第一目标向量,包括:
根据所述第一组基因和所述第一基因,确定一组条件概率函数,其中,所述一组条件概率函数中的第i个条件概率函数用于确定一组条件概率中的第i个条件概率,所述第i个条件概率表示在确定得到第i组基因中的各个基因的表达结果的情况下,确定得到所述第一组基因和所述第一基因中的第i个基因的表达结果的概率,i为大于或者等于1的正整数;
根据所述一组条件概率函数,确定目标损失函数,其中,所述目标损失函数的取值是随用于表示所述第一基因的向量的变化而变化;
在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第一预设条件的情况下,将所述目标向量确定为所述第一目标向量。
3.根据权利要求2所述的方法,其特征在于,
在所述第一组基因和所述第一基因中包括所述第i个基因的上游基因和下游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第i个基因的上游基因、不包括所述第i个基因的下游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第i个基因的下游基因、不包括所述第i个基因的上游基因的情况下,所述第i组基因包括所述第一组基因和所述第一基因中所述第i个基因的各个下游基因。
4.根据权利要求2所述的方法,其特征在于,
所述根据所述第一组基因和所述第一基因,确定一组条件概率函数,包括:
根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数,其中,所述第一组向量中的第s个向量是用于在所述第一组基因中的第s个基因满足第二预设条件时表示所述第s个基因的向量,所述第二组向量中的第s个向量是用于所述第一组基因中的第s个基因不满足所述第二预设条件时表示所述第s个基因的向量,所述第一向量是用于在所述第一基因满足所述第二预设条件时表示所述第一基因的向量,所述第二向量是用于在所述第一基因不满足所述第二预设条件时表示所述第一基因的向量,所述第二预设条件包括在所述第一组基因和所述第一基因中基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,s为大于或者等于1的正整数。
5.根据权利要求4所述的方法,其特征在于,
所述根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数,包括:
通过执行以下步骤,根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定所述一组条件概率函数中的第i个条件概率函数:
根据所述第一组向量、所述第二组向量与所述第二向量中的第i个向量、和所述第一向量,确定第一表达式;
根据所述第一组向量、所述第二组向量、所述第一向量和所述第二向量,确定第二表达式;
将所述第i个条件概率函数确定为所述第一表达式除以所述第二表达式。
6.根据权利要求5所述的方法,其特征在于,
所述根据所述第一组向量、所述第二组向量与所述第二向量中的第i个向量、和所述第一向量,确定第一表达式,包括:
从所述第一组向量和所述第一向量中确定第i组向量,其中,所述第i组向量中的第t个向量是用于在所述第i组基因中的第t个基因满足所述第二预设条件时表示所述第i组基因中的第t个基因的向量,t为大于或等于1、且小于或等于ki的正整数,ki为所述第i组基因中包括的基因的数量;
根据所述第i组向量,确定第i个表达式,其中,在所述第i组向量包括的向量的数量为1的情况下,将所述i个表达式确定为等于所述第i组向量包括的向量,在所述第i组向量包括的向量的数量大于1的情况下,将所述第i个表达式确定为对所述第i组向量执行求和操作;
将第一乘积表达式确定为对所述第i个向量的转置和所述第i个表达式进行乘积操作;
将所述第一表达式确定为,其中,/>表示所述第一乘积表达式。
7.根据权利要求5所述的方法,其特征在于,
所述根据所述第一组向量、所述第二组向量、所述第一向量和所述第二向量,确定第二表达式,包括:
在所述第一组向量和所述第一向量中包括的向量的数量为N+1、且所述第一组基因和所述第一基因包括N+1个基因的情况下,从所述第一组向量和所述第一向量中分别确定N+1组向量,其中,所述N+1组向量中的第j组向量中的第t个向量是用于在N+1组基因中的第j组基因中的第t个基因满足所述第二预设条件时表示所述第j组基因中的第t个基因的向量,t为大于或等于1、且小于或等于kj的正整数,kj为所述第j组基因中包括的基因的数量,j为大于或等于1、且小于或等于N+1的正整数,N为大于或等于1的正整数,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因;
根据所述N+1组向量,确定N+1个表达式,其中,在所述N+1组向量中的第j组向量包括的向量的数量为1的情况下,将所述N+1个表达式中的第j个表达式确定为等于所述第j组向量包括的向量,在所述N+1组向量中的第j组向量包括的向量的数量大于1的情况下,将所述N+1个表达式中的第j个表达式确定为对所述第j组向量执行求和操作;
将N+1个乘积表达式中的第j个乘积表达式确定为对所述第二组向量和所述第二向量中的第j个向量的转置和所述第j个表达式进行乘积操作之后再除以kj,其中,所述第二组向量和所述第二向量中包括的向量的数量为N+1;
将所述第二表达式确定为+/>+...+/>,其中,/>,/>,/>.../>表示所述N+1个乘积表达式。
8.根据权利要求2所述的方法,其特征在于,
所述根据所述一组条件概率函数,确定目标损失函数,包括:
根据所述一组条件概率函数,确定目标概率密度函数;
对所述目标概率密度函数进行取对数操作,得到所述目标损失函数。
9.根据权利要求8所述的方法,其特征在于,
所述根据所述一组条件概率函数,确定目标概率密度函数,包括:
将所述目标概率密度函数确定为对所述一组条件概率函数中的各个条件概率函数执行乘积操作。
10.根据权利要求2所述的方法,其特征在于,
所述在所述用于表示所述第一基因的向量为目标向量时所述目标损失函数满足第一预设条件的情况下,将所述目标向量确定为所述第一目标向量,包括:
根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定一组梯度函数,其中,所述第一组向量中的第s个向量是用于在所述第一组基因中的第s个基因满足第二预设条件时表示所述第s个基因的向量,所述第二组向量中的第s个向量是用于所述第一组基因中的第s个基因不满足所述第二预设条件时表示所述第s个基因的向量,所述第一向量是用于在所述第一基因满足所述第二预设条件时表示所述第一基因的向量,所述第二向量是用于在所述第一基因不满足所述第二预设条件时表示所述第一基因的向量,所述第二预设条件包括在所述第一组基因和所述第一基因中基因的上游基因的数量与所述基因的下游基因的数量之和最大或者大于或等于预设的数量阈值,s为大于或者等于1的正整数;
在所述一组梯度函数的函数值均为预设值、且当所述第二向量等于所述目标向量时,所述目标损失函数的函数值最小的情况下,将所述目标向量确定为所述第一目标向量。
11.根据权利要求10所述的方法,其特征在于,
所述根据作为变量的第一组向量、作为变量的第二组向量、作为变量的第一向量和作为变量的第二向量,确定一组梯度函数,包括:
通过执行以下步骤,确定所述一组梯度函数中的第j个梯度函数:
在所述第二组向量和所述第二向量包括N+1个向量的情况下,根据所述N+1个向量,确定N+1个乘积表达式,其中,所述第二组向量包括所述N+1个向量中的N个向量,所述第二向量包括所述N+1个向量中的一个向量,j为大于或者等于1、且小于或等于N+1的正整数;
根据所述N+1个乘积表达式和所述N+1个向量中的第j个向量,确定所述第j个梯度函数。
12.根据权利要求11所述的方法,其特征在于,
所述根据所述N+1个向量,确定N+1个乘积表达式,包括:
根据所述N+1个向量,生成目标哈夫曼树,其中,所述目标哈夫曼树包括作为叶子节点的N+1个节点,所述N+1个节点与所述N+1个向量具有一一对应的关系,所述N+1个节点中的第j个节点用于表示所述N+1个向量中的第j个向量;
根据所述N+1个向量和所述目标哈夫曼树,确定所述N+1个乘积表达式。
13.根据权利要求12所述的方法,其特征在于,
所述根据所述N+1个向量,生成目标哈夫曼树,包括;
从作为叶子节点的所述N+1个节点开始,依次构建M级节点,直到所述M级节点中的第M级节点是根节点,其中,M为大于或等于1的正整数;
其中,在所述N+1个节点中存在第2p-1个节点和第2p个节点的情况下,所述M级节点中的第1级节点中的第p个节点是所述N+1个节点中的所述第2p-1个节点和所述第2p个节点的父节点,所述第1级节点中的第p个节点表示的向量等于所述N+1个节点中的所述第2p-1个节点表示的向量与所述第2p个节点表示的向量之和;在所述N+1个节点中存在第2p-1个节点、但不存在第2p个节点的情况下,所述M级节点中的第1级节点中的第p个节点是所述N+1个节点中的所述第2p-1个节点的父节点,所述第1级节点中的第p个节点表示的向量等于所述N+1个节点中的所述第2p-1个节点表示的向量,p为大于或等于1的正整数;
其中,在所述M级节点的第q-1级节点中存在第2p-1个节点和第2p个节点的情况下,所述M级节点中的第q级节点中的第p个节点是所述第q-1级节点中的所述第2p-1个节点和所述第2p个节点的父节点,所述第q级节点中的第p个节点表示的向量等于所述第q-1级节点中的所述第2p-1个节点表示的向量与所述第q-1级节点中的所述第2p个节点表示的向量之和;在所述第q-1级节点中存在第2p-1个节点、但不存在第2p个节点的情况下,所述M级节点中的第q级节点中的第p个节点是所述第q-1级节点中的所述第2p-1个节点的父节点,所述第q级节点中的第p个节点表示的向量等于所述第q-1级节点中的所述第2p-1个节点表示的向量,q为大于或等于2的正整数。
14.根据权利要求12所述的方法,其特征在于,
所述根据所述N+1个向量和所述目标哈夫曼树,确定所述N+1个乘积表达式,包括:
通过执行以下步骤,确定所述N+1个乘积表达式中的第j个乘积表达式,其中,j为大于或者等于1、且小于或者等于N+1的正整数:
所述第一组基因和所述第一基因包括N+1个基因的情况下,在所述第一组基因和所述第一基因中确定第j组基因,其中,kj为所述第j组基因中包括的基因的数量,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因;
在所述目标哈夫曼树中确定所述第j组基因中的每个基因对应的路径,得到kj条路径,其中,所述kj条路径中的第t条路径是从所述目标哈夫曼树中的根节点到作为叶子节点的所述N+1个节点中的第t个节点,所述第t个节点用于表示第t个向量,所述第t个向量是用于表示所述第j组基因中的第t个基因的向量,t为大于或等于1、且小于或等于kj的正整数;
根据所述kj条路径,确定kj组向量,其中,所述kj组向量中的第t组向量包括所述kj条路径中的所述第t条路径上除所述N+1个节点中的第t个节点之外的各个节点表示的向量;
在所述kj组向量包括Q个向量的情况下,根据所述Q个向量和第j个向量,确定Q个表达式,其中,所述第j个向量是用于在所述第j个基因不满足所述第二预设条件时表示所述第j个基因的向量,Q为大于或等于2的正整数;
将所述第j个乘积表达式确定对所述Q个表达式与所述第j个向量进行乘积操作。
15.根据权利要求14所述的方法,其特征在于,
所述根据所述Q个向量和第j个向量,确定Q个表达式,包括:
通过执行以下步骤,根据所述Q个向量中的第r个向量和所述第j个向量,确定所述Q个表达式中的第r个表达式:
将所述第r个表达式确定为,其中,/>,其中,w r 是第r个乘积表达式,所述第r个乘积表达式是对第r个系数、所述第r个向量的转置和所述第j个向量进行乘积操作,用于表示所述第r个向量的节点是所述目标哈夫曼树中的目标节点、在所述目标节点是所述根节点的情况下,所述第r个系数为1,在所述目标节点不是所述根节点、且所述目标节点是所述目标节点的父节点的左子节点的情况下,所述第r个系数为1,在所述目标节点不是所述根节点、且所述目标节点是所述目标节点的父节点的右子节点的情况下,所述第r个系数为-1。
16.根据权利要求11所述的方法,其特征在于,
所述根据所述N+1个乘积表达式和所述N+1个向量中的第j个向量,确定所述第j个梯度函数,包括:
将第三表达式确定为对所述第j个向量减去第二求和表达式,其中,所述第二求和表达式等于所述N+1个乘积表达式之和;
将所述第j个梯度函数确定为(tj-y0)/kj,其中,tj为所述第j个向量,y0为所述第三表达式,kj为第j组基因中包括的基因的数量,在所述第一组基因和所述第一基因中包括第j个基因的上游基因和下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的上游基因和下游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的上游基因、不包括所述第j个基因的下游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个上游基因,在所述第一组基因和所述第一基因中包括所述第j个基因的下游基因、不包括所述第j个基因的上游基因的情况下,所述第j组基因包括所述第一组基因和所述第一基因中所述第j个基因的各个下游基因,所述第j个向量是用于在所述第j个基因不满足所述第二预设条件时表示所述第j个基因的向量。
17.根据权利要求1所述的方法,其特征在于,
所述根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关,包括:
确定所述第一目标向量和所述第二目标向量之间的距离,得到目标距离;
根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关。
18.根据权利要求17所述的方法,其特征在于,
所述根据所述目标距离,确定所述第一基因通路和所述第二基因通路是否相关,包括:
在所述目标距离大于或者等于预设的目标距离阈值的情况下,确定所述第一基因通路和所述第二基因通路相关;
在所述目标距离小于预设的目标距离阈值的情况下,确定所述第一基因通路和所述第二基因通路不相关。
19.一种通路相关性的确定装置,其特征在于,
包括:
选择模块,用于在第一基因通路中选择第一基因,并在第二基因通路中选择第二基因,其中,在所述第一基因通路中不包括所述第一基因的上游基因、但包括所述第一基因的下游基因,在所述第二基因通路中不包括所述第二基因的上游基因、但包括所述第二基因的下游基因;
第一确定模块,用于确定用于表示所述第一基因的第一目标向量,并确定用于表示所述第二基因的第二目标向量;
第二确定模块,用于根据所述第一目标向量和所述第二目标向量,确定所述第一基因通路和所述第二基因通路之间是否相关;
其中,所述第一确定模块,包括:
第一确定单元,用于确定所述第一基因通路中包括的除所述第一基因外的基因,得到第一组基因,其中,所述第一组基因包括在所述第一基因通路中所述第一基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第一基因通路中所述第一基因的下游基因,所述各级下游基因中的第n级下游基因是所述第一基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;
第二确定单元,用于根据所述第一组基因和所述第一基因,确定所述第一目标向量;
其中,所述第一确定模块,包括:
第三确定单元,用于确定所述第二基因通路中包括的除所述第二基因外的基因,得到第三组基因,其中,所述第三组基因包括在所述第二基因通路中所述第二基因对应的各级下游基因,所述各级下游基因中的第1级下游基因是所述第二基因通路中所述第二基因的下游基因,所述各级下游基因中的第n级下游基因是所述第二基因通路中第n-1级下游基因的下游基因,n为大于或等于2的正整数;
第四确定单元,用于根据所述第三组基因和所述第二基因,确定所述第二目标向量。
20.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至18任一项中所述的方法的步骤。
21.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述处理器执行所述计算机程序时实现所述权利要求1至18任一项中所述的方法的步骤。
CN202311522746.4A 2023-11-15 2023-11-15 通路相关性的确定方法及装置、存储介质及电子设备 Active CN117253549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311522746.4A CN117253549B (zh) 2023-11-15 2023-11-15 通路相关性的确定方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311522746.4A CN117253549B (zh) 2023-11-15 2023-11-15 通路相关性的确定方法及装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN117253549A CN117253549A (zh) 2023-12-19
CN117253549B true CN117253549B (zh) 2024-02-09

Family

ID=89133585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311522746.4A Active CN117253549B (zh) 2023-11-15 2023-11-15 通路相关性的确定方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117253549B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103180462A (zh) * 2010-10-06 2013-06-26 拜奥默里克斯公司 确定生物通路活性的方法
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备
CN113782093A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 一种基因表达填充数据的获取方法及装置、存储介质
CN115440298A (zh) * 2022-08-01 2022-12-06 赛业(广州)生物科技有限公司 基于表达差异的致病基因定位方法、系统、设备及介质
CN115588465A (zh) * 2022-10-19 2023-01-10 温州医科大学 一种性状相关基因的筛选方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103180462A (zh) * 2010-10-06 2013-06-26 拜奥默里克斯公司 确定生物通路活性的方法
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备
CN113782093A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 一种基因表达填充数据的获取方法及装置、存储介质
CN115440298A (zh) * 2022-08-01 2022-12-06 赛业(广州)生物科技有限公司 基于表达差异的致病基因定位方法、系统、设备及介质
CN115588465A (zh) * 2022-10-19 2023-01-10 温州医科大学 一种性状相关基因的筛选方法及其系统

Also Published As

Publication number Publication date
CN117253549A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN102413029B (zh) 基于分解的局部搜索多目标复杂动态网络社区划分方法
CN111477281B (zh) 基于系统进化树的泛基因组构建方法和构建装置
CN107679367A (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
Sleator A beginner’s guide to phylogenetics
Bezáková et al. Graph model selection using maximum likelihood
CN114093422A (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其系统
CN115019876A (zh) 一种基因表达预测方法及装置
CN117253549B (zh) 通路相关性的确定方法及装置、存储介质及电子设备
CN116631496A (zh) 一种基于多层异构图的miRNA靶标预测方法及系统和应用
Kao et al. naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing
CN115881209B (zh) 一种rna二级结构预测的处理方法和装置
CN117238381B (zh) 通路相关性的确定方法及装置、存储介质及电子设备
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
Alipanahi et al. Disentangled long-read de Bruijn graphs via optical maps
Wu et al. Identification of gene regulatory networks from time course gene expression data
Elsayed et al. Evolutionary behavior of dna sequences analysis using non-uniform probabilistic cellular automata model
Seçilmiş et al. Two new nonparametric models for biological networks
Dilão et al. Validation of a morphogenesis model of Drosophila early development by a multi-objective evolutionary optimization algorithm
Polushina et al. Change-point detection in binary Markov DNA sequences by the Cross-Entropy method
Yoo et al. The Five‐Gene‐Network Data Analysis with Local Causal Discovery Algorithm Using Causal Bayesian Networks
Ait Kaci Azzou et al. A new method for estimating the demographic history from DNA sequences: an importance sampling approach
CN111192627B (zh) 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法
Majumdar Finding DNA Motifs: A Probabilistic Suffix Tree Approach
Paytuví Gallart Development and application of integrative tools for the functional and structural analyses of genomes
Hossain Multi-label Deep Learning Models for Virus Genome DNA Sequence Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant