CN115565611B - 一种生物学回归预测方法、装置、设备及存储介质 - Google Patents
一种生物学回归预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115565611B CN115565611B CN202211190198.5A CN202211190198A CN115565611B CN 115565611 B CN115565611 B CN 115565611B CN 202211190198 A CN202211190198 A CN 202211190198A CN 115565611 B CN115565611 B CN 115565611B
- Authority
- CN
- China
- Prior art keywords
- regression prediction
- prediction network
- value
- training
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims description 153
- 238000002474 experimental method Methods 0.000 claims description 12
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 19
- 238000010801 machine learning Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 230000008685 targeting Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000004952 protein activity Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000702423 Adeno-associated virus - 2 Species 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000012620 biological material Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Computing Systems (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种生物学回归预测方法、系统、设备及介质,获取目标对象的第一生物学序列数据;将所述第一生物学序列数据输入到第一回归预测网络或者第二回归预测网络中的至少一者,得到第一分数预测值;所述第一分数预测值用于表征预测得到的所述目标对象在预设的生物学维度的指标值。其中,上述的回归预测网络通过采用带噪协同算法进行训练,适用于从带有大量噪声的生物学实验数据中学习隐藏的规律,相比于常规回归预测算法,该算法的预测值和实验值之间的相关性更高,能够提高得到的分数预测值的准确性。本申请可广泛应用于人工智能技术领域内。
Description
技术领域
本申请涉及人工智能技术领域,尤其是一种生物学回归预测方法、系统、设备及介质。
背景技术
随着人工智能技术的发展,基于人工智能技术搭建的各类机器学习模型可以用于分类、回归预测等任务,且取得了较为可观的进展。
其中,在生物学领域内,存在有基于生物材料的相关序列信息,预测其某些生物学维度的指标值的需求。这些指标值一般采用相应的分数来表示,例如,这些数值可以是衡量AAV病毒突变体的包装能力、组织靶向性强弱的数值,也可以是衡量抗体和目标抗原之间亲和力大小的数值,亦或者表示蛋白质活性、疏水性大小等的数值。在获取这些指标值的实际值时,一般采用生物学实验进行确定。然而,由于生物学实验各环节中存在较多的干扰因素,导致实验测量得到的分数值包含了较多的噪声,使用这些带噪声的数据去训练回归预测模型,得到的模型预测效果往往不如预期,预测得到的分数预测值准确度不高。
综上,相关技术存在的问题亟需得到解决。
发明内容
本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供一种生物学回归预测方法、系统、设备及介质。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
一方面,本申请实施例提供了一种生物学回归预测方法,所述方法包括:
获取目标对象的第一生物学序列数据;
将所述第一生物学序列数据输入到第一回归预测网络或者第二回归预测网络中的至少一者,得到第一分数预测值;所述第一分数预测值用于表征预测得到的所述目标对象在预设的生物学维度的指标值;
其中,所述第一回归预测网络和所述第二回归预测网络通过以下步骤训练得到:
获取生物学实验数据集,所述生物学实验数据集中包括多个训练样本;每个所述训练样本包括样本对象的第二生物学序列数据和分数实验值,所述分数实验值用于表征实验得到的所述样本对象在预设的生物学维度的指标值;
将所述训练样本输入到初始化的第一回归预测网络和第二回归预测网络进行热身训练,得到基础的第一回归预测网络和基础的第二回归预测网络;
将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络。
另外,根据本申请上述实施例的一种生物学回归预测方法,还可以具有以下附加的技术特征:
进一步地,在本申请的一个实施例中,所述第一生物学序列数据包括碱基序列数据或者氨基酸序列数据。
进一步地,在本申请的一个实施例中,将所述训练样本输入到初始化的第一回归预测网络进行热身训练,得到基础的第一回归预测网络,包括:
将所述第二生物学序列数据输入到初始化的第一回归预测网络,得到所述初始化的第一回归预测网络输出的第二分数预测值;所述第二分数预测值用于表征预测得到的所述样本对象在预设的生物学维度的指标值;
根据所述第二分数预测值和所述分数实验值,计算得到第一损失值;
根据所述第一损失值对所述第一回归预测网络的参数进行更新,并迭代训练直至迭代轮次达到预设轮次。
进一步地,在本申请的一个实施例中,所述将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和第二回归预测网络,包括:
将所述训练样本输入到所述基础的第一回归预测网络和所述基础的第二回归预测网络,计算所述第一回归预测网络和所述第二回归预测网络输出结果的预测差值;
根据所述预测差值的大小对所述训练样本分类,得到低噪声样本数据集和高噪声样本数据集;
根据所述低噪声样本数据集和所述高噪声样本数据集,对所述基础的第一回归预测网络和所述基础的第二回归预测网络进行训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络。
进一步地,在本申请的一个实施例中,所述将所述训练样本输入到所述基础的第一回归预测网络和所述基础的第二回归预测网络,计算所述第一回归预测网络和所述第二回归预测网络输出结果的预测差值,包括:
将所述第二生物学序列数据输入到基础的第一回归预测网络,得到所述基础的第一回归预测网络输出的第三分数预测值;所述第三分数预测值用于表征预测得到的所述样本对象在预设的生物学维度的指标值;
将所述第二生物学序列数据输入到基础的第二回归预测网络,得到所述基础的第二回归预测网络输出的第四分数预测值;所述第四分数预测值用于表征预测得到的所述样本对象在预设的生物学维度的指标值;
计算所述第三分数预测值和所述第四分数预测值之间差值的绝对值,得到所述预测差值。
进一步地,在本申请的一个实施例中,所述根据所述预测差值的大小对所述训练样本分类,得到低噪声样本数据集和高噪声样本数据集,包括:
基于所述预测差值,采用高斯混合模型对所述训练样本进行分类预测,得到各个所述训练样本属于高噪声样本数据集的预测概率;
当所述训练样本对应的预测概率大于概率阈值,将所述训练样本划分到所述高噪声样本数据集;或者,当所述训练样本对应的预测概率小于或者等于所述概率阈值,将所述训练样本划分到所述低噪声样本数据集。
进一步地,在本申请的一个实施例中,根据所述低噪声样本数据集和所述高噪声样本数据集,对所述基础的第一回归预测网络进行训练,得到训练好的第一回归预测网络,包括:
根据所述低噪声样本数据集对所述基础的第一回归预测网络进行训练,确定训练的第二损失值;
根据所述高噪声样本数据集对所述基础的第一回归预测网络进行训练,确定训练的第三损失值;
对所述第二损失值和所述第三损失值进行加权求和,得到第四损失值;其中,所述第二损失值对应的加权权重大于所述第三损失值对应的加权权重;
根据所述第四损失值对所述基础的第一回归预测网络进行参数更新,得到训练好的第一回归预测网络。
另一方面,本申请实施例提供一种生物学回归预测系统,所述系统包括:
获取模块,用于获取目标对象的第一生物学序列数据;
预测模块,用于将所述第一生物学序列数据输入到第一回归预测网络或者第二回归预测网络中的至少一者,得到第一分数预测值;所述第一分数预测值用于表征预测得到的所述目标对象在预设的生物学维度的指标值;
其中,所述第一回归预测网络和所述第二回归预测网络通过以下步骤训练得到:
获取生物学实验数据集,所述生物学实验数据集中包括多个训练样本;每个所述训练样本包括样本对象的第二生物学序列数据和分数实验值,所述分数实验值用于表征实验得到的所述样本对象在预设的生物学维度的指标值;
将所述训练样本输入到初始化的第一回归预测网络和第二回归预测网络进行热身训练,得到基础的第一回归预测网络和基础的第二回归预测网络;
将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络。
另一方面,本申请实施例提供了一种计算机设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的一种生物学回归预测方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,上述处理器可执行的程序在由处理器执行时用于实现上述的一种生物学回归预测方法。
本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:
本申请实施例公开的一种生物学回归预测方法,所述方法包括:获取目标对象的第一生物学序列数据;将所述第一生物学序列数据输入到第一回归预测网络或者第二回归预测网络中的至少一者,得到第一分数预测值;所述第一分数预测值用于表征预测得到的所述目标对象在预设的生物学维度的指标值;其中,所述第一回归预测网络和所述第二回归预测网络通过以下步骤训练得到:获取生物学实验数据集,所述生物学实验数据集中包括多个训练样本;每个所述训练样本包括样本对象的第二生物学序列数据和分数实验值,所述分数实验值用于表征实验得到的所述样本对象在预设的生物学维度的指标值;将所述训练样本输入到初始化的第一回归预测网络和第二回归预测网络进行热身训练,得到基础的第一回归预测网络和第二回归预测网络;将所述训练样本输入到所述基础的第一回归预测网络和第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和第二回归预测网络。该方法通过采用带噪协同学习算法对回归预测网络进行训练,适用于从带有大量噪声的生物学实验数据中学习隐藏的规律,相比于常规回归预测算法,该算法的预测值和实验值之间的相关性更高,能够提高得到的分数预测值的准确性。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本申请实施例中提供的一种生物学回归预测方法的实施环境示意图;
图2为本申请实施例中提供的一种生物学回归预测方法的流程示意图;
图3为本申请实施例中提供的一种进行带噪协同训练的流程示意图;
图4为一种采用传统模型对验证集处理得到的预测结果和实验值的相关性示意图;
图5为一种采用本申请实施例中提供的模型对验证集处理得到的预测结果和实验值的相关性示意图;
图6为本申请实施例中提供的一种计算机设备的结构示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在对本申请实施例进行详细说明之前,首先对本申请实施例中涉及的部分名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术的发展,基于人工智能技术搭建的各类机器学习模型可以用于分类、回归预测等任务,且取得了较为可观的进展。
其中,在生物学领域内,存在有基于生物材料的相关序列信息,预测其某些生物学维度的指标值的需求。这些指标值一般采用相应的分数来表示,例如,这些数值可以是衡量AAV病毒突变体的包装能力、组织靶向性强弱的数值,也可以是衡量抗体和目标抗原之间亲和力大小的数值,亦或者表示蛋白质活性、疏水性大小等的数值。在获取这些指标值的实际值时,一般采用生物学实验进行确定。然而,由于生物学实验各环节中存在较多的干扰因素,导致实验测量得到的分数值包含了较多的噪声,使用这些带噪声的数据去训练回归预测模型,得到的模型预测效果往往不如预期,预测得到的分数预测值准确度不高。
有鉴于此,本申请实施例中提供一种生物学回归预测方法,该方法通过采用带噪协同算法对回归预测网络进行训练,适用于从带有大量噪声的生物学实验数据中学习隐藏的规律,相比于常规回归预测算法,该算法的预测值和实验值之间的相关性更高,能够提高得到的分数预测值的准确性。
图1是本申请实施例提供的一种生物学回归预测方法的实施环境示意图。参照图1,该实施环境的软硬件主体主要包括用户终端101和服务器102,用户终端101与服务器102通信连接。其中,该生物学回归预测方法可以基于用户终端101与服务器102二者之间的交互来执行,具体可以根据实际应用情况进行适当的选择,本实施例对此并不作具体限定。
其中,服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端101与服务器102之间可以通过无线网络或有线网络建立通信连接,该无线网络或有线网络使用标准通信技术和/或协议,网络可以设置为因特网,也可以是其它任何网络,例如包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
请参照图2,图2是本申请实施例提供的一种生物学回归预测方法的流程示意图,参照图2,该一种生物学回归预测方法包括但不限于:
步骤110、获取目标对象的第一生物学序列数据;
本步骤中,当需要对目标对象的某些生物学维度上的指标值进行预测时,可以获取目标对象的生物学序列数据。此处,目标对象可以是病毒、基因或者基因片段、蛋白质等等,本申请对此不作具体限制。例如,在一些实施例中,可以获取一批AAV2病毒突变体的突变区间碱基序列,以及通过生物学实验测定这批突变体中每一种突变体的肝脏靶向性分数。本申请实施例中,将获取的目标对象的生物学序列数据记为第一生物学序列数据,第一生物学序列数据具体可以是碱基序列数据或者氨基酸序列数据,其可以根据目标对象的类型进行对应设置。
步骤120、将所述第一生物学序列数据输入到第一回归预测网络或者第二回归预测网络中的至少一者,得到第一分数预测值;所述第一分数预测值用于表征预测得到的所述目标对象在预设的生物学维度的指标值。
本步骤中,在获取得到目标对象的第一生物学序列数据后,可以将其输入到第一回归预测网络或者第二回归预测网络中进行预测,此处,第一回归预测网络和第二回归预测网络为本申请通过带噪协同训练得到的机器学习模型,其具体的网络结构可以根据需要参照相关技术进行设定,本申请对此不作限制。例如,在一些实施例中,第一回归预测网络和第二回归预测网络的网络结构可以是卷积神经网络、LSTM、循环神经网络、Transformer神经网络等。并且,本申请实施例中,第一回归预测网络和第二回归预测网络可以采用同一种算法进行搭建,也可以采用不同的算法进行搭建,本申请对此不作限制。
本步骤中,将第一生物学序列数据后,可以将其输入到第一回归预测网络或者第二回归预测网络中进行预测,可以是输入到其中的任一者,得到预测结果;也可以同时输入到两者中,将两个网络输出的结果求取均值,得到最终的预测结果。本申请实施例中,将得到的预测结果记为第一分数预测值,该值用于表征预测得到的目标对象在预设的生物学维度的指标值。具体地,此处的指标值可以根据需要和目标对象的类型灵活设置,例如在一些实施例中,当目标对象为蛋白质时,该指标值可以是其蛋白质活性、疏水性等,本申请对此不作具体限制。
需要说明的是,在机器学习领域,网络模型在投入使用前一般需要经过训练调参,因此本申请实施例中,还提供一种模型的训练方法。
具体地,该训练方法包括如下步骤:
获取生物学实验数据集,所述生物学实验数据集中包括多个训练样本;每个所述训练样本包括样本对象的第二生物学序列数据和分数实验值,所述分数实验值用于表征实验得到的所述样本对象在预设的生物学维度的指标值;
将所述训练样本输入到初始化的第一回归预测网络和第二回归预测网络进行热身训练,得到基础的第一回归预测网络和第二回归预测网络;
将所述训练样本输入到所述基础的第一回归预测网络和第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和第二回归预测网络。
本申请实施例中,对第一回归预测网络和第二回归预测网络进行协同训练。具体地,可以获取生物学实验数据集,该生物学实验数据集中包括多个训练样本;每个训练样本对应一个样本对象,该样本对象的类型和目标对象类似,在此不作赘述。训练样本中具体包括样本对象的生物学序列数据,记为第二生物学序列数据,以及分数实验值,该分数实验值用于表征实验得到的样本对象在预设的生物学维度的指标值,相对来说属于带噪声的真实值。例如,在一些实施例中,一个训练样本可以是一种AAV2病毒突变体的碱基序列,及其通过生物学实验测定的对小鼠肝脏的靶向性分数,即分数实验值。
本申请实施例中,在对两个回归预测网络进行协同训练时,首先,先对二者进行热身训练,即先训练出两个基础的回归预测网络;然后,再对两者进行带噪协同训练,从而得到训练好的第一回归预测网络和第二回归预测网络。这两个阶段均可以采用同一生物学实验数据集,当然,在一些实施例中,也可以事先对数据集进行划分,分别使用一部分参与两个阶段的训练。
具体地,在一种可能的实现方式中,将所述训练样本输入到初始化的第一回归预测网络进行热身训练,得到基础的第一回归预测网络,包括:
将所述第二生物学序列数据输入到初始化的第一回归预测网络,得到所述初始化的第一回归预测网络输出的第二分数预测值;所述第二分数预测值用于表征预测得到的所述样本对象在预设的生物学维度的指标值;
根据所述第二分数预测值和所述分数实验值,计算得到第一损失值;
比较所述第一损失值和预设阈值的大小,当所述第一损失值大于或者等于所述预设阈值,根据所述第一损失值对所述第一回归预测网络的参数进行更新;或者,当所述第一损失值小于所述预设阈值,将当前的第一回归预测网络确定为所述基础的第一回归预测网络。
本申请实施例中,在对两个回归预测网络进行热身训练时,以第一回归预测网络的训练过程为例,将第二生物学序列数据输入到初始化的第一回归预测网络,得到初始化的第一回归预测网络输出的分数预测值,本申请实施例中记为第二分数预测值。第二分数预测值可以用于表征第一回归预测网络在热身训练过程中预测得到的样本对象在预设的生物学维度的指标值。然后,根据第二分数预测值和分数实验值,可以计算得到第一损失值。
具体地,对于机器学习模型来说,它预测的准确性可以通过损失函数(LossFunction)来衡量,损失函数是定义在单个训练数据上的,用于衡量一个训练数据的预测误差,具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时,一个训练数据集有很多训练数据,因此一般采用代价函数(CostFunction)来衡量训练数据集的整体误差,代价函数是定义在整个训练数据集上的,用于计算所有训练数据的预测误差的平均值,能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说,基于前述的代价函数,再加上衡量模型复杂度的正则项即可作为训练的目标函数,基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多,例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数,在此不再一一阐述。本申请实施例中,可以从中任选一种损失函数来确定训练的损失值,也即第二分数预测值和分数实验值之间的第一损失值。基于训练的损失值,采用反向传播算法对模型的参数进行更新,然后可以基于更新后的模型继续预测,如此迭代几轮。当某轮迭代过程中,第一损失值较小时,可以认为训练完成。在一些实施例中,也可以通过验证集判断训练进度,当验证集上训练样本的分数预测值和实验值之间的相关性较高时,也可以认为热身训练完成。在另一些实施例中,也可以是预设需要迭代的轮次,当迭代训练的轮次达到预设轮次时,可以认为热身训练完成。
具体地,即在每轮训练过程中,可以比较第一损失值和预设阈值的大小,当第一损失值大于或者等于预设阈值,说明当前模型的预测效果较差,需要继续训练,故而此时可以根据第一损失值对第一回归预测网络的参数进行更新。而当第一损失值小于预设阈值时,说明当前模型的预测精度已经较高,故而此时可以将当前的第一回归预测网络确定为基础的第一回归预测网络,从而完成第一回归预测网络的热身训练。
可以理解的是,本申请实施例中,对于第二回归预测网络的训练过程,其和第一回归预测网络的训练过程类似,故在此不作单独赘述。
具体地,在一些可能的实现方式中,所述将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络,包括:
将所述训练样本输入到所述基础的第一回归预测网络和所述基础的第二回归预测网络,计算所述第一回归预测网络和所述第二回归预测网络输出结果的预测差值;
根据所述预测差值的大小对所述训练样本分类,得到低噪声样本数据集和高噪声样本数据集;
根据所述低噪声样本数据集和所述高噪声样本数据集,对所述基础的第一回归预测网络和所述基础的第二回归预测网络进行训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络。
本申请实施例中,在对第一回归预测网络和第二回归预测网络进行带噪协同训练时,可以将训练样本输入到每个网络中,计算两个网络输出结果的预测差值。具体地,例如,可以将第二生物学序列数据输入到基础的第一回归预测网络,得到基础的第一回归预测网络输出的第三分数预测值。并且,将第二生物学序列数据输入到基础的第二回归预测网络,得到基础的第二回归预测网络输出的第四分数预测值。这里的第三分数预测值用于表征基础的第一回归预测网络预测得到的样本对象在预设的生物学维度的指标值,第四分数预测值用于表征基础的第二回归预测网络预测得到的样本对象在预设的生物学维度的指标值。然后,计算第三分数预测值和第四分数预测值之间差值的绝对值,即可以得到预测差值。
在得到预测差值之后,可以根据每个训练样本对应的预测差值的大小,对其进行分类,将其划分为低噪声样本数据集和高噪声样本数据集。具体地,例如,可以采用高斯混合模型,基于预测差值的大小对训练样本进行分类预测,得到各个训练样本属于高噪声样本数据集的预测概率。然后预设一个概率阈值,当训练样本对应的预测概率大于概率阈值时,将训练样本划分到高噪声样本数据集;反之,当训练样本对应的预测概率小于或者等于概率阈值时,将训练样本划分到低噪声样本数据集。
在得到低噪声样本数据集和高噪声样本数据集后,可以基于两个数据集对第一回归预测网络和第二回归预测网络进行训练。具体地,仍以第一回归预测网络为例,可以根据低噪声样本数据集对基础的第一回归预测网络进行训练,确定训练的损失值,记为第二损失值;此处,第二损失值的计算方式和前述的第一损失值类似,在此不作赘述。并且,还根据高噪声样本数据集对基础的第一回归预测网络进行训练,确定训练的损失值,记为第三损失值。然后,对第二损失值和第三损失值进行加权求和,将得到的损失值记为第四损失值,此处,在进行加权求和时,设定第二损失值对应的加权权重大于第三损失值对应的加权权重,如此,能够给低噪声的样本更多训练权重,使得模型更关注对低噪声样本预测性能的改善,从而可以提高模型的训练效果。最后,可以根据第四损失值对基础的第一回归预测网络进行参数更新,从而得到训练好的第一回归预测网络,此处训练更新的具体过程和前述的热身训练类似,在此不作赘述。当然,参照图3,本申请实施例中,在带噪协同训练过程中,每一轮迭代都可以是协同训练,即每轮都根据更新后的网络,确定两个的预测差值,从而区分低噪声样本数据集和高噪声样本数据集,如此循环往复,直到第一回归预测网络和第二回归预测网络在验证集上的损失函数值不再下降或者下降的幅度小于预设幅度,则停止迭代,此时模型训练完毕。
可以理解的是,本申请实施例中提供的一种生物学回归预测方法,该方法采用带噪协同算法对回归预测网络进行训练,适用于从带有大量噪声的生物学实验数据中学习隐藏的规律,相比于常规回归预测算法,该算法的预测值和实验值之间的相关性更高,能够提高得到的分数预测值的准确性。
为了验证本申请实施例中提供的生物学回归预测方法的准确性,参照图4和图5,通过验证集中的样本对传统直接训练得到的模型进行验证,得到的预测结果和实验值的相关性结果如图4所示;通过验证集中的样本,对本申请实施例中训练得到的模型进行验证,得到的预测结果和实验值的相关性结果如图5所示,可以看出,采用皮尔逊相似度来衡量时,传统的模型预测结果和实验值的相似度为0.817,而本申请中得到的模型预测结果和实验值的相似度为0.883,显然其和实验值的接近程度更高,也即预测结果更为准确。
本申请实施例还提供一种生物学回归预测系统,所述系统包括:
获取模块,用于获取目标对象的第一生物学序列数据;
预测模块,用于将所述第一生物学序列数据输入到第一回归预测网络或者第二回归预测网络中的至少一者,得到第一分数预测值;所述第一分数预测值用于表征预测得到的所述目标对象在预设的生物学维度的指标值;
其中,所述第一回归预测网络和所述第二回归预测网络通过以下步骤训练得到:
获取生物学实验数据集,所述生物学实验数据集中包括多个训练样本;每个所述训练样本包括样本对象的第二生物学序列数据和分数实验值,所述分数实验值用于表征实验得到的所述样本对象在预设的生物学维度的指标值;
将所述训练样本输入到初始化的第一回归预测网络和第二回归预测网络进行热身训练,得到基础的第一回归预测网络和基础的第二回归预测网络;
将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络。
可以理解的是,图2所示的一种生物学回归预测方法实施例中的内容均适用于本一种生物学回归预测系统实施例中,本一种生物学回归预测系统实施例所具体实现的功能与图2所示的一种生物学回归预测方法实施例相同,并且达到的有益效果与图2所示的一种生物学回归预测方法实施例所达到的有益效果也相同。
参照图6,本申请实施例还公开了一种计算机设备,包括:
至少一个处理器301;
至少一个存储器302,用于存储至少一个程序;
当至少一个程序被至少一个处理器301执行,使得至少一个处理器301实现如图2所示的一种生物学回归预测方法实施例。
可以理解的是,如图2所示的一种生物学回归预测方法实施例中的内容均适用于本计算机设备实施例中,本计算机设备实施例所具体实现的功能与如图2所示的一种生物学回归预测方法实施例相同,并且达到的有益效果与如图2所示的一种生物学回归预测方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如图2所示的一种生物学回归预测方法实施例。
可以理解的是,如图2所示的一种生物学回归预测方法实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与如图2所示的一种生物学回归预测方法实施例相同,并且达到的有益效果与如图2所示的一种生物学回归预测方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理系统和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理系统或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的系统中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、系统或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、系统或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、系统或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、系统或设备或结合这些指令执行系统、系统或设备而使用的系统。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子系统),便携式计算机盘盒(磁系统),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤系统,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内
在本说明书的描述中,参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
Claims (8)
1.一种生物学回归预测方法,其特征在于,所述方法包括:
获取目标对象的第一生物学序列数据;
将所述第一生物学序列数据输入到第一回归预测网络或者第二回归预测网络中的至少一者,得到第一分数预测值;所述第一分数预测值用于表征预测得到的所述目标对象在预设的生物学维度的指标值;所述第一生物学序列数据包括碱基序列数据或者氨基酸序列数据;
其中,所述第一回归预测网络和所述第二回归预测网络通过以下步骤训练得到:
获取生物学实验数据集,所述生物学实验数据集中包括多个训练样本;每个所述训练样本包括样本对象的第二生物学序列数据和分数实验值,所述分数实验值用于表征实验得到的所述样本对象在预设的生物学维度的指标值;
将所述训练样本输入到初始化的第一回归预测网络和第二回归预测网络进行热身训练,得到基础的第一回归预测网络和基础的第二回归预测网络;
将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络;
所述将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和第二回归预测网络,包括:
将所述训练样本输入到所述基础的第一回归预测网络和所述基础的第二回归预测网络,计算所述第一回归预测网络和所述第二回归预测网络输出结果的预测差值;
根据所述预测差值的大小对所述训练样本分类,得到低噪声样本数据集和高噪声样本数据集;
根据所述低噪声样本数据集和所述高噪声样本数据集,对所述基础的第一回归预测网络和所述基础的第二回归预测网络进行训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络。
2.根据权利要求1所述的一种生物学回归预测方法,其特征在于,将所述训练样本输入到初始化的第一回归预测网络进行热身训练,得到基础的第一回归预测网络,包括:
将所述第二生物学序列数据输入到初始化的第一回归预测网络,得到所述初始化的第一回归预测网络输出的第二分数预测值;所述第二分数预测值用于表征预测得到的所述样本对象在预设的生物学维度的指标值;
根据所述第二分数预测值和所述分数实验值,计算得到第一损失值;
根据所述第一损失值对所述第一回归预测网络的参数进行更新,并迭代训练直至迭代轮次达到预设轮次。
3.根据权利要求1所述的一种生物学回归预测方法,其特征在于,所述将所述训练样本输入到所述基础的第一回归预测网络和所述基础的第二回归预测网络,计算所述第一回归预测网络和所述第二回归预测网络输出结果的预测差值,包括:
将所述第二生物学序列数据输入到基础的第一回归预测网络,得到所述基础的第一回归预测网络输出的第三分数预测值;所述第三分数预测值用于表征预测得到的所述样本对象在预设的生物学维度的指标值;
将所述第二生物学序列数据输入到基础的第二回归预测网络,得到所述基础的第二回归预测网络输出的第四分数预测值;所述第四分数预测值用于表征预测得到的所述样本对象在预设的生物学维度的指标值;
计算所述第三分数预测值和所述第四分数预测值之间差值的绝对值,得到所述预测差值。
4.根据权利要求1所述的一种生物学回归预测方法,其特征在于,所述根据所述预测差值的大小对所述训练样本分类,得到低噪声样本数据集和高噪声样本数据集,包括:
基于所述预测差值,采用高斯混合模型对所述训练样本进行分类预测,得到各个所述训练样本属于高噪声样本数据集的预测概率;
当所述训练样本对应的预测概率大于概率阈值,将所述训练样本划分到所述高噪声样本数据集;或者,当所述训练样本对应的预测概率小于或者等于所述概率阈值,将所述训练样本划分到所述低噪声样本数据集。
5.根据权利要求1所述的一种生物学回归预测方法,其特征在于,根据所述低噪声样本数据集和所述高噪声样本数据集,对所述基础的第一回归预测网络进行训练,得到训练好的第一回归预测网络,包括:
根据所述低噪声样本数据集对所述基础的第一回归预测网络进行训练,确定训练的第二损失值;
根据所述高噪声样本数据集对所述基础的第一回归预测网络进行训练,确定训练的第三损失值;
对所述第二损失值和所述第三损失值进行加权求和,得到第四损失值;其中,所述第二损失值对应的加权权重大于所述第三损失值对应的加权权重;
根据所述第四损失值对所述基础的第一回归预测网络进行参数更新,得到训练好的第一回归预测网络。
6.一种生物学回归预测系统,其特征在于,所述系统包括:
获取模块,用于获取目标对象的第一生物学序列数据;
预测模块,用于将所述第一生物学序列数据输入到第一回归预测网络或者第二回归预测网络中的至少一者,得到第一分数预测值;所述第一分数预测值用于表征预测得到的所述目标对象在预设的生物学维度的指标值;所述第一生物学序列数据包括碱基序列数据或者氨基酸序列数据;
其中,所述第一回归预测网络和所述第二回归预测网络通过以下步骤训练得到:
获取生物学实验数据集,所述生物学实验数据集中包括多个训练样本;每个所述训练样本包括样本对象的第二生物学序列数据和分数实验值,所述分数实验值用于表征实验得到的所述样本对象在预设的生物学维度的指标值;
将所述训练样本输入到初始化的第一回归预测网络和第二回归预测网络进行热身训练,得到基础的第一回归预测网络和基础的第二回归预测网络;
将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络;
所述将所述训练样本输入到所述基础的第一回归预测网络和基础的第二回归预测网络进行带噪协同训练,得到训练好的第一回归预测网络和第二回归预测网络,包括:
将所述训练样本输入到所述基础的第一回归预测网络和所述基础的第二回归预测网络,计算所述第一回归预测网络和所述第二回归预测网络输出结果的预测差值;
根据所述预测差值的大小对所述训练样本分类,得到低噪声样本数据集和高噪声样本数据集;
根据所述低噪声样本数据集和所述高噪声样本数据集,对所述基础的第一回归预测网络和所述基础的第二回归预测网络进行训练,得到训练好的第一回归预测网络和训练好的第二回归预测网络。
7.一种计算机设备,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5中任一项所述的一种生物学回归预测方法。
8.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-5中任一项所述的一种生物学回归预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190198.5A CN115565611B (zh) | 2022-09-28 | 2022-09-28 | 一种生物学回归预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190198.5A CN115565611B (zh) | 2022-09-28 | 2022-09-28 | 一种生物学回归预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115565611A CN115565611A (zh) | 2023-01-03 |
CN115565611B true CN115565611B (zh) | 2024-01-23 |
Family
ID=84742782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211190198.5A Active CN115565611B (zh) | 2022-09-28 | 2022-09-28 | 一种生物学回归预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565611B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113150A (zh) * | 2021-04-15 | 2021-07-13 | 上海交通大学医学院附属第九人民医院 | 淋巴结转移预测模型构建与训练方法、装置、设备和介质 |
CN114067415A (zh) * | 2021-11-26 | 2022-02-18 | 北京百度网讯科技有限公司 | 回归模型的训练方法、对象评估方法、装置、设备和介质 |
CN114334036A (zh) * | 2021-11-25 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、相关装置、设备以及存储介质 |
CN114464247A (zh) * | 2022-01-30 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 基于抗原和抗体序列的结合亲和力预测方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003995B2 (en) * | 2017-05-19 | 2021-05-11 | Huawei Technologies Co., Ltd. | Semi-supervised regression with generative adversarial networks |
CN112613617A (zh) * | 2020-12-30 | 2021-04-06 | 清华大学 | 基于回归模型的不确定性估计方法和装置 |
CN112801164B (zh) * | 2021-01-22 | 2024-02-13 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、装置、设备及存储介质 |
-
2022
- 2022-09-28 CN CN202211190198.5A patent/CN115565611B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113150A (zh) * | 2021-04-15 | 2021-07-13 | 上海交通大学医学院附属第九人民医院 | 淋巴结转移预测模型构建与训练方法、装置、设备和介质 |
CN114334036A (zh) * | 2021-11-25 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、相关装置、设备以及存储介质 |
CN114067415A (zh) * | 2021-11-26 | 2022-02-18 | 北京百度网讯科技有限公司 | 回归模型的训练方法、对象评估方法、装置、设备和介质 |
CN114464247A (zh) * | 2022-01-30 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 基于抗原和抗体序列的结合亲和力预测方法和装置 |
Non-Patent Citations (3)
Title |
---|
[论文学习]DIVIDEMIX:带噪声标签的半监督学习LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING;Brikie;https://blog.csdn.net/Brikie/article/details/113841121;低1-2页 * |
DIVIDEMIX: LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING;Junnan Li等;https://arxiv.org/abs/2002.07394;第1-14页 * |
基于支持向量回归方法的蛋白残基可溶性预测;许文龙;李骜;王明会;江朝晖;冯焕清;;中国生物医学工程学报(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115565611A (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108095716B (zh) | 一种基于置信规则库和深度神经网络的心电信号检测方法 | |
Qianna | Evaluation model of classroom teaching quality based on improved RVM algorithm and knowledge recommendation | |
CN112257341B (zh) | 一种基于异源数据差补融合的定制产品性能预测方法 | |
CN112116090B (zh) | 神经网络结构搜索方法、装置、计算机设备及存储介质 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN108877947B (zh) | 基于迭代均值聚类的深度样本学习方法 | |
CN103761965B (zh) | 一种乐器信号的分类方法 | |
CN117038055B (zh) | 一种基于多专家模型的疼痛评估方法、系统、装置及介质 | |
CN115203434A (zh) | 融合bert网络与位置特征信息的实体关系抽取方法及其应用 | |
CN114022687B (zh) | 一种基于增强学习的图像描述对抗生成方法 | |
CN115565611B (zh) | 一种生物学回归预测方法、装置、设备及存储介质 | |
KR20220066554A (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
CN114706971A (zh) | 生物医学文献类型判定方法及装置 | |
Zhengfeng | Accurate recognition method of continuous sports action based on deep learning algorithm | |
CN107492384B (zh) | 一种基于模糊最近邻算法的语音情感识别方法 | |
Perez et al. | Face Patches Designed through Neuroevolution for Face Recognition with Large Pose Variation | |
CN116450848B (zh) | 一种基于事理图谱的计算思维水平评估方法、装置及介质 | |
CN117648623B (zh) | 一种基于图池化对比学习的网络分类算法 | |
CN116975595B (zh) | 一种无监督概念提取方法、装置、电子设备及存储介质 | |
Monea et al. | Development of signal analysis algorithms for nqr detection | |
CN116312795A (zh) | 一种aav衣壳蛋白的优化方法、系统、设备及存储介质 | |
CN117725172A (zh) | 多意图识别支持大模型qa问答方法及装置 | |
Yuan et al. | Salient object contour extraction based on pixel scales and hierarchical convolutional network | |
Wang et al. | Simulation of Sound Signal Analysis Model in Complex Environments Based on Deep Learning Algorithms | |
CN117711505A (zh) | 一种酶动力学参数预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |