CN117831623A - 对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法、目标对象处理方法 - Google Patents

对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法、目标对象处理方法 Download PDF

Info

Publication number
CN117831623A
CN117831623A CN202410244537.6A CN202410244537A CN117831623A CN 117831623 A CN117831623 A CN 117831623A CN 202410244537 A CN202410244537 A CN 202410244537A CN 117831623 A CN117831623 A CN 117831623A
Authority
CN
China
Prior art keywords
sample data
object detection
determining
positive sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410244537.6A
Other languages
English (en)
Inventor
杨梓琨
顾斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202410244537.6A priority Critical patent/CN117831623A/zh
Publication of CN117831623A publication Critical patent/CN117831623A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本说明书实施例提供对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法、目标对象处理方法,该对象检测方法包括:确定待检测生物样本中的待检测对象;将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,其中,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;基于所述目标对象检测结果,从所述待检测对象中确定目标对象。

Description

对象检测方法、对象检测模型训练方法、转录因子结合位点检 测方法、目标对象处理方法
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种对象检测方法、一种对象检测装置、一种对象检测模型训练方法及装置、一种转录因子结合位点检测方法、一种目标对象处理方法、一种计算设备、一种计算机可读存储介质以及一种计算机程序产品。
背景技术
随着科学技术以及生物技术的不断发展,针对生物样本方面的研究也日益增多。而在针对生物样本进行研究的过程中,现有技术可以采用神经网络模型对生物样本进行对象检测,从而识别生物样本中的特定对象。但是,现有技术中的神经网络模型的检测结果具有较大的误差,从而无法准确的检测出生物样本中的特定对象。因此,亟需提供一种能够准确的对生物样本中的特定对象进行检测的方法。
发明内容
有鉴于此,本说明书实施例提供了一种对象检测方法。本说明书一个或者多个实施例同时涉及一种对象检测方法装置,一种对象检测模型训练方法、一种对象检测模型训练装置、一种转录因子结合位点检测方法、一种目标对象处理方法、一种计算设备,一种计算机可读存储介质以及一种计算机程序产品,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种对象检测方法,包括:
确定待检测生物样本中的待检测对象;
将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,其中,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;
基于所述目标对象检测结果,从所述待检测对象中确定目标对象。
根据本说明书实施例的第二方面,提供了一种对象检测装置,包括:
第一对象确定模块,被配置为确定待检测生物样本中的待检测对象;
结果确定模块,被配置为将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,其中,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;
第二对象确定模块,被配置为基于所述目标对象检测结果,从所述待检测对象中确定目标对象。
根据本说明书实施例的第三方面,提供了一种对象检测模型训练方法,包括:
确定待训练对象检测模型的训练生物样本,并从所述训练生物样本中确定正样本数据;
基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据;
确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据;
基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得对象检测模型。
根据本说明书实施例的第四方面,提供了一种对象检测模型训练装置,包括:
第一样本确定模块,被配置为确定待训练对象检测模型的训练生物样本,并从所述训练生物样本中确定正样本数据;
第二样本确定模块,被配置为基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据;
第三样本确定模块,被配置为确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据;
模型训练模块,被配置为基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得对象检测模型。
根据本说明书实施例的第五方面,提供了一种转录因子结合位点检测方法,包括:
确定待检测生物样本中的待检测位点;
将所述待检测位点对应的基因序列和组蛋白修饰信息输入转录因子结合位点检测模型,确定转录因子结合位点检测结果,其中,所述转录因子结合位点检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据对应的转录因子结合位点从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;
基于所述转录因子结合位点检测结果,从所述待检测位点中确定转录因子结合位点。
根据本说明书实施例的第六方面,提供了一种目标对象处理方法,应用于医疗系统的客户端,包括:
响应于用户针对所述客户端的展示界面的点选操作,确定待检测生物样本中的待检测对象;
将所述待检测对象对应的检测数据发送至所述医疗系统的服务端,接收所述服务端返回的目标对象,其中,所述目标对象为通过对象检测模型对所述待检测对象对应的检测数据进行对象检测处理后输出的对象,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;
将所述目标对象通过所述展示界面展示给所述用户。
根据本说明书实施例的第七方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序/指令,所述处理器用于执行所述计算机程序/指令,该计算机程序/指令被处理器执行时实现上述对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法或者目标对象处理方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法或者目标对象处理方法的步骤。
根据本说明书实施例的第九方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法或者目标对象处理方法的步骤。
本说明书一个或多个实施例提供的对象检测方法,包括:确定待检测生物样本中的待检测对象;将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,其中,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;基于所述目标对象检测结果,从所述待检测对象中确定目标对象。
具体的,所述对象检测方法采用对象检测模型进行对象检测,由于该对象检测模型是基于从训练生物样本中确定的正样本数据、基于正样本数据的位置信息从训练生物样本中确定的扩充正样本数据、以及基于正样本数据的正样本参数和扩充正样本数据的扩充样本参数从训练生物样本中确定的负样本数据这些数量较大、性能较优的样本训练获得;因此,在将待检测对象对应的检测数据输入对象检测模型进行对象检测的情况下,对象检测模型能够输出准确的目标对象检测结果,避免了检测结果具有较大的误差的问题;并且,基于该目标对象检测结果,能够从待检测对象中准确确定目标对象,实现了准确的对待检测生物样本中的目标对象进行检测,避免了由于检测结果的误差较大,无法准确的检测出生物样本中的特定对象的问题。
附图说明
图1是本说明书一个实施例提供的一种对象检测方法的应用示意图;
图2是本说明书一个实施例提供的一种对象检测方法的流程图;
图3是本说明书一个实施例提供的一种对象检测方法的处理过程流程图;
图4是本说明书一个实施例提供的一种对象检测模型训练方法的流程图;
图5是本说明书一个实施例提供的一种对象检测模型训练方法的处理过程流程图;
图6是本说明书一个实施例提供的一种转录因子结合位点检测方法的流程图;
图7是本说明书一个实施例提供的一种目标对象处理方法的流程图;
图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书一个或多个实施例中,大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large Language Model, LLM)、多模态预训练模型(multi-modal pre-training model)等。
大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
TF:TranscriptionFactor,转录因子。
TFBS:TranscriptionFactorBindingSite,转录因子结合位点。
Multiomics:多组学,指将基因组、转录组、蛋白组等多维度的信息综合在一起的多模态遗传信息。
ChIP-Seq:ChromatinImmunoprecipitation-Seq,染色质免疫共沉淀二代测序技术,一种常用生物实验,可用于检测转录因子结合位点 。
Transformer:深度学习中的一种网络模型。
k-mertokenization:生物信息学中初步处理基因序列的一种方法。
Embedding:语言模型中将语句向量化的一层结构。
auPRC:AreaunderPrecision-RecallCurve,对分类模型的一种衡量指标,主要可以反映在正、负样本不平衡的二分类任务中的模型表现。
组蛋白修饰信息:具体代表了每个基因位点对应的组蛋白修饰值,每个细胞基因序列对应的组蛋白修饰信息可以在公共的数据集中获得。
随着科学技术以及生物技术的不断发展,针对细胞/组织方面的研究也日益增多。而在针对细胞/组织进行研究的过程中,现有技术可以采用神经网络模型对细胞/组织进行对象检测,从而识别细胞/组织中的特定对象。例如,转录因子(TF)是一种蛋白质,可以通过和DNA上的特定区域结合,调控对应的基因的转录过程,对特定细胞/组织内(cell/tissuetype-specific)的特异性基因表达的调控起到关键作用。其中,基因组上与转录因子相结合的特定位置被称为转录因子结合位点(TFBS),而在特定的细胞/组织内找到这些TFBS对基因表达调控的研究有重要意义。
目前发现的TFBS主要源自于生物实验,例如,基于ChIP-Seq实验的ENCODE工程,目前研究了约200种人类转录因子在近100个人类细胞/组织中的结合情况。但目前已进行的生物实验只发现了人类转录因子结合位点中非常少的一部分,同时生物实验也非常繁琐。由于转录因子结合位点的序列排布及表观信息具有一定规律,因此希望通过计算方法(例如人工智能模型、神经网络模型),基于多组学规律来预测TFBS。
针对上述问题,本说明书提供了两种方案。第一种方案是跨细胞TFBS预测模型,但是,该方案存在较大缺陷,由于模型为机器学习模型,模型的拟合能力较差,且预测结果仍和实验结果有较大差距。第二种方案是基于流行的大语言模型的方案,该方案在人类的全基因组序列上进行了预训练。但是,该方案也存在较大缺陷,具体在转录因子结合位点预测场景中,模型无法处理多模态信息,无法进行跨细胞/组织预测,且预测结果较差。基于上述方案可知,
上述两种方案对转录因子结合位点的跨细胞/组织预测结果与实验结果之间,仍具有较大差距。
基于此,在本说明书中,提供了一种对象检测方法,本说明书同时涉及一种对象检测方法装置,一种对象检测模型训练方法、一种对象检测模型训练装置、一种转录因子结合位点检测方法、一种目标对象处理方法、一种计算设备、一种计算机可读存储介质以及一种计算机程序产品,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种对象检测方法的应用示意图,基于图1可知,在进行转录因子结合位点检测的过程中,针对任意细胞/组织,用户可以通过终端102将基因序列以及多组学信息发送至服务端104,其中,该基因序列是任意细胞/组织的全基因组上位点A对应的基因序列,多组学信息是所述任意细胞/组织对应的多组学信息中所述位点A对应的多组学信息。
该服务端104在接收到位点对应的基因序列和多组学信息之后,会将该基因序列和多组学信息输入转录因子结合位点检测模型(即对象检测模型)中进行检测,从而获得转录因子结合位点检测模型输出的分类分数,在该分类分数大于等于预设分数阈值的情况下,则确定该全基因组上位点A是转录因子结合位点检测。基于上述内容可知,本说明书一个或多个实施例提供的对象检测方法,为解决转录因子结合位点的跨细胞/组织全基因组预测的相关问题,提出了基于Transformer的大模型(即对象检测模型)的方法,在基因序列的基础上引入组蛋白修饰(即多组学信息),从而判定对应的基因组位置是否为转录因子结合位点;并且,通过对象检测方法,可以通过某种转录因子在若干细胞/组织内已知的结合位点训练模型,在另一至少一项组蛋白修饰已知的细胞/组织内,预测对应的转录因子结合位点,预测结果和生物实验(ChIP-Seq)的差距可以贴近两次生物实验之间的差距;而训练后的转录因子结合位点检测模型(即对象检测模型),可以服务于对基因组相关数据的筛选和降维。
参见图2,图2示出了根据本说明书一个实施例提供的一种对象检测方法的流程图,具体包括以下步骤。
步骤202:确定待检测生物样本中的待检测对象。
其中,待检测生物样本可以理解为任意生物的待检测生物样本,需要说明的是,该待检测生物样本可以用于进行目标对象检测。通过对象检测模型对待检测生物样本中的目标对象进行检测,可以获得该待检测生物样本中的目标对象。例如,该待检测生物样本可以是待检测细胞或待检测生物组织;该待检测细胞可以理解为需要进行检测的生物细胞,例如,胚胎细胞,心血管细胞、脑血管细胞、淋巴细胞等等,在实际应用中,每种类型的细胞中的基因序列可以是相同的,但是每种类型的细胞对应的转录因子结合位点是不同的。待检测生物组织是指需要进行目标对象检测的生物组织;例如该待检测生物组织可以是构成生物体器官和器官系统的基本结构组织。再例如,该待检测生物组织可以为心脏组织、皮肤组织等。
需要说明的是,该待检测生物样本可以是任意物种的任意生物样本。也即是说,该待检测生物样本可以是任意物种的任意细胞,或者任意物种的任意组织。基于此,本说明书一个或多个实施例提供的对象检测方法,能够对于任意物种的任意细胞/组织进行转录因子结合位点检测,从而识别出任意物种的任意细胞/组织中的转录因子结合位点。例如,该待检测生物样本可以理解为人体的待检测生物样本。待检测细胞可以为待检测人体细胞;待检测生物组织可以为待检测人体组织。
该待检测对象可以理解为待检测生物样本的全基因组上的任意位点,例如,该待检测生物样本可以是待检测细胞的全基因组上的任意位点,或者待检测生物组织的全基因组上的任意位点。后续可以通过对象检测模型输出的目标对象检测结果,从该任意位点上确定转录因子结合位点。其中,待检测生物样本的全基因组可以理解为从待检测生物样本中采集到的全基因组序列。
在本说明书提供的一个或多个实施例中,所述确定待检测生物样本中的待检测对象,包括:
获取多种类型的待检测生物样本,其中,所述待检测生物样本包括待检测细胞或待检测生物组织;
分别确定所述多种类型的待检测生物样本的全基因组,并从多个所述全基因组中识别多个待检测对象。
其中,多种类型的待检测生物样本是指多种不同类型的待检测生物样本。由于TFBS在不同的细胞/组织中是不同的,具有细胞/组织特异性。而在本说明书提供的一个或多个实施例中,所述对象检测方法能够对TFBS进行跨细胞/组织的预测(即检测)。跨细胞/组织可以理解为所述对象检测方法通过若干个不同的细胞/组织内的TFBS的ChIP-seq实验结果训练对象检测模型,得到的对象检测模型可以对参与训练的细胞/组织以外的其他的细胞/组织内的TFBS进行预测。需要说明的是,实现对TFBS进行跨细胞/组织的预测的意义是,对于一个没做过TF ChIP-seq实验的细胞/组织来说,可以利用训练获得的对象处理模型,通过其多组学信息对TFBS进行预测,从而代替生物实验,提高TFBS的检测效率,降低TFBS检测的时间和人工成本。
以本说明书提供的对象检测方法在对转录因子结合位点进行跨细胞/组织的检测场景为例,对所述对象检测方法进行说明,其中,待检测生物样本为任意细胞/组织。具体的,对于任意细胞/组织,确定任意细胞/组织的全基因组,以及任意细胞/组织对应的序列信息和多组学信息。然后可以在该全基因组上,基于序列信息和多组学信息进行滑动窗的扫描,获得多个待检测位点。从而便于后续对TFBS进行跨细胞/组织的检测。
步骤204:将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,其中,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定。
其中,检测数据可以理解为基因序列和组蛋白修饰信息,该组蛋白修饰信息可以理解为待检测生物样本对应的多组学信息中的任意一个组学信息。
对象检测模型可以理解为基于检测数据进行对象检测的模型。该对象检测模型可以由Transformer和Embedding构成的模型。
目标对象检测结果可以理解为表征待检测对象是否为目标对象的信息,例如,该目标对象检测结果可以为分类分数,用于表征基因组上的某个位置是否为TFBS。
训练生物样本可以理解为作为训练样本数据的生物样本,需要说明的是,该训练生物样本可以用于对象检测模型的模型训练过程;通过该训练生物样本对该待训练对象检测模型进行模型训练,从而获得训练完成的对象检测模型,后续可以通过该对象检测模型对待检测生物样本中的目标对象进行检测。该训练生物样本可以是作为样本的细胞或者作为样本的生物组织,该正样本数据可以理解为由训练生物样本中TFBS对应的基因序列和组蛋白修饰信息所构成的训练样本。需要说明的是,TFBS在不同的细胞/组织中是不同的,具有细胞/组织特异性,该TFBS在生物实验中通过TF ChIP-seq实验获得,对某个细胞/组织做一次TF ChIP-seq实验可以得到该细胞/组织的TFBS。基因组的基因序列信息在不同的细胞/组织内是相同的,由公开的人类基因组数据中获得;多组学信息在不同的细胞/组织中是不同的,可以从公开的实验结果数据库中获得,也可以采用任意多组学信息确定方法在对应的细胞/组织内测定。
扩充正样本数据可以理解为利用正样本数据的位置信息进行样本扩充处理获得的样本数据。该扩充正样本数据同样可以由基因序列和组蛋白修饰信息所构成的训练样本。
正样本数据的位置信息可以理解为正样本数据的TFBS。正样本数据的正样本参数可以理解为正样本数据的TFBS以及正样本数据的数量。扩充正样本数据的扩充样本参数可以理解为扩充正样本数据在全基因组上对应的位点以及扩充正样本数据的数量。
在本说明书提供的一个或多个实施例中,所述将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,包括:
确定待检测位点对应的基因序列以及组蛋白修饰信息;
将所述基因序列以及所述组蛋白修饰信息输入对象检测模型,确定所述目标对象检测结果;
沿用上例,将某个基因位点的基因序列和多组学信息序列输入transformer模型进行检测,获得基因位点的分类分数,后续可以根据分类分数识别出转录因子结合位点。
在实际应用中,由于转录因子的结合位点有特定的序列排布规律,特定的序列排布规律可以通过组蛋白修饰信息来体现,因此,本说明书提供的对象检测方法,将待检测对象的基因序列和对应的组蛋白修饰信息同时输入到对象检测模型中,在对象检测模型的向量化处理层中将基因序列和组蛋白修饰信息分别转换为对应的向量,再通过对象检测模型的Transformer层,基于多头注意力机制的Transformer模块对该向量进行处理,获得预测结果,最后由深度神经网络构成的TFBS分类器执行下游TFBS预测任务,通过TFBS分类器对该预测结果进行分类分数计算,获得表征基因组上的某个位置是否为TFBS的分类分数。
通过本说明书提供的对象检测方法,在通过对象处理模型确定目标对象检测结果的过程中,结合了组蛋白修饰信息,为确定目标对象检测结果提供了参考,提升了检测的准确率。利用了不同细胞内组蛋白的修饰信息不同的特性,在检测不同的待检测生物样本时,根据每个待检测生物样本对应的组蛋白修饰信息来检测目标对象检测结果,提升了检测的准确率。
需要说明的是,本说明书一个或多个实施例提供的对象检测方法,除了向对象检测模型输入基因序列之外,还需要结合组蛋白修饰信息,组蛋白修饰信息具体代表了每个基因位点对应的组蛋白修饰值,每个细胞的基因序列对应的组蛋白修饰信息可以在公共的数据集中获得。
步骤206:基于所述目标对象检测结果,从所述待检测对象中确定目标对象。
具体的,所述基于所述目标对象检测结果,从所述待检测对象中确定目标对象,包括:
基于所述目标对象检测结果,从所述待检测位点中确定转录因子结合位点。
在本说明书提供的一个或多个实施例中,所述目标对象检测结果为目标对象检测分数,所述待检测对象为多个;
所述基于所述目标对象检测结果,从所述待检测对象中确定目标对象,包括:
确定多个待检测对象对应的目标对象检测分数;
在确定所述目标对象检测分数大于等于预设分数阈值的情况下,将所述目标对象检测分数对应的待检测对象,确定为所述目标对象。
其中,该目标对象检测分数可以为分类分数,预设分数阈值可以理解为预先设置的分数阈值,该预设分数阈值可以根据实际应用场景进行设置,例如,在分类分数为[0,1]范围内的任意数值的情况下,该预设分数阈值可以为0.7。
沿用上例,在获得对象检测模型输出的分类分数之后,判断该分类分数是否大于等于预设分数阈值0.7;如果一个基因位点的分类分数大于等于预设分数阈值0.7,则确定该基因位点是TFBS;反之,则确定该基因位点不是TFBS。
在本说明书提供的一个或多个实施例中,所述将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果之前,还包括:
确定待训练对象检测模型的训练生物样本,并从所述训练生物样本中确定正样本数据;
基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据;
确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据;
基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得所述对象检测模型。
需要说明的是,对该待训练对象检测模型进行模型训练并获得对象检测模型的步骤,可以参见下述一种对象检测模型训练方法中对应或者相应的内容,本说明书对此不做过多赘述。
本说明书一个或多个实施例提供的对象检测方法,采用对象检测模型进行对象检测,由于该对象检测模型是基于从训练生物样本中确定的正样本数据、基于正样本数据的位置信息从训练生物样本中确定的扩充正样本数据、以及基于正样本数据的正样本参数和扩充正样本数据的扩充样本参数从训练生物样本中确定的负样本数据这些数量较大、性能较优的样本训练获得;因此,在将待检测对象对应的检测数据输入对象检测模型进行对象检测的情况下,对象检测模型能够输出准确的目标对象检测结果,避免了检测结果具有较大的误差的问题;并且,基于该目标对象检测结果,能够从待检测对象中准确确定目标对象,实现了准确的对待检测生物样本中的目标对象进行检测,避免了由于检测结果的误差较大,无法准确的检测出生物样本中的特定对象的问题。
下述结合附图3,以本说明书提供的对象检测方法在针对转录因子结合位点的跨细胞/组织的全基因组预测的场景应用为例,对所述对象检测方法进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种对象检测方法的处理过程流程图,具体包括以下步骤。
步骤302:确定转录因子结合位点预测模型的输入信息。
该输入信息为:待检测物种的基因序列信息 + 待检测生物样本/组织内的多组学信息。具体该输入信息的获取方式为:首先,对于任意细胞/组织,确定该细胞/组织对应的全基因组以及对应的多组学信息。
需要说明的是,本说明书一个或多个实施例中提供的对象检测方法中,可以检测任意物种的任意细胞/组织,基因序列对于同一个物种是相同的,多组学对于同一个物种不同细胞是不同的。
其次,可在全基因组上进行滑动窗的扫描,确定待预测的多个基因位点。
最后,从全基因组中确定该多个基因位点对应的基因序列,从细胞/组织的多组学信息中,确定该多个基因位点对应的多组学信息,并将该多个基因位点对应的基因序列和多组学信息作为输入信息。
其中,基因序列为必要信息;多组学信息可以理解为组蛋白修饰信息,该组蛋白修饰信息存在多个,并且,该组蛋白修饰信息为可选信息,需要选择至少一条作为模型的输入数据。
步骤304:利用Embedding层进行向量化处理。
具体的,首先,对于输入信息中的基因序列,通过K-mertokenization对其进行词语化处理,获得词语化的基因信息(以文本方式表示的基因序列)。
其次,对于输入信息中的多组学信号序列,通过分段赋值对其进行词语化处理,获得词语化的多组学信息(以文本方式表示的多组学信息)。
最后,将词语化的基因信息和词语化的多组学信息,输入转录因子结合位点预测模型中的Embedding层。在Embedding层内将输入的词语化的基因信息、位置信息(上述基因位点)以及词语化的多组学信息进行向量化处理,并将对应的向量进行合并,获得多组学特征向量。从而实现多模态的多组学信息的任意融合。
步骤306:利用Transformer层进行处理。
具体的,将Embedding层输出的多组学特征向量,输入至转录因子结合位点预测模型中的Transformer层。利用Transformer层中的基于多头注意力机制的Transformer模块,对该多组学特征向量进行编码处理,通过高参数量的Transformer处理融合后的多组学特征向量(即多组学信息 ),获得强调基因序列特性和多组学信息特性的特征编码。
步骤308:利用TFBS分类器获得分类分数。
在经过上述Embedding层和Transformer层对输入信息进行处理之后,最后由深度神经网络构成的TFBS分类器执行下游TFBS预测任务。
具体的,将Transformer层输出的特征编码,输入至转录因子结合位点预测模型中的TFBS分类器,利用该TFBS分类器对该特征编码进行分类分数计算,获得分类分数,并将该分类分数输出。
其中,该分类分数用于表征基因组上的某个基因点位是否为TFBS。
步骤310:基于预设阈值对分类分数进行筛选。
具体的,在获得TFBS分类器输出的分类分数之后,判断该分类分数是否大于等于预设分数阈值;如果一个基因位点的分类分数大于等于预设分数阈值,则确定该基因位点是TFBS;反之,则确定该基因位点不是TFBS。
基于上述内容可知,本说明书一个或多个实施例提供的对象检测方法,是一种可贴近生物实验精度的、针对转录因子结合位点进行跨细胞/组织的全基因组预测的方案,在实际应用中,当模型训练完成之后,对于任意细胞/组织,可在全基因组上基于序列信息和多组学信息,进行滑动窗的扫描,并对扫描获得的基因位点进行TFBS预测,从而实现对TFBS进行跨细胞/组织的预测。而且在进行TFBS预测时,通过多组学信息提供辅助信息提升准确率,通过需要预测的细胞/组织内的多组学信息提供细胞/组织的特异性。
并且需要说明的是,通过调整TFBS分类器的阈值,可以控制模型所预测的TFBS的数量,具体是指本方案在针对TFBS进行跨细胞/组织扫描预测时,通过调整模型下游TFBS分类器的阈值,可以保证在召回大部分TFBS时,可以控制假阳个数,实现假阳个数可控,以auPRC为衡量标准时,其预测结果和实验结果的差距,基本接近两次ChIP-Seq实验结果之间的差距。从而实现结果可以贴近生物实验精度(模型预测结果和生物实验结果之间的auPRC,和两次生物实验结果之间的auPRC相近) 以及实现了以计算方法代替实验方法。也即是说,通过调整TFBS分类器的阈值的方式,本说明书提供的对象检测方法,在多个TF上的跨细胞/组织的预测结果与ChIP-Seq实验结果之间的差异(通过auPRC指标衡量),可贴近两次ChIP-Seq生物实验的差距。因此,对每个TF,只需要做若干个细胞/组织内的TFChIP-Seq实验,即可基于其他细胞/组织内的部分多组学信息,实现贴近实验精度的TFBS跨组织预测。
参见图4,图4示出了根据本说明书一个实施例提供的一种对象检测模型训练方法的流程图,具体包括以下步骤。
步骤402:确定待训练对象检测模型的训练生物样本,并从所述训练生物样本中确定正样本数据。
在本说明书提供的一个或多个实施例中,所述从所述训练生物样本中确定正样本数据,包括:
确定所述训练生物样本对应的转录因子结合位点,并确定所述训练生物样本对应的组蛋白修饰信息集;
从所述训练生物样本的全基因组中,确定所述转录因子结合位点对应的基因序列,并从所述组蛋白修饰信息集中,确定所述转录因子结合位点对应的组蛋白修饰信息;
将所述转录因子结合位点对应的基因序列,以及所述转录因子结合位点对应的组蛋白修饰信息,确定为所述正样本数据。
其中,组蛋白修饰信息集可以理解为包含多个组蛋白修饰信息的集合。例如,该组蛋白修饰信息集可以理解为多组学信息,该多组学信息中的基因组、转录组、蛋白组等多维度的信息,可以为组蛋白修饰信息。
转录因子结合位点对应的组蛋白修饰信息可以理解为多组学信息中的基因组、转录组、蛋白组等多维度信息中的一个或多个信息。
以本说明书提供的对象检测模型训练方法在对转录因子结合位点检测模型进行训练的场景为例,对所述对象检测模型训练方法进行解释说明。具体的,对于某种转录因子,收集其在若干个细胞/组织内的TFChIP-Seq实验数据,及对应细胞/组织内的多组学信息中的至少一条,来制作训练数据集。其中,正样本数据的获取方式为:对于全基因组上的转录因子结合位点,采集其中心附近的基因序列。确定转录因子结合位点对应的细胞/组织的多组学信号(多组学信息),并从细胞/组织的多组学信号中,确定该转录因子结合位点位置上对应的多组学信息。将转录因子结合位点的基因序列和转录因子结合位点对应的多组学信息作为正样本数据。
步骤404:基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据。
在本说明书提供的一个或多个实施例中,所述基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据,包括:
从所述训练生物样本的全基因组中,确定所述正样本数据对应的转录因子结合位点;
将所述转录因子结合位点平移预设扩充距离,获得扩充样本位置;
确定所述训练生物样本对应的组蛋白修饰信息集,并将所述全基因组中所述扩充样本位置对应的基因序列,以及所述组蛋白修饰信息集中所述扩充样本位置对应的组蛋白修饰信息,确定为所述扩充正样本数据。
其中,该预设扩充距离可以根据实际应用场景进行设置,例如该预设扩充距离可以为10bp。
沿用上例,由于在进行转录因子结合位点的跨细胞/组织预测时,其难点主要在于:全基因组扫描预测时负样本远多于正样本。以人类为例,负样本是正样本的2000倍以上,因此,大多数模型会预测出特别多的假阳位置,具体表现为极低的auPRC。
考虑到上述难点问题,本说明书提供的对象检测模型训练方法,在制作训练数据集的过程中,通过对正样本的数据增强,获得数量较多的扩充正样本数据,得以采样出更多的基因组上的负样本,负样本基本可以覆盖非TFBS的大部分位置上的特征。其中,扩充正样本数据的获取方式为:确定全基因组中该转录因子结合位点的位置,并按照+-10bp的距离,细微地左右平移转录因子结合位点的位置,确定多个扩充正样本的基因点位。从全基因组中获取该扩充正样本的基因点位所对应的基因序列,从训练生物样本/组织的多组学信号中,确定该扩充正样本的基因点位对应的多组学信息。将该扩充正样本的基因点位所对应的基因序列和多组学信息,作为扩充正样本数据,从而实现对正样本数据增强,需要说明的是,通过+-10bp的平移,可以进行20倍数据增强。从而通过TFBS训练时的数据增强方式,可以通过对正样本平移进行过采样,以实现让模型学习更多非TFBS的位置的特征 。
步骤406:确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据。
本说明书提供的一个或多个实施例中,所述确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据,包括:
确定所述正样本数据对应的转录因子结合位点以及所述正样本数据的正样本数量,并确定所述扩充正样本数据对应的扩充样本位置以及所述扩充正样本数据的扩充正样本数量;
从所述全基因组中,确定除所述转录因子结合位点以及所述扩充样本位置之外的其他位置区域;
基于所述正样本数量以及所述扩充正样本数量确定负样本数量,并基于所述负样本数量,从所述其他位置区域中选择负样本位置,其中,所述负样本位置的数量与所述负样本数量相同;
确定所述训练生物样本对应的组蛋白修饰信息集,并将所述全基因组中所述负样本位置对应的基因序列,以及所述组蛋白修饰信息集中所述各负样本位置对应的组蛋白修饰信息,确定为所述负样本数据。
其中,扩充样本位置可以理解为扩充正样本数据对应的基因位点。
沿用上例,在确定正样本数据以及扩充正样本数据之后,需要从训练生物样本中确定负样本数据,从而基于正样本数据、扩充正样本数据以及负样本数据构成训练数据集。其中,负样本数据的获取方式为:负样本可以在训练细胞的所有TFBS外(正样本数据以及扩充正样本数据)的一定距离外随机在基因组上采样,获得负样本对应的基因位点,并为负样本的基因位点加上随机任意一个训练细胞的多组学信息。基于该负样本的基因位点的基因序列和多组学信息,构成负样本数据。需要说的是,负样本随机采样直至和数据增强后的正样本个数相同,构成正负样本平衡的二分类数据集。
步骤408:基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得对象检测模型。
本说明书提供的一个或多个实施例中,所述基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得对象检测模型,包括:
将所述正样本数据、所述扩充正样本数据以及所述负样本数据,执行文本转换处理以及样本整合处理,获得文本数据以及样本整合数据;
将所述文本数据以及所述样本整合数据输入所述待训练对象检测模型进行对象检测,获得样本对象检测结果;
基于所述样本对象检测结果对所述待训练对象检测模型进行模型训练,直至达到模型训练停止条件,获得对象检测模型。
其中,文本转换处理可以理解为通过K-mertokenization进行的词语化处理,样本整合处理可以理解为通过分段赋值进行的词语化处理。样本对象检测结果可以理解为针对样本对象的分类分数,该分类分数可以表征作为样本的多个基因位点中的TFBS。
沿用上例,在获得训练数据集之后,将训练样本的基因序列和多组学信息序列通过K-mertokenization以及分段赋值进行词语化处理,获得对应的词语化基因序列和词语化多组学信息。
将该词语化基因序列和词语化多组学信息输入对象检测模型进行对象检测,获得样本基因位点的分类分数,然后根据正样本(正样本数据和扩充正样本数据)和负样本的分类分数计算模型损失值,并基于该损失值进行模型训练,直至达到模型训练停止条件,获得训练完成的对象检测模型。
基于此,利用正样本数据、扩充正样本数据以及负样本数据,对待训练对象检测模型进行模型训练,从而获得性能较优的对象检测模型,基于GIA对象检测模型能够输出准确的目标对象检测结果,避免了检测结果具有较大的误差的问题。
本说明书提供的一个或多个实施例中,所述将所述文本数据以及所述样本整合数据输入所述待训练对象检测模型进行对象检测,获得样本对象检测结果,包括:将所述文本数据以及所述样本整合数据输入所述待训练对象检测模型进行对象检测,利用该待训练对象检测模型中的向量化处理层、特征处理模块以及对象检测模块,对所述文本数据以及所述样本整合数据进行处理,获得样本对象检测结果,具体过程的解释可以参见下述内容。
所述将所述文本数据以及所述样本整合数据输入所述待训练对象检测模型进行对象检测,获得样本对象检测结果,包括:
将所述文本数据以及所述样本整合数据输入所述待训练对象检测模型,利用所述待训练对象检测模型中的向量化处理层对所述文本数据以及所述样本整合数据进行特征处理,获得样本特征向量;
利用所述待训练对象检测模型中的特征处理模块对所述样本特征向量进行编码处理,获得样本特征编码;
利用所述待训练对象检测模型中的对象检测模块对所述样本特征编码进行对象检测,获得所述样本对象检测结果。
其中,向量化处理层为Embedding层,特征处理模块为Transformer层,对象检测模块为TFBS分类器。
沿用上例,在获得词语化基因序列和词语化多组学信息之后,将词语化基因序列和词语化多组学信息输入Embedding层,进入Embedding层之后。在Embedding层内将输入的基因信息、位置信息以及多组学信息进行向量化,并合并为多组学特征向量。通过Embedding实现向量化,获得合并向量,实现多模态的多组学信息的任意融合。
将合并向量输入Transformer层,Transformer层中基于多头注意力机制的Transformer模块对该合并向量进行处理,通过高参数量的Transformer处理融合后的多组学信息,获得表征基因序列和多组学信息的特征编码向量。
最后由深度神经网络构成的TFBS分类器执行下游TFBS预测任务,通过对特征编码向量进行分类分数计算,获得表述该基因序列是否为TFBS的分类分数。
基于此,通过利用该待训练对象检测模型中的向量化处理层、特征处理模块以及对象检测模块,对所述文本数据以及所述样本整合数据进行处理,获得样本对象检测结果,避免了检测结果具有较大的误差的问题;便于后续基于该目标对象检测结果能够从待检测对象中准确确定目标对象。
本说明书提供的一个或多个实施例中,所述将所述正样本数据、所述扩充正样本数据以及所述负样本数据,执行文本转换处理以及样本整合处理,获得文本数据以及样本整合数据,包括:
确定所述正样本数据、所述扩充正样本数据以及所述负样本数据中的基因序列,并对所述基因序列进行文本转换处理,获得文本数据;
确定所述正样本数据、所述扩充正样本数据以及所述负样本数据中的组蛋白修饰信息,并通过分段赋值对所述组蛋白修饰信息进行数据整合处理,获得样本整合数据。
沿用上例,将训练样本中的基因序列通过K-mertokenization进行词语化,获得词语化的基因信息。将训练样本中的多组学信号序列通过分段赋值进行词语化,获得词语化的多组学信息。
基于此,通过将扩充正样本数据以及负样本数据,执行文本转换处理以及样本整合处理,获得文本数据以及样本整合数据,便于后续待训练对象检测模型进行处理,从而快速的基于该文本数据以及样本整合数据获得样本对象检测结果。
本说明书提供的对象检测模型训练方法,在对待训练对象检测模型进行模型训练的过程中,需要从训练生物样本中确定正样本数据、基于正样本数据的位置信息从训练生物样本中确定扩充正样本数据、以及基于正样本数据的正样本参数和扩充正样本数据的扩充样本参数从训练生物样本中确定负样本数据。然后基于正样本数据、扩充正样本数据、负样本数据这些数量较大、性能较优的样本数据对待训练对象检测模型进行模型训练;因此,能够获得输出准确的目标对象检测结果的对象检测模型,避免了检测结果具有较大的误差的问题。并且,在实际应该过程中,基于该对象检测模型输出的目标对象检测结果,能够从待检测对象中准确确定目标对象,实现了准确的对待检测生物样本中的目标对象进行检测,避免了由于检测结果的误差较大,无法准确的检测出生物样本中的特定对象的问题。
下述结合附图5,以本说明书提供的对象检测模型训练方法在针对转录因子结合位点的跨细胞/组织的全基因组预测的场景应用为例,对所述对象检测模型训练方法进行进一步说明。其中,图5示出了本说明书一个实施例提供的一种对象检测模型训练方法的处理过程流程图,具体包括以下步骤。
步骤502:从样本细胞/样本组织中确定正样本。
具体的,对于某种转录因子,收集其在作为样本的若干个细胞/组织内的TFChIP-Seq实验数据,及对应细胞/组织内的多组学信息中的至少一条,来制作训练数据集。
正样本数据的获取方式为:首先,对于全基因组上的转录因子结合位点,采集其中心附近的基因序列。
其次,确定转录因子结合位点所对应的细胞/组织的多组学信号(多组学信息),并从细胞/组织的多组学信号中,确定该转录因子结合位点位置上对应的多组学信息。
最后,将转录因子结合位点的基因序列和转录因子结合位点对应的多组学信息作为正样本数据。
步骤504:基于样本细胞/样本组织进行样本扩充,获得扩充正样本。
具体的,在制作训练数据集的过程中,通过对正样本的数据增强,获得数量较多的扩充正样本数据,得以采样出更多的基因组上的负样本,负样本基本可以覆盖非TFBS的大部分位置上的特征。
基于此,扩充正样本数据的获取方式为:首先,确定全基因组中该转录因子结合位点的位置,并按照预设平移距离细微地左右平移转录因子结合位点的位置,确定多个扩充正样本的基因点位。需要说明的是,该预设平移距离可以根据实际应用场景进行设置,本说明书对此不作具体限制,例如,该预设平移距离可以是+-10bp的距离。
其次,从全基因组中获取该扩充的正样本的基因点位所对应的基因序列,从训练生物样本/组织的多组学信号中,确定该扩充正样本的基因点位对应的多组学信息。
最后,将该扩充正样本的基因点位所对应的基因序列和多组学信息,作为扩充正样本数据,从而实现对正样本数据增强。
步骤506:从样本细胞/样本组织确定负样本。
具体的,在确定正样本数据以及扩充正样本数据之后,需要从样本细胞/样本组织中确定负样本数据,从而基于正样本数据、扩充正样本数据以及负样本数据构成训练数据集。该
负样本数据的获取方式为:首先,负样本可以在训练细胞的所有TFBS外(正样本数据以及扩充正样本数据)的一定距离外随机在基因组上采样,获得负样本对应的基因位点,
其次,为负样本的基因位点加上随机任意一个训练细胞的多组学信息。
最后,基于该负样本的基因位点的基因序列和多组学信息,构成负样本数据。
需要说的是,负样本随机采样直至和数据增强后的正样本个数相同,构成正负样本平衡的二分类数据集。
步骤508:利用Embedding层进行向量化处理。
具体的,首先,对于训练样本中的基因序列,通过K-mertokenization对其进行词语化处理,获得词语化的基因信息(以文本方式表示的基因序列)。
其次,对于训练样本中的多组学信号序列,通过分段赋值对其进行词语化处理,获得词语化的多组学信息(以文本方式表示的多组学信息)。
最后,将词语化的基因信息和词语化的多组学信息,输入待训练的转录因子结合位点预测模型中的Embedding层。在Embedding层内将输入的词语化的基因信息、位置信息(上述基因位点)以及词语化的多组学信息进行向量化处理,并将对应的向量进行合并,获得多组学特征向量。从而实现多模态的多组学信息的任意融合。
步骤510:利用Transformer层进行处理。
具体的,将Embedding层输出的多组学特征向量,输入至转录因子结合位点预测模型中的Transformer层。利用Transformer层中的基于多头注意力机制的Transformer模块,对该多组学特征向量进行编码处理,通过高参数量的Transformer处理融合后的多组学特征向量(即多组学信息 ),获得强调基因序列特性和多组学信息特性的特征编码。
步骤512:利用TFBS分类器获得分类分数。
在经过上述Embedding层和Transformer层对输入信息进行处理之后,最后由深度神经网络构成的TFBS分类器执行下游TFBS预测任务。
具体的,将Transformer层输出的特征编码,输入至转录因子结合位点预测模型中的TFBS分类器,利用该TFBS分类器对该特征编码进行分类分数计算,获得分类分数,并将该分类分数输出。
其中,该分类分数用于表征基因组上的某个基因点位是否为TFBS。
步骤514:基于预设阈值对分类分数进行筛选。
具体的,在获得TFBS分类器输出的分类分数之后,判断该分类分数是否大于等于预设分数阈值;如果一个基因位点的分类分数大于等于预设分数阈值,则确定该基因位点是TFBS;反之,则确定该基因位点不是TFBS。
步骤516:基于分类分数计算损失值,并基于损失值进行模型训练。
具体的,首先,确定大于等于预设分阈值的分类分数,并确定该分类分数对应的正样本(包括扩充正样本)以及负样本;
其次,基于该正样本和负样本的数量计算损失值,并基于该损失值对转录因子结合位点预测模型进行调参,直至达到模型训练停止条件,获得训练完成的转录因子结合位点预测模型。
参见图6,图6示出了根据本说明书一个实施例提供的一种转录因子结合位点检测方法的流程图,具体包括以下步骤。
步骤602:确定待检测生物样本中的待检测位点。
步骤604:将所述待检测位点对应的基因序列和组蛋白修饰信息输入转录因子结合位点检测模型,确定转录因子结合位点检测结果,其中,所述转录因子结合位点检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据对应的转录因子结合位点从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定。
步骤606:基于所述转录因子结合位点检测结果,从所述待检测位点中确定转录因子结合位点。
具体的,本说明书提供的一种转录因子结合位点检测方法,采用转录因子结合位点检测模型进行转录因子结合位点检测,由于该转录因子结合位点检测模型是基于从训练生物样本中确定的正样本数据、基于正样本数据对应的转录因子结合位点从训练生物样本中确定的扩充正样本数据、以及基于正样本数据的正样本参数和扩充正样本数据的扩充样本参数从训练生物样本中确定的负样本数据这些数量较大、性能较优的样本训练获得;因此,在将待检测位点对应的基因序列和组蛋白修饰信息输入转录因子结合位点检测模型进行转录因子结合位点检测的情况下,转录因子结合位点检测模型能够输出准确的转录因子结合位点检测结果,避免了检测结果具有较大的误差的问题;并且,基于该转录因子结合位点检测结果,能够从待检测位点中准确确定转录因子结合位点,实现了准确的对待检测生物样本中的转录因子结合位点进行检测,避免了由于检测结果的误差较大,无法准确的检测出生物样本中的转录因子结合位点的问题。
上述为本实施例的一种转录因子结合位点检测方法的示意性方案。需要说明的是,该一种转录因子结合位点检测方法的技术方案与上述的对象检测方法以及对象检测模型训练方法的技术方案属于同一构思,一种转录因子结合位点检测方法的技术方案未详细描述的细节内容,均可以参见上述对象检测方法以及对象检测模型训练方法的技术方案的描述。
参见图7,图7示出了根据本说明书一个实施例提供的一种目标对象处理方法的流程图,该目标对象处理方法应用于医疗系统的客户端,具体包括以下步骤。
步骤702:响应于用户针对所述客户端的展示界面的点选操作,确定待检测生物样本中的待检测对象。
步骤704:将所述待检测对象对应的检测数据发送至所述医疗系统的服务端,接收所述服务端返回的目标对象,其中,所述目标对象为通过对象检测模型对所述待检测对象对应的检测数据进行对象检测处理后输出的对象,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定。
步骤706:将所述目标对象通过所述展示界面展示给所述用户。
本说明书提供的目标对象处理方法,能够响应于用户针对客户端的展示界面的点选操作,确定待检测生物样本中的待检测对象,并将待检测对象对应的检测数据发送至医疗系统的服务端。
而该服务端采用对象检测模型进行对象检测,由于该对象检测模型是基于从训练生物样本中确定的正样本数据、基于正样本数据的位置信息从训练生物样本中确定的扩充正样本数据、以及基于正样本数据的正样本参数和扩充正样本数据的扩充样本参数从训练生物样本中确定的负样本数据这些数量较大、性能较优的样本训练获得;因此,在将待检测对象对应的检测数据输入对象检测模型进行对象检测的情况下,对象检测模型能够输出准确的目标对象检测结果,避免了检测结果具有较大的误差的问题;并且,基于该目标对象检测结果,能够从待检测对象中准确确定目标对象,实现了准确的对待检测生物样本中的目标对象进行检测,避免了由于检测结果的误差较大,无法准确的检测出生物样本中的特定对象的问题。并且,通过将目标对象通过展示界面展示给用户,从而使得用户获取到准确的目标对象。
上述为本实施例的一种目标对象处理方法的示意性方案。需要说明的是,该一种目标对象处理方法的技术方案与上述的对象检测方法以及对象检测模型训练方法的技术方案属于同一构思,一种目标对象处理方法的技术方案未详细描述的细节内容,均可以参见上述对象检测方法以及对象检测模型训练方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了对象检测装置实施例,该装置包括:
第一对象确定模块,被配置为确定待检测生物样本中的待检测对象;
结果确定模块,被配置为将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,其中,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;
第二对象确定模块,被配置为基于所述目标对象检测结果,从所述待检测对象中确定目标对象。
可选的,所述第一对象确定模块,还被配置为:
获取多种类型的待检测生物样本,其中,所述待检测生物样本包括待检测细胞或待检测生物组织;
分别确定所述多种类型的待检测生物样本的全基因组,并从多个所述全基因组中识别多个待检测对象。
可选的,所述目标对象检测结果为目标对象检测分数,所述待检测对象为多个;
所述第二对象确定模块,还被配置为:
确定多个待检测对象对应的目标对象检测分数;
在确定所述目标对象检测分数大于等于预设分数阈值的情况下,将所述目标对象检测分数对应的待检测对象,确定为所述目标对象。
可选的,所述结果确定模块,还被配置为:
确定待检测位点对应的基因序列以及组蛋白修饰信息;
将所述基因序列以及所述组蛋白修饰信息输入对象检测模型,确定所述目标对象检测结果;
所述第二对象确定模块,还被配置为:
基于所述目标对象检测结果,从所述待检测位点中确定转录因子结合位点。
可选的,所述对象检测装置还包括对象检测模型训练模块,被配置为:
确定待训练对象检测模型的训练生物样本,并从所述训练生物样本中确定正样本数据;
基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据;
确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据;
基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得所述对象检测模型。
本说明书实施例提供的对象检测装置,采用对象检测模型进行对象检测,由于该对象检测模型是基于从训练生物样本中确定的正样本数据、基于正样本数据的位置信息从训练生物样本中确定的扩充正样本数据、以及基于正样本数据的正样本参数和扩充正样本数据的扩充样本参数从训练生物样本中确定的负样本数据这些数量较大、性能较优的样本训练获得;因此,在将待检测对象对应的检测数据输入对象检测模型进行对象检测的情况下,对象检测模型能够输出准确的目标对象检测结果,避免了检测结果具有较大的误差的问题;并且,基于该目标对象检测结果,能够从待检测对象中准确确定目标对象,实现了准确的对待检测生物样本中的目标对象进行检测,避免了由于检测结果的误差较大,无法准确的检测出生物样本中的特定对象的问题。
上述为本实施例的一种对象检测装置的示意性方案。需要说明的是,该对象检测装置的技术方案与上述的对象检测方法的技术方案属于同一构思,对象检测装置的技术方案未详细描述的细节内容,均可以参见上述对象检测方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了对象检测模型训练装置实施例,该装置包括:
第一样本确定模块,被配置为确定待训练对象检测模型的训练生物样本,并从所述训练生物样本中确定正样本数据;
第二样本确定模块,被配置为基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据;
第三样本确定模块,被配置为确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据;
模型训练模块,被配置为基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得对象检测模型。
可选的,所述第一样本确定模块,还被配置为:
确定所述训练生物样本对应的转录因子结合位点,并确定所述训练生物样本对应的组蛋白修饰信息集;
从所述训练生物样本的全基因组中,确定所述转录因子结合位点对应的基因序列,并从所述组蛋白修饰信息集中,确定所述转录因子结合位点对应的组蛋白修饰信息;
将所述转录因子结合位点对应的基因序列,以及所述转录因子结合位点对应的组蛋白修饰信息,确定为所述正样本数据。
可选的,所述第二样本确定模块,还被配置为:
从所述训练生物样本的全基因组中,确定所述正样本数据对应的转录因子结合位点;
将所述转录因子结合位点平移预设扩充距离,获得扩充样本位置;
确定所述训练生物样本对应的组蛋白修饰信息集,并将所述全基因组中所述扩充样本位置对应的基因序列,以及所述组蛋白修饰信息集中所述扩充样本位置对应的组蛋白修饰信息,确定为所述扩充正样本数据。
可选的,所述第三样本确定模块,还被配置为:
确定所述正样本数据对应的转录因子结合位点以及所述正样本数据的正样本数量,并确定所述扩充正样本数据对应的扩充样本位置以及所述扩充正样本数据的扩充正样本数量;
从所述全基因组中,确定除所述转录因子结合位点以及所述扩充样本位置之外的其他位置区域;
基于所述正样本数量以及所述扩充正样本数量确定负样本数量,并基于所述负样本数量,从所述其他位置区域中选择负样本位置,其中,所述负样本位置的数量与所述负样本数量相同;
确定所述训练生物样本对应的组蛋白修饰信息集,并将所述全基因组中所述负样本位置对应的基因序列,以及所述组蛋白修饰信息集中所述各负样本位置对应的组蛋白修饰信息,确定为所述负样本数据。
可选的,所述模型训练模块,还被配置为:
将所述正样本数据、所述扩充正样本数据以及所述负样本数据,执行文本转换处理以及样本整合处理,获得文本数据以及样本整合数据;
将所述文本数据以及所述样本整合数据输入所述待训练对象检测模型进行对象检测,获得样本对象检测结果;
基于所述样本对象检测结果对所述待训练对象检测模型进行模型训练,直至达到模型训练停止条件,获得对象检测模型。
可选的,所述模型训练模块,还被配置为:
将所述文本数据以及所述样本整合数据输入所述待训练对象检测模型,利用所述待训练对象检测模型中的向量化处理层对所述文本数据以及所述样本整合数据进行特征处理,获得样本特征向量;
利用所述待训练对象检测模型中的特征处理模块对所述样本特征向量进行编码处理,获得样本特征编码;
利用所述待训练对象检测模型中的对象检测模块对所述样本特征编码进行对象检测,获得所述样本对象检测结果。
可选的,所述模型训练模块,还被配置为:
确定所述正样本数据、所述扩充正样本数据以及所述负样本数据中的基因序列,并对所述基因序列进行文本转换处理,获得文本数据;
确定所述正样本数据、所述扩充正样本数据以及所述负样本数据中的组蛋白修饰信息,并通过分段赋值对所述组蛋白修饰信息进行数据整合处理,获得样本整合数据。
本说明书提供的对象检测模型训练装置,在对待训练对象检测模型进行模型训练的过程中,需要从训练生物样本中确定正样本数据、基于正样本数据的位置信息从训练生物样本中确定扩充正样本数据、以及基于正样本数据的正样本参数和扩充正样本数据的扩充样本参数从训练生物样本中确定负样本数据。然后基于正样本数据、扩充正样本数据、负样本数据这些数量较大、性能较优的样本数据对待训练对象检测模型进行模型训练;因此,能够获得输出准确的目标对象检测结果的对象检测模型,避免了检测结果具有较大的误差的问题。并且,在实际应该过程中,基于该对象检测模型输出的目标对象检测结果,能够从待检测对象中准确确定目标对象,实现了准确的对待检测生物样本中的目标对象进行检测,避免了由于检测结果的误差较大,无法准确的检测出生物样本中的特定对象的问题。
上述为本实施例的一种对象检测模型训练装置的示意性方案。需要说明的是,该对象检测模型训练装置的技术方案与上述的对象检测模型训练方法的技术方案属于同一构思,对象检测模型训练装置的技术方案未详细描述的细节内容,均可以参见上述对象检测模型训练方法的技术方案的描述。
图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820用于执行如下计算机程序/指令,该计算机程序/指令被处理器执行时实现所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于计算设备实施例而言,由于其基本相似于所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法实施例,所以描述的比较简单,相关之处参见所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法实施例的部分说明即可。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于计算机可读存储介质实施例而言,由于其基本相似于所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法实施例,所以描述的比较简单,相关之处参见所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法实施例的部分说明即可。
本说明书一实施例还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法的步骤。
上述为本实施例的一种计算机程序产品的示意性方案。需要说明的是,该计算机程序产品的技术方案与上述的所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法的技术方案属于同一构思,计算机程序产品的技术方案未详细描述的细节内容,均可以参见上述所述对象检测方法、所述对象检测模型训练方法、所述转录因子结合位点检测方法或者所述目标对象处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种对象检测方法,包括:
确定待检测生物样本中的待检测对象;
将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,其中,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;
基于所述目标对象检测结果,从所述待检测对象中确定目标对象。
2.根据权利要求1所述的对象检测方法,所述目标对象检测结果为目标对象检测分数,所述待检测对象为多个;
所述基于所述目标对象检测结果,从所述待检测对象中确定目标对象,包括:
确定多个待检测对象对应的目标对象检测分数;
在确定所述目标对象检测分数大于等于预设分数阈值的情况下,将所述目标对象检测分数对应的待检测对象,确定为所述目标对象。
3.根据权利要求1所述的对象检测方法,所述将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果,包括:
确定待检测位点对应的基因序列以及组蛋白修饰信息;
将所述基因序列以及所述组蛋白修饰信息输入对象检测模型,确定所述目标对象检测结果;
所述基于所述目标对象检测结果,从所述待检测对象中确定目标对象,包括:
基于所述目标对象检测结果,从所述待检测位点中确定转录因子结合位点。
4.根据权利要求1至3任意一项所述的对象检测方法,所述将所述待检测对象对应的检测数据输入对象检测模型,确定目标对象检测结果之前,还包括:
确定待训练对象检测模型的训练生物样本,并从所述训练生物样本中确定正样本数据;
基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据;
确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据;
基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得所述对象检测模型。
5.一种对象检测模型训练方法,包括:
确定待训练对象检测模型的训练生物样本,并从所述训练生物样本中确定正样本数据;
基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据;
确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据;
基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得对象检测模型。
6.根据权利要求5所述的对象检测模型训练方法,所述从所述训练生物样本中确定正样本数据,包括:
确定所述训练生物样本对应的转录因子结合位点,并确定所述训练生物样本对应的组蛋白修饰信息集;
从所述训练生物样本的全基因组中,确定所述转录因子结合位点对应的基因序列,并从所述组蛋白修饰信息集中,确定所述转录因子结合位点对应的组蛋白修饰信息;
将所述转录因子结合位点对应的基因序列,以及所述转录因子结合位点对应的组蛋白修饰信息,确定为所述正样本数据。
7.根据权利要求5所述的对象检测模型训练方法,所述基于所述正样本数据的位置信息,从所述训练生物样本中确定扩充正样本数据,包括:
从所述训练生物样本的全基因组中,确定所述正样本数据对应的转录因子结合位点;
将所述转录因子结合位点平移预设扩充距离,获得扩充样本位置;
确定所述训练生物样本对应的组蛋白修饰信息集,并将所述全基因组中所述扩充样本位置对应的基因序列,以及所述组蛋白修饰信息集中所述扩充样本位置对应的组蛋白修饰信息,确定为所述扩充正样本数据。
8.根据权利要求5所述的对象检测模型训练方法,所述确定所述正样本数据的正样本参数以及所述扩充正样本数据的扩充样本参数,并基于所述正样本参数以及所述扩充样本参数,从所述训练生物样本中确定负样本数据,包括:
确定所述正样本数据对应的转录因子结合位点以及所述正样本数据的正样本数量,并确定所述扩充正样本数据对应的扩充样本位置以及所述扩充正样本数据的扩充正样本数量;
从全基因组中,确定除所述转录因子结合位点以及所述扩充样本位置之外的其他位置区域;
基于所述正样本数量以及所述扩充正样本数量确定负样本数量,并基于所述负样本数量,从所述其他位置区域中选择负样本位置,其中,所述负样本位置的数量与所述负样本数量相同;
确定所述训练生物样本对应的组蛋白修饰信息集,并将所述全基因组中所述负样本位置对应的基因序列,以及所述组蛋白修饰信息集中所述各负样本位置对应的组蛋白修饰信息,确定为所述负样本数据。
9.根据权利要求5所述的对象检测模型训练方法,所述基于所述正样本数据、所述扩充正样本数据以及所述负样本数据,对所述待训练对象检测模型进行模型训练,获得对象检测模型,包括:
将所述正样本数据、所述扩充正样本数据以及所述负样本数据,执行文本转换处理以及样本整合处理,获得文本数据以及样本整合数据;
将所述文本数据以及所述样本整合数据输入所述待训练对象检测模型进行对象检测,获得样本对象检测结果;
基于所述样本对象检测结果对所述待训练对象检测模型进行模型训练,直至达到模型训练停止条件,获得对象检测模型。
10.一种转录因子结合位点检测方法,包括:
确定待检测生物样本中的待检测位点;
将所述待检测位点对应的基因序列和组蛋白修饰信息输入转录因子结合位点检测模型,确定转录因子结合位点检测结果,其中,所述转录因子结合位点检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据对应的转录因子结合位点从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;
基于所述转录因子结合位点检测结果,从所述待检测位点中确定转录因子结合位点。
11.一种目标对象处理方法,应用于医疗系统的客户端,包括:
响应于用户针对所述客户端的展示界面的点选操作,确定待检测生物样本中的待检测对象;
将所述待检测对象对应的检测数据发送至所述医疗系统的服务端,接收所述服务端返回的目标对象,其中,所述目标对象为通过对象检测模型对所述待检测对象对应的检测数据进行对象检测处理后输出的对象,所述对象检测模型基于从训练生物样本中确定的正样本数据、扩充正样本数据以及负样本数据训练获得,所述扩充正样本数据基于所述正样本数据的位置信息从所述训练生物样本中确定,所述负样本数据基于所述正样本数据的正样本参数、以及所述扩充正样本数据的扩充样本参数从所述训练生物样本中确定;
将所述目标对象通过所述展示界面展示给所述用户。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序/指令,所述处理器用于执行所述计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1至4任意一项所述对象检测方法、权利要求5至9任意一项所述对象检测模型训练方法、权利要求10任意一项所述转录因子结合位点检测方法或者权利要求11任意一项所述目标对象处理方法的步骤。
13.一种计算机可读存储介质,其存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1至4任意一项所述对象检测方法、权利要求5至9任意一项所述对象检测模型训练方法、权利要求10任意一项所述转录因子结合位点检测方法或者权利要求11任意一项所述目标对象处理方法的步骤。
14.一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1至4任意一项所述对象检测方法、权利要求5至9任意一项所述对象检测模型训练方法、权利要求10任意一项所述转录因子结合位点检测方法或者权利要求11任意一项所述目标对象处理方法的步骤。
CN202410244537.6A 2024-03-04 2024-03-04 对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法、目标对象处理方法 Pending CN117831623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410244537.6A CN117831623A (zh) 2024-03-04 2024-03-04 对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法、目标对象处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410244537.6A CN117831623A (zh) 2024-03-04 2024-03-04 对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法、目标对象处理方法

Publications (1)

Publication Number Publication Date
CN117831623A true CN117831623A (zh) 2024-04-05

Family

ID=90519278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410244537.6A Pending CN117831623A (zh) 2024-03-04 2024-03-04 对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法、目标对象处理方法

Country Status (1)

Country Link
CN (1) CN117831623A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016183348A1 (en) * 2015-05-12 2016-11-17 The Johns Hopkins University Methods, systems and devices comprising support vector machine for regulatory sequence features
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法
CN112131354A (zh) * 2020-11-26 2020-12-25 广州华多网络科技有限公司 答案筛选方法、装置、终端设备和计算机可读存储介质
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
CN112383644A (zh) * 2020-10-21 2021-02-19 北京邮电大学 一种启发式IPv6地址扫描目标生成方法及相关设备
CN115132274A (zh) * 2022-09-01 2022-09-30 臻和(北京)生物科技有限公司 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置
CN115151974A (zh) * 2019-12-13 2022-10-04 格里尔公司 使用补丁卷积神经网络的癌症分类
CN115658851A (zh) * 2022-12-27 2023-01-31 药融云数字科技(成都)有限公司 基于主题的医学文献检索方法、系统、存储介质及终端
CN115810398A (zh) * 2022-10-21 2023-03-17 成都信息工程大学 一种基于多特征融合的tf-dna结合识别方法
CN116168274A (zh) * 2023-03-16 2023-05-26 阿里巴巴(中国)有限公司 对象检测方法以及对象检测模型训练方法
CN116403645A (zh) * 2023-03-03 2023-07-07 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置
CN117153259A (zh) * 2023-09-08 2023-12-01 中国农业大学 一种基于卷积神经网络预测哺乳动物家畜增强子序列的装置、方法及计算机可读存储介质
CN117275585A (zh) * 2023-10-10 2023-12-22 郑州大学第一附属医院 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016183348A1 (en) * 2015-05-12 2016-11-17 The Johns Hopkins University Methods, systems and devices comprising support vector machine for regulatory sequence features
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
CN115151974A (zh) * 2019-12-13 2022-10-04 格里尔公司 使用补丁卷积神经网络的癌症分类
CN112383644A (zh) * 2020-10-21 2021-02-19 北京邮电大学 一种启发式IPv6地址扫描目标生成方法及相关设备
CN112131354A (zh) * 2020-11-26 2020-12-25 广州华多网络科技有限公司 答案筛选方法、装置、终端设备和计算机可读存储介质
CN115132274A (zh) * 2022-09-01 2022-09-30 臻和(北京)生物科技有限公司 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置
CN115810398A (zh) * 2022-10-21 2023-03-17 成都信息工程大学 一种基于多特征融合的tf-dna结合识别方法
CN115658851A (zh) * 2022-12-27 2023-01-31 药融云数字科技(成都)有限公司 基于主题的医学文献检索方法、系统、存储介质及终端
CN116403645A (zh) * 2023-03-03 2023-07-07 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置
CN116168274A (zh) * 2023-03-16 2023-05-26 阿里巴巴(中国)有限公司 对象检测方法以及对象检测模型训练方法
CN117153259A (zh) * 2023-09-08 2023-12-01 中国农业大学 一种基于卷积神经网络预测哺乳动物家畜增强子序列的装置、方法及计算机可读存储介质
CN117275585A (zh) * 2023-10-10 2023-12-22 郑州大学第一附属医院 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
福建省农村信用社招聘考试编写组编: "《公共基础知识 2018中公版》", 31 May 2013, 上海:立信会计出版社, pages: 146 *
陈鸣;薛慧君;熊;朱扬勇;: "基于多数据域描述的转录因子结合位点识别", 计算机应用与软件, no. 06, 15 June 2011 (2011-06-15) *

Similar Documents

Publication Publication Date Title
CN111210871B (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
Zhang et al. Predicting CTCF-mediated chromatin loops using CTCF-MP
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN113764037B (zh) 模型训练、抗体改造和结合位点预测的方法与装置
CN114974397A (zh) 蛋白质结构预测模型的训练方法和蛋白质结构预测方法
CN110265085A (zh) 一种蛋白质相互作用位点识别方法
CN118350463B (zh) 问答模型训练方法、文本处理方法及奖励模型训练方法
Downey et al. alineR: An R package for optimizing feature-weighted alignments and linguistic distances
CN114022687B (zh) 一种基于增强学习的图像描述对抗生成方法
CN116168274A (zh) 对象检测方法以及对象检测模型训练方法
CN117976035A (zh) 一种融合特征的深度学习网络的蛋白质sno位点预测方法
CN116403645B (zh) 转录因子结合位点的预测方法及装置
CN117831623A (zh) 对象检测方法、对象检测模型训练方法、转录因子结合位点检测方法、目标对象处理方法
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN115775565A (zh) 基于多模态的情感识别方法及相关设备
CN113792550B (zh) 预测答案的确定方法及装置、阅读理解方法及装置
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
Yang et al. Concert: genome-wide prediction of sequence elements that modulate DNA replication timing
Mahmood et al. iHyd-ProSite: A novel computational approach for identifying hydroxylation sites in proline via mathematical modeling
Du et al. Predicting TF proteins by incorporating evolution information through PSSM
CN113886560A (zh) 庭审问题的推荐方法以及装置
CN115617959A (zh) 问题解答方法及装置
CN113538079A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
Pavlov et al. Recognition of DNA secondary structures as nucleosome barriers with deep learning methods
Alam et al. Unveiling the Potential Pattern Representation of RNA 5-Methyluridine Modification Sites through a Novel Feature Fusion Model Leveraging Convolutional Neural Network and Tetranucleotide Composition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination