CN111724911A - 目标药物敏感度预测方法、装置、终端设备及存储介质 - Google Patents

目标药物敏感度预测方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN111724911A
CN111724911A CN202010401840.4A CN202010401840A CN111724911A CN 111724911 A CN111724911 A CN 111724911A CN 202010401840 A CN202010401840 A CN 202010401840A CN 111724911 A CN111724911 A CN 111724911A
Authority
CN
China
Prior art keywords
information
snps
training
user
clinical factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010401840.4A
Other languages
English (en)
Inventor
牛钢
薛宜青
范彦辉
张春明
汪亚菲
张强祖
袁碧清
倪思桓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zheyuan Biotechnology Co ltd
Original Assignee
Shenzhen Zheyuan Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zheyuan Biotechnology Co ltd filed Critical Shenzhen Zheyuan Biotechnology Co ltd
Priority to CN202010401840.4A priority Critical patent/CN111724911A/zh
Publication of CN111724911A publication Critical patent/CN111724911A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Abstract

本申请适用于药物测试技术领域,提供了一种目标药物敏感度预测方法、装置、终端设备及存储介质,所述方法包括:获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,所述SNPs位点信息为所述待测用户的基因中会与目标药物产生作用的位点信息;根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征;根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测。通过将待测用户的基因中会与目标药物产生作用的SNPs位点信息,与临床因素信息作为预测信息,提取相应的SNPs信息特征和临床因素特征进行预测,使得预测出的待测用户服用目标药物时的是否产生敏感的准确性更高。

Description

目标药物敏感度预测方法、装置、终端设备及存储介质
技术领域
本申请属于药物测试技术领域,尤其涉及一种目标药物敏感度预测方法、装置、终端设备及存储介质。
背景技术
目前,对于同种类型的患者个体往往采用相同的药物进行治疗。然而,临床应用表明,不同的患者个体,甚至同一分期的患者,针对相似的患者对相同的治疗有不同反应的现象,即对于药物的反应或者疗效显著截然不同。因此,为了消除临床实验的盲试风险,需要预先测出患者是否能对特定药物产生敏感性,用于临床治疗。
发明内容
本申请实施例提供了一种目标药物敏感度预测方法、装置、终端设备及存储介质,可以解决临床实验的盲试风险,进而预先测出患者是否能对特定药物产生敏感性的问题。
第一方面,本申请实施例提供了一种目标药物敏感度预测方法,包括:
获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,所述SNPs位点信息为所述待测用户的基因中会与目标药物产生作用的位点信息;
根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征;
根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测。
在一实施例中,所述获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,包括:
获取所述待测用户的临床因素信息和初始SNPs位点信息;
在SNPs位点数据库中获取会与所述目标药物产生作用的第一SNPs位点信息;
从所述初始SNPs位点信息中筛选出与所述第一SNPs位点信息相同的位点信息,作为所述待测用户的SNPs位点信息。
在一实施例中,所述根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征,包括:
清洗所述SNPs位点信息和所述临床因素信息,得到第二SNPs位点信息以及第一临床因素信息;
根据所述第二SNPs位点信息的数据特性,对所述第二SNPs位点信息进行标准化处理,获得所述第二SNPs位点信息的SNPs信息特征;
根据所述第一临床因素信息的数据特性,对所述第一临床因素信息进行标准化处理,获得所述第一临床因素信息的临床因素特征。
在一实施例中,所述根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测,包括:
将所述SNPs信息特征和所述临床因素特征输入第一模型进行预测,得到所述待测用户服用所述目标药物时的敏感度;
其中,所述第一模型通过如下步骤进行训练得到:
获取训练数据,所述训练数据包括多个训练用户的训练临床因素信息和训练SNPs位点信息;
根据所述训练SNPs位点信息提取训练SNPs信息特征,并根据所述训练临床因素信息提取训练临床因素特征;
将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值;
根据所述训练用户的药物敏感度的真实值和所述第一初始预测值,确定所述训练用户的训练损失;
根据所述训练损失迭代更新所述初始第一模型的模型参数;
若在迭代更新过程中所述训练损失收敛,则结束训练所述初始第一模型,并将当前的初始第一模型作为已训练的第一模型;
若在迭代更新过程中所述训练损失未收敛,则调整所述初始第一模型的模型参数,并返回执行所述将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值的步骤,直到所述训练损失收敛。
在一实施例中,所述已训练的第一模型包括多个;在所述将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值之后,还包括:
将所述训练SNPs信息特征和训练临床因素特征输入至多个初始第一模型进行训练,对应得到多个已训练的第一模型;
获取测试数据,所述测试数据包括测试用户的测试SNPs信息特征和测试临床因素特征;
将所述测试数据分别输入至所有所述已训练的第一模型中,对应获得基于各个已训练第一模型进行预测后的第二初始预测值;
根据所述第二初始预测值,在多个已训练第一模型中确定最优的第一模型。
在一实施例中,所述测试数据包括多组;所述根据所述第二初始预测值,在多个已训练第一模型中确定最优的第一模型,包括:
获取所述测试用户中属于敏感类别的第一测试数据,以及所述测试用户中属于非敏感类别的第二测试数据;
获取各个第一模型根据所述第一测试数据得到的第三初始预测值,以及获取各个第一模型根据所述第二测试数据得到的第四初始预测值;
分别计算所述各个第一模型根据所述第三初始预测值,判定所述测试用户属于敏感类别的第一数量,以及分别计算所述各个第一模型根据所述第四初始预测值,判定所述测试用户属于敏感类别的第二数量;
根据所述第一数量以及所述第一测试数据的总数量计算第一测试率,并根据所述第二数量以及所述第二测试数据的总数量计算第二测试率;
根据所述第一测试率以及所述第二测试率,对所述各个第一模型进行评分;
将评分最高的第一模型,作为所述最优的第一模型。
在一实施例中,在所述获取训练数据之后,还包括:
获取所述训练用户的SNPs位点信息的基因分型;
根据所述基因分型,判断所述训练用户的SNPs位点之间是否存在连锁平衡关系;
若所述训练用户的SNPs位点之间存在连锁平衡关系,则去除存在连锁平衡关系的SNPs位点,根据剩余SNPs位点信息提取所述训练SNPs位点信息特征。
第二方面,本申请实施例提供了一种目标药物敏感度预测装置,包括:
第一获取模块,用于获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,所述SNPs位点信息为所述待测用户的基因中会与目标药物产生作用的位点信息;
第一提取模块,用于根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征;
预测模块,用于根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的目标药物敏感度预测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一项所述的目标药物敏感度预测方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的目标药物敏感度预测方法。
本申请实施例与现有技术相比存在的有益效果是:先通过获取待测用户全部的SNPs位点信息,而后根据数据库中会与目标药物产生作用的第一SNPs位点信息,筛选出待测用户的SNPs位点信息,进而达到尽可能的准确获取待测用户中会与目标药物产生作用的SNPs位点信息的目的,使得终端设备根据SNPs信息特征和临床因素特征,对待测用户服用目标药物时的敏感度进行预测的准确度更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的目标药物敏感度预测方法的一种实现流程示意图;
图2是本申请实施例提供的目标药物敏感度预测方法的另一种实现流程示意图;
图3是本申请实施例提供的目标药物敏感度预测方法中又一种实现流程示意图;
图4是本申请实施例提供的目标药物敏感度预测方法中的第一模型预测的结果示意图;
图5是本申请实施例提供的目标药物敏感度预测装置中的一种结构示意图;
图6是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供的目标药物敏感度预测方法可以应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
图1示出了本发明实施例提供的目标药物敏感度预测的实现流程图,详述如下:
S101、获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,所述SNPs位点信息为所述待测用户的基因中会与目标药物产生作用的位点信息。
在应用中,上述单核苷酸多态性(Single Nucleotide Polymorphism,SNPs):是指在基因组上由单个核苷酸变异形成的遗传标记,一般指变异频率大于1%的单核苷酸变异,意即在人类基因组中大概每1000个碱基就有一个SNP,是可遗传变异中最常见的一种,也是决定个体对药物敏感性的重要遗传因素。在应用中,上述SNPs位点信息为待测用户的基因中会与目标药物产生作用的位点信息,可以直接从实验数据中获得,或者从SNPs数据库中进行挖掘,例如,PharmGKB(http://www.pharmgkb.org);DrugBank(http://www.drugbank.ca),DGIidb(dgidb.org);ChEMBL(http://www.ebi.ac.uk/chembl);PACdb(http://www.pacdb.org);My Cancer Genome(http://www.mycancergenome.org)等。可以采用本领域已知的或尚在开发中的各种检测方法,例如全外显子组测序、全基因组测序、基因芯片、表达芯片数据等方法进行检测。其中,检测出的与目标药物产生作用的位点信息也可认为是全局胚系变异信息,其为相对于局部或特定范围(例如特定功能基因上)的胚系突变,全局胚系变异指携带于个体基因组中、能够以选定标准识别到所有与参照标准基因组不同的突变信息集合。
在应用中,上述临床因素信息可以根据待测用户的病例报告表(CaseReportForm)等类似材料取得,其中,临床因素信息可以是常规的生理信息,如年龄、体重指数、性别、体力状况等,或者与病情相关的信息,如肿瘤标志物、病理分期、是否患有其他疾病等。可将临床因素信息预先存储在终端设备中,而后终端设备可调用临床因素信息进行预测。在应用中,上述目标药物为针对待测用户的病情进行使用的药物,例如,可以为针对肿瘤患者的药物。
S102、根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征。
在应用,上述SNPs位点信息和临床因素信息在一般情况下会以不同取值范围或非数字的形式呈现,例如SNPs位点信息的基因分型,其以非数字的形式呈现,而为了使其SNPs位点信息特征可以被识别,可对基因分型进行编码,如为0,1,2...。临床因素信息中年龄、体重指数、体力状况等,可以以不同取值范围的数字形式进行体现,而患者的性别与病情相关的信息则以非数字的形式进行呈现。上述根据临床因素信息提取临床因素特征,可以为对于获取到的数字形式的临床因素信息进行常用归一化方法,将数据缩放到一个固定的区间,如0到1之间,将缩放后的数据作为对应的临床因素特征。而对于非数字形式的临床因素信息,例如性别:男,女,可以预先设定女性对应的性别特征为0,男性对应的性别特征为1,用于表示对应的性别特征。
S103、根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测。
在应用中,可将上述获取到的SNPs信息特征和临床因素特征同时输入到终端设备中,终端设备可通过训练好的预测模型对其进行预测,得到一个预测值,根据预测值确定待测用户服用目标药物是否会产生效果。其中,待测用户服用目标药物产生效果可以为“预测阳性”和预测阴性,其中,预测阳性则代表会产生效果,预测阴性则代表不产生效果,也可以相反,对此不作限定。若终端设备将SNPs信息特征和临床因素特征输入预测模型进行预测,得到的预测值为“0.95”,即为待测用户服用目标药物时的敏感度,其超过预设的“预测阳性”初始阈值0.9,则判定待测用户服用目标药物时会产生反应。
在本实施例中,通过获取待测用户的临床因素信息,和会与目标药物产生作用SNPs位点信息(全局胚系突变信息),根据SNPs信息特征和临床因素特征与药物敏感性的联合影响进行分析,来区分同种类型患者对于采用相同药物进行治疗是否有治疗效果,解决现有技术中只根据遗传信息进行预测的情况,提高预测待测用户对服用目标药物时的敏感度的准确度。
参照图2,在一实施例中,S101包括:
S201、获取所述待测用户的临床因素信息和初始SNPs位点信息。
在应用中,上述获取待测用户的临床因素信息与上述步骤S101一致,对此不再详细描述。上述初始SNPs位点信息为待测用户中全部基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,其包含了待测用户的基因中会与目标药物产生作用的位点信息,和待测用户的基因中会不与目标药物产生作用的位点信息。
S202、在SNPs位点数据库中获取会与所述目标药物产生作用的第一SNPs位点信息。
在应用中,上述数据库为存储SNPs位点信息的数据库,其包含了所有SNPs位点信息会与各种药物产生作用的相关位点。其数据库可以为包含SNPs位点信息的现有文献,或者公共资料库,对此不作限定。因此,可在数据库中查询到会与目标药物产生作用的SNPs位点信息,并将该SNPs位点信息作为第一SNPs位点信息。
S203、从所述初始SNPs位点信息中筛选出与所述第一SNPs位点信息相同的位点信息,作为所述待测用户的SNPs位点信息。
在应用中,SNPs位点中等位基因之间在特定的位点上DNA序列存在差异,绝大多数DNA多态性并不引起遗传病,但可作为遗传标记来使用提示相关基因存在的位置。例如,通过比较患病群体和正常群体,可以发现两组间SNPs位点的特定等位基因频率有显著差别,则表明该SNPs位点与该疾病相关联,进而可标记该SNP位点为第一SNP位点。根据第一SNPs位点在患病群体的染色体上的位置,可对应确定待测用户中的SNPs位点,进而筛选出待测用户的SNPs位点信息。
在本实施例中,先通过获取待测用户全部的SNPs位点信息(即全局胚系变异信息),而后根据数据库中会与目标药物产生作用的第一SNPs位点信息,筛选出待测用户的SNPs位点信息,进而达到尽可能的准确获取测用户中会与目标药物产生作用的SNPs位点信息的目的,使得终端设备根据SNPs信息特征和临床因素特征,对待测用户服用目标药物时的敏感度进行预测的准确度更高。
参照图3,在一实施例中,S102包括;
S301、清洗所述SNPs位点信息和所述临床因素信息,得到第二SNPs位点信息以及第一临床因素信息。
数据在一般情况下会以不同取值范围或非数字的形式呈现,所以需要对数据进行预处理,使数学模型不会受到数据范围或类型的影响。例如,对于身高其单位可以为cm或m,对应的数值大小可以为180cm或1.8m,对于年龄,若是20岁,则年龄与身高的数据类型则不一样,其数据值也相差过大,将导致终端设备进行敏感度预测时的误差也会过大。因此,需要对数据进行清洗,例如清洗其对应的单位,而后对所述SNPs位点信息和所述临床因素信息中的数据进行删除或填充丢失数据,可以为使用归一化或离散化进行数据清洗、删除或填充。常用归一化方法包括函数归一化(SNPs位点信息和临床因素信息对应的数据值映射到[0,1]之间、分维度归一化(使用SNPs位点信息和临床因素信息对应的数据值中的最大最小值)或排序归一化(将SNPs位点信息和临床因素信息对应的数据值从大到小进行排序)等。有些SNPs位点信息和临床因素信息可能因为无法采样或者没有观测值而缺失,可以使用有固定值/默认值、均值、中位数、众数、方差等方法赋予数值。
S302、根据所述第二SNPs位点信息的数据特性,对所述第二SNPs位点信息进行标准化处理,获得所述第二SNPs位点信息的SNPs信息特征。
S303、根据所述第一临床因素信息的数据特性,对所述第一临床因素信息进行标准化处理,获得所述第一临床因素信息的临床因素特征。
在应用中,数据特性可以为第二SNPs位点信息对应的数据是否具有连续性,或者非连续;同样的,数据特性可以为第一临床因素信息对应的数据是否具有连续性或者非连续性。对于连续常用的方法有Z-score(将SNPs位点信息和临床因素信息对应的数据值进行缩放使得其具有均值为0,方差为1的标准正态分布的特性)、Max-Min(将SNPs位点信息和临床因素信息对应的数据值放缩到一个固定的区间,通常是0到1之间)、MaxAbs(根据最大值的绝对值标准化SNPs位点信息和临床因素信息对应的数据值)、RobustScaler等,对此不作限定。其中,对于非连续性的SNPs位点信息和临床因素信息,则可以使用预先存储的特征将其数据化表示。例如,临床因素信息中的男性与女性,则可以将女性的性别特征对应的数据值设定为0,男性的性别特征对应的数据值设定为1,对此不作限定。
在本实施例中,通过对获取到的SNPs位点信息和临床因素信息进行数据处理,得到处理后的第二SNPs位点信息以及第一临床因素信息,并对其进行标准化处理,使第二SNPs位点信息以及第一临床因素信息中不同类型的数据可以标准化,使得终端设备在根据标准化后的数据进行敏感度预测时,其预测的误差降低。
在一实施例中,S103包括:
将所述SNPs信息特征和所述临床因素特征输入第一模型进行预测,得到所述待测用户服用所述目标药物时的敏感度。
在应用中,上述第一模型为根据已有的SNPs信息特征和临床因素特征训练得到,可以用于对待测用户服用目标药物时的敏感度进行预测。
其中,所述第一模型通过如下步骤进行训练得到:
获取训练数据,所述训练数据包括多个训练用户的训练临床因素信息和训练SNPs位点信息。
在应用中,上述训练数据为用于进行模型训练的数据,其中,每位训练用户的训练临床因素信息和训练SNPs信息即为训练数据。上述训练用户的训练临床因素信息和训练SNPs信息可以是服务器或终端设备获取的历史数据,也可以是用户输入的由用户设定的训练数据,对此不作限定。
根据所述训练SNPs位点信息提取训练SNPs信息特征,并根据所述训练临床因素信息提取训练临床因素特征。
在应用中,在获取到训练临床因素信息和SNPs位点信息后,需对选定的训练临床因素信息和SNPs位点信息均进行步骤S201-S203和步骤S301-S302处理,得到训练SNPs信息特征和训练临床因素特征。
将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值。
根据所述训练用户的药物敏感度的真实值和所述第一初始预测值,确定所述训练用户的训练损失。
在应用中,将训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,为一次正向传播过程。中间经过初始第一模型的输入层、隐藏层和输出层进行处理,得到最后的结果。在一次正向传播过程结束后,便可得到初始第一模型对训练用户服用药物敏感度的第一初始预测值。而后根据初始第一预测值与训练用户服用药物敏感度的真实值进行计算,得到当前训练用户的训练损失。其中,计算训练损失的公式可以为:A=(y′i-yi)2,其中,y'i为第i个输入的训练用户的药物敏感度的真实值,yi为的第i个输入的训练用户的第一初始预测值。其中,训练用户服用目标药物时,其真实值包括服用目标药物时会产生反应其对应的数值可设定为1,或者服用目标药物时不产生反应其对应的数值可设定为0,若第一初始预测值为0.95,其大于预设的初始阈值0.9,则初始第一模型预测训练用户服用目标药物时会产生反应,此时y′i的数值可对应为1,yi的数值对应为0.95参与训练损失计算。
根据所述训练损失迭代更新所述初始第一模型的模型参数。
在应用中,上述模型参数具体为初始第一模型中的学习参数w和偏置向量b。具体的,模型参数可根据训练损失的数值,反向求出每一层中词向量数据的学习参数对总损失值的误差影响,通过误差影响得到当前层的误差,再乘以上负的学习率,得到当前层的学习参数的误差值Δw和偏置向量的误差值Δb,则新的学习参数为w+Δw,偏置向量为b+Δb。或者,使用优化器来对模型参数进行优化,例如,使用自适应矩估计(Adam stochasticoptimizer)优化器对训练损失的输出值进行自动求导,迭代更新模型参数,对此不作限定。
若在迭代更新过程中所述训练损失收敛,则结束训练所述初始第一模型,并将当前的初始第一模型作为已训练的第一模型。
若在迭代更新过程中所述训练损失未收敛,则调整所述初始第一模型的模型参数,并返回执行所述将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值的步骤,直到所述训练损失收敛。
在应用中,上述迭代更新过程中可以根据得到的训练损失判定初始第一模型的收敛情况。具体的,当训练损失小于预先设置的数值,或经过迭代次数达到一定次数后,则可判定初始第一模型得到了收敛,之后结束训练初始第一模型,并将当前的初始第一模型作为已训练的第一模型。否则,在将训练用户的训练SNPs信息特征和训练临床因素特征,重复上述训练步骤。其中,每经历一次正向传播和反向传播即为一次迭代,每次迭代过程中反向传播训练时都会更新初始第一模型中原本的模型参数,即为迭代更新。
在本实施例中,通过初始化预测模型,将所有训练用户的训练SNPs信息特征和训练临床因素特征进行正向传播训练,得到真实值与第一初始预测值的训练损失,再根据训练损失进行反向传播训练更新预测模型,提高第一模型对训练用户服用目标药物时的敏感度的可靠性。
在一实施例中,所述已训练的第一模型包括多个;在所述将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值之后,还包括:
将所述训练SNPs信息特征和训练临床因素特征输入至多个初始第一模型进行训练,对应得到多个已训练的第一模型。
在应用中,机器学习分类器可以是适于基于计算机的机器学习的任何分类器,包括而不限于多项逻辑回归(multinomial logistic regression)、朴素贝叶斯(
Figure BDA0002489772840000131
Bayes)、随机森林(random forest)、神经网络(neural netweok)、支持向量机(supportvector machine)、随机梯度增强(gradient boosting machine)和随机蕨分类器(randomferns)等自动化机器学算法习执行二元分类,因此,可以对应建立多个初始第一模型进行模型训练,得到多个已训练的第一模型。
获取测试数据,所述测试数据包括测试用户的测试SNPs信息特征和测试临床因素特征。
在应用中,患者的SNPs位点信息和临床因素信息可以分成训练数据和测试数据,可设定其比例为1:2-1:4之间,而倘若使用验证数据,可以拆分成训练数据:验证数据:测试数据等于6:2:2的比例。另外,还可以对每个训练数据、验证数据、测试数据使用分层抽样,从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法,以保证训练集和测试集中样本标签结构比例与指定的总体中样本标签结构比例一致,使得训练数据和测试数据的代表性好,产生的抽样误差比较小。
将所述测试数据分别输入至所有所述已训练的第一模型中,对应获得基于各个已训练第一模型进行预测后的第二初始预测值。
根据所述第二初始预测值,在多个已训练第一模型中确定最优的第一模型。
在应用中,上述测试数据用于评估各个第一模型的泛化能力,但不迭代更新模型参数。示例性的,若通过上述不同维度或不同数据的训练数据进行训练之后得到第一模型具有三个,如A模型、B模型、C模型,上述测试数据包括10位患者的测试SNPs位点信息和测试临床因素信息,上述测试数据分别输入至A模型中,得到A模型预测后的10个第二初始预测值,即可根据10个第二初始预测值分别预测10位患者是否对该目标药物产生反应,并计算预测对的数量占总数量的比例,依此可获得B模型、C模型对应的预测对的数量占总数量的比例,进而可将预测准确率更高的第一模型作为最优的第一模型。
在本实施例中,通过同时训练多个第一模型,并根据测试数据在多个第一模型中挑选出最优的第一模型,进一步提高第一模型训练的可靠性。
在一实施例中,所述测试数据包括多组;所述根据所述第二初始预测值,在多个已训练第一模型中确定最优的第一模型,包括:
获取所述测试用户中属于敏感类别的第一测试数据,以及所述测试用户中属于非敏感类别的第二测试数据。
在应用中,测试数据包括属于敏感类别的测试用户信息和属于非敏感类别的测试用户信息,其中,敏感类别即为该测试用户服用目标药物时会产生反应,即可认为是真实阳性,非敏感类别即为该测试用户服用目标药物时不会产生反应,即可认为是真实阴性。
获取各个第一模型根据所述第一测试数据得到的第三初始预测值,以及获取各个第一模型根据所述第二测试数据得到的第四初始预测值,
在应用中,将测试数据分别输入到各个第一模型后,每个第一模型均会根据测试数据预测出一个初始预测值,可将每个第一模型根据第一测试数据(即真实阳性的数据)预测得到数值作为第三初始预测值,将每个第一模型根据第二测试数据(即真实阴性的数据)预测得到数值作为第四初始预测值。
分别计算所述各个第一模型根据所述第三初始预测值,判定所述测试用户属于敏感类别的第一数量,以及分别计算所述各个第一模型根据所述第四初始预测值,判定所述测试用户属于敏感类别的第二数量。
在应用中,对于第三初始预测值和第四初始阈值,可设定初始阈值用于对该测试用户服用目标药物时的敏感类别进行分类。例如,第三初始预测值和第四初始阈值大于预设的初始阈值,则认为对应的测试用户服用目标药物时属于敏感类别(即预测阳性),否则属于判定非敏感类别(预测阴性)。对应的,可知道各个第一模型根据第一测试数据(即真实阳性的数据)预测出的属于敏感类别(即预测阳性)的第一数量,和各个第一模型根据第二测试数据(即真实阴性的数据)预测出的属于敏感类别(即预测阳性)的第二数量。
根据所述第一数量以及所述第一测试数据的总数量计算第一测试率,并根据所述第二数量以及所述第二测试数据的总数量计算第二测试率。
在应用中,根据各个第一模型的预测值对应预测类别,会有以下四种情形:真实阳性预测为阳性,是为真阳性(true positive,TP);真实阳性预测为阴性,为假阴性(falsenegative,FN);真实阴性预测为阴性,此为真阴性(true negative,TN);真实阴性预测为阳性,此为假阳性(false positive,FP)。这些数值可以得到一个如下表1的混淆矩阵:
表1:
预测阳性 预测阴性
真实阳性 真阳性,TP 假阴性,FN
真实阴性 假阳性,FP 真阴性,TN
则有:假阳性率
Figure BDA0002489772840000161
真阳性率
Figure BDA0002489772840000162
其中,FP+TN为测试数据中,第二测试数据的总数量,TP+FN为测试数据中,第一测试数据的总数量。
根据所述第一测试率以及所述第二测试率,对所述各个第一模型进行评分;
将评分最高的第一模型,作为所述最优的第一模型。
在应用中,当各个第一模型对每组测试数据给出预测值后,随着判定为阳性与阴性的初始阈值移动(较低的初始阈值会导致较高的假阳性率),可以得到不同的FPR/TPR数值,将这些数值绘制出来,即为ROC图,而AUC则为ROC曲线下面积。其中,以度量指标AUC(area under the curve of ROC,即ROC曲线下面积)值最优为目标,ROC(receiveroperating characteristic curve,受试者工作特征)是以假阳性率(FPR,false positiverate)为X轴,真阳性率(TPR,true positive rate)为Y轴所构成的二维坐标平面,可以用来评估分类模型的效能。AUC数值一般在0.5-1之间,数值越大,第一模型的效果越好;AUC=1表示模型预测为100%准确,AUC=0.5表示模型效果等同随机猜测,AUC<0.5则表示比随机猜测还差,可根据AUC值确定最优的第一模型。其中,机器学习的任务是从一组X类别数据预测出Y类别数据,即求概率P(Y|X)。对于二分类任务来说,实际得到一个打分(概率),当概率大于阈值时则为正类(属于敏感类别),否则为反类(属于非敏感类别)。而设定的不同的初始阈值会影响得到的真阳性率和假阳性率。假阳性率是所有真实类别为非敏感类别的样本中,预测类别为敏感类别的比例。分类阈值一般取0.5,但阈值取决于具体问题,因此必须对其进行调整。在选择阈值时,需要评估将因犯错而承担多大的后果。例如,将非垃圾邮件误标记为垃圾邮件会非常糟糕,将垃圾邮件误标记为非垃圾邮件后果没有那么严重。对应的,将非敏感类别误标记为敏感类别,将会导致患者长期服用没有任何效果的药物,增加了医疗负担,或者将敏感类别误标记为非敏感类别,可能会导致患者错过最佳药物的治疗。因此,由不同阈值算出真阳性率和假阳性率后,需根据对不同错误的忍耐程度选定一个阈值,根据阈值对各个第一模型计算出的真阳性率、假阳性率进行评分,进而挑选出最优的第一模型,对此不作限定。
在其他应用中,在得出第一模型后,通过交叉验证(cross validation)如留出法(hold-out)、留一法(leave-one-out)或K折交叉验证(K-fold cross validation)等方法可再次训练第一模型得到最优参数。交叉验证通过多次划分,可以大大降低随机划分带来的偶然性,同时通过多次划分与训练,模型的泛化能力也可以获得提高。例如,采用独立的验证数据进预测,报告AUC值、真阳性率和假阳性率,在AUC值、真阳性率和假阳性率满足各自对应的阈值的标准进行评分,在评分满足要求时才认为第一模型的模型效果理想,即建模完成,否则认为第一模型的模型效果不理想时,返回重新训练多个第一模型及选取最优的第一模型的步骤。或者,AUC值、真阳性率和假阳性率均满足各自对应的阈值的标准,也可认为第一模型的模型效果理想,对此不作限定。
在本实施例中,通过根据第一数量以及第一测试数据的总数量计算第一测试率,和根据第二数量以及第二测试数据的总数量计算第二测试率,来对各个第一模型进行评分,选取多个判断模型效果的标准值进行判定,从而更合理的对各个第一模型进行评分,进而挑选出最优的第一模型。
在一实施例中,在所述获取训练数据之后,还包括:
获取所述训练用户的SNPs位点信息的基因分型。
根据所述基因分型,判断所述训练用户的SNPs位点之间是否存在连锁平衡关系。
若所述训练用户的SNPs位点之间存在连锁平衡关系,则去除存在连锁平衡关系的SNPs位点,根据剩余SNPs位点信息提取所述训练SNPs位点信息特征。
在应用中,在一定条件下,群体的基因频率和基因型频率在一代代繁殖传代中会保持不变。这里的一定条件是指:(1)种群无限大(2)种群中个体随机交配(3)没有突变发生(4)没有新基因加入(5)没有自然选择。然而现实世界总会存在一个或以上的干扰因素(例如重组或突变等),使得SNPs位点之间出现连锁不平衡(linkage disequilibrium,LD),又称等位基因关联(allelic association),也就是指同一条染色体上的两个等位基因同时存在的概率大于随机分布时同时出现的概率,意即是非随机相关的。当选定一组SNPs位点作为训练数据时,这些位点可能存在连锁不平衡,所以确认是否存在这样的冗余位点,对后续第一模型的训练与应用(例如设计特定方案做高通量检测等)会更经济有效。然而连锁不平行的计算受样本数量大小影响,如果数量偏少(<100)使得某个位点的等位基因频率很低,会导致计算偏差很大,因此,在训练数据的数据量适当时,可执行连锁不平衡分析。分析连锁不平衡常用软件有PLINK,Arlequin,Haploview,SHEsis,PopLDdecay等,或者也可以使用各程式语言中建立的模块来计算。
在应用中,连锁不平衡的基本单位是D,用来度量实际观察到的频率与平衡状态下期望频率的偏差:DAB=P(AB)-P(A)P(B),其中,A、B为2个不同的位点,他们的等位基因分别为A、a、B、b。所以有4种组合方式,AB,Ab,aB,ab;P(AB)表示观察到AB型的频率,P(A)和P(B)分别表示观察到带有A和B的频率。DAB=0表示位点A和B是连锁平衡,DAB≠0表示位点A和B存在一定程度的连锁不平衡。除了D值,实际度量连锁不平衡更常用的是对D做归一化后的系数D'和r2。当D<0,Dmax=min{P(A)P(B),P(a)P(b)},当D>0,则Dmax=min{P(A)P(b),P(a)P(B)};D'=D/Dmax。D'=1时为完全连锁不平衡,亦即两个位点没有发生重组;D'=0表示完全连锁平衡,也就是所有基因型出现的频率相等;0<D'<1则说明发生过重组或突变,但判断连锁不平衡的意义模糊。r2的计算方式是
Figure BDA0002489772840000181
r2=1说明完全连锁不平衡,也就是观察到A位点就可以知道B位点信息;r2=0和D'=0意义相同,是完全连锁平衡,则去除存在连锁平衡关系的SNPs位点,根据剩余SNPs位点信息提取训练SNPs位点信息特征;r2>0.3则表示为强连锁不平衡。
在本实施例中,通过对用于训练的SNPs位点做连锁不平衡分析,去除存在连锁平衡关系的冗余SNPs位点,使得根据剩余SNPs位点进行模型训练得到的第一模型的泛化能力更好,不会局限于等位基因中的SNPs位点进行预测。
在一具体实施例中,预测肝细胞癌患者对化疗组合药物FOLFOX的敏感性的步骤如下;
步骤1,准备原始数据:收集、存储数据(SNPs位点信息以及临床因素信息);
a.在SNPs位点数据库中获取会与药物FOLFOX产生作用的第一SNPs位点信息:
FOLFOX是由叶酸(FOLinic acid)、氟尿嘧啶(Fluorouracil)和奥沙利铂(OXaliplatin)三种药物组成,其中叶酸是氟尿嘧啶的增效剂,联合使用可提高氟尿嘧啶的疗效;氟尿嘧啶是尿嘧啶的同类物,尿嘧啶是核糖核酸的一个组分,氟尿嘧啶主要通过阻断脱氧核糖尿苷酸转化为胸苷酸,而干扰DNA的合成;奥沙利铂是第三代铂类抗癌药,它的铂原子与DNA链形成交联,从而阻断其复制和转录。因此从PharmKGB等公开资料库分别检索并下载与氟脲嘧啶、奥沙利铂以及铂类化合物相关的基因。
b.肝细胞癌患者信息收集:
从2016年至2019年在中山大学肿瘤防治中心生物收集了102例符合以下纳入和排除标准的患者样本(外周血)和病理报告。
纳入标准:
年龄18岁-75岁;经病理确诊的肝细胞癌;或符合肝细胞癌的临床影像诊断;至少有一个可测量病灶(根据RECIST 1.1);预计生存期≥4周;ECOG体力状态评分0-2;肝功能Child-Pugh分级A或B;白细胞数≥3.0x109/L;血小板计数≥50x109/L;谷丙转氨酶(ALT)和谷草转氨酶(AST)均≤正常上限值的5倍;血清肌酐≤正常上限值的1.5倍;若有高血压,血压可控;若有糖尿病,血糖可控;无碘过敏;若曾接受过非FOLFOX治疗,需在施用FOLFOX之前,停止4周以上;接受FOLFOX治疗;了解病情并自愿签署知情同意书。
排除以下任意情况的患者:
患者曾服用奥沙利铂或氟尿嘧啶;肝移植患者;孕妇或哺乳期妇女;无法控制的腹水;食管胃底静脉曲张导致消化道出血;严重的肝脑病或肾脏疾病而无法进行手术;严重的心脏疾病,如冠状动脉疾病、需接受治疗的心律失常等;在原发部位有已确诊的其他恶性肿瘤;任何不稳定的状况,或可能危及患者安全与其顺应性的情况;
患者外周血样本(约8ml)用streck采血管采集后,寄送至测序公司,进行核酸提取、建库与全外显子测序。使用Burrows-Wheeler Aligner软件先将样本数据与人类标准基因组图谱(UCSC hg19)进行比对,再利用Genome Analysis Toolkit(GATK)软件中的HaplotypeCaller做SNP calling,得到患者的SNP位点数据,再提取出PharmGKB和患者样本中重叠的SNP位点。接着检视患者的病例报告表,提取出数据完整的特征如下:性别、年龄、是否带有乙肝、甲胎蛋白量、体力指数、肝功能分期、肝细胞癌分期等。最终66例患者有完整的数据,可以进行后续分析。
步骤2,对原始数据进行数据预处理,提取第二SNPs位点信息的SNPs信息特征和第一临床因素信息的临床因素特征;
标准化SNP位点信息和临床因素信息如年龄、甲胎蛋白量、体力评分、肝功能指数、肝细胞癌分期。
步骤3,连锁不平衡分析:
本实施例因为样本数据量少,故未进行连锁不平衡分析。
步骤4,将CR(complete response,完全缓解)及PR(partial response,比分缓解)的患者定义为敏感类别,PD(progressive disease,疾病进展)及SD(stable disease,疾病稳定)的患者定义为非敏感类别。按25%和75%比例,分层抽样将数据分成训练集和测试集。
步骤5,使用机器学习算法多项逻辑回归、朴素贝叶斯和随机森林等自动化机器学习执行二元分类,训练第一模型,以度量指标ROC值最优为目标,并且通过10折交叉验证第一模型得到最优参数。
步骤6,模型验证,使用步骤5得到的最优第一模型,对独立的验证数据集进预测,其结果为:度量指标(Area Under The Curve)AUC值为0.85、真阳性率(True positiverate)为0.6517和假阳性率(False positive rate)为0.729,具体结果如图4所示。
步骤7,得分与判定;
而后根据最优的第一模型,利用输入临床因素信息(体力评分、肝功能指数和肿瘤分期系统)和31个SNPs位点信息,判定肝细胞癌患者是否对FOLFOX敏感。
如图5所示,本实施例还提供一种目标药物敏感度预测装置100,包括:
第一获取模块10,用于获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,所述SNPs位点信息为所述待测用户的基因中会与目标药物产生作用的位点信息。
第一提取模块20,用于根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征。
预测模块30,用于根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测。
在一实施例中,第一获取模块10还用于:
获取所述待测用户的临床因素信息和初始SNPs位点信息;
在SNPs位点数据库中获取会与所述目标药物产生作用的第一SNPs位点信息;
从所述初始SNPs位点信息中筛选出与所述第一SNPs位点信息相同的位点信息,作为所述待测用户的SNPs位点信息。
在一实施例中,第一提取模块20还用于:
清洗所述SNPs位点信息和所述临床因素信息,得到第二SNPs位点信息以及第一临床因素信息;
根据所述第二SNPs位点信息的数据特性,对所述第二SNPs位点信息进行标准化处理,获得所述第二SNPs位点信息的SNPs信息特征;
根据所述第一临床因素信息的数据特性,对所述第一临床因素信息进行标准化处理,获得所述第一临床因素信息的临床因素特征。
在一实施例中,预测模块30还用于:
将所述SNPs信息特征和所述临床因素特征输入第一模型进行预测,得到所述待测用户服用所述目标药物时的敏感度。
其中,目标药物敏感度预测装置100还包括以下模块用于训练第一模型:
第二获取模块,用于获取训练数据,所述训练数据包括多个训练用户的训练临床因素信息和训练SNPs位点信息。
第二提取模块,用于根据所述训练SNPs位点信息提取训练SNPs信息特征,并根据所述训练临床因素信息提取训练临床因素特征。
第一输入模块,用于将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值。
第一确定模块,用于根据所述训练用户的药物敏感度的真实值和所述第一初始预测值,确定所述训练用户的训练损失。
更新模块,用于根据所述训练损失迭代更新所述初始第一模型的模型参数。
结束模块,用于若在迭代更新过程中所述训练损失收敛,则结束训练所述初始第一模型,并将当前的初始第一模型作为已训练的第一模型。
迭代模块,用于若在迭代更新过程中所述训练损失未收敛,则调整所述初始第一模型的模型参数,并返回执行所述将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值的步骤,直到所述训练损失收敛。
在一实施例中,所述已训练的第一模型包括多个;目标药物敏感度预测装置100还包括:
第二输入模块,用于将所述训练SNPs信息特征和训练临床因素特征输入至多个初始第一模型进行训练,对应得到多个已训练的第一模型。
第三获取模块,用于获取测试数据,所述测试数据包括测试用户的测试SNPs信息特征和测试临床因素特征。
第三输入模块,用于将所述测试数据分别输入至所有所述已训练的第一模型中,对应获得基于各个已训练第一模型进行预测后的第二初始预测值。
第二确定模块,用于根据所述第二初始预测值,在多个已训练第一模型中确定最优的第一模型。
在一实施例中,所述测试数据包括多组;第二确定模块还用于:
获取所述测试用户中属于敏感类别的第一测试数据,以及所述测试用户中属于非敏感类别的第二测试数据;
获取各个第一模型根据所述第一测试数据得到的第三初始预测值,以及获取各个第一模型根据所述第二测试数据得到的第四初始预测值;
分别计算所述各个第一模型根据所述第三初始预测值,判定所述测试用户属于敏感类别的第一数量,以及分别计算所述各个第一模型根据所述第四初始预测值,判定所述测试用户属于敏感类别的第二数量;
根据所述第一数量以及所述第一测试数据的总数量计算第一测试率,并根据所述第二数量以及所述第二测试数据的总数量计算第二测试率;
根据所述第一测试率以及所述第二测试率,对所述各个第一模型进行评分;
将评分最高的第一模型,作为所述最优的第一模型。
在一实施例中,目标药物敏感度预测装置100还包括:
第四获取模块,用于获取所述训练用户的SNPs位点信息的基因分型。
判断模块,用于根据所述基因分型,判断所述训练用户的SNPs位点之间是否存在连锁平衡关系。
去除模块,用于若所述训练用户的SNPs位点之间存在连锁平衡关系,则去除存在连锁平衡关系的SNPs位点,根据剩余SNPs位点信息提取所述训练SNPs位点信息特征。
本申请实施例还提供了一种终端设备,该终端设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时可实现上述各个方法实施例中的步骤。
图6是本申请一实施例提供的终端设备60的示意图。如图6所示,该实施例的终端设备60包括:处理器603、存储器601以及存储在所述存储器601中并可在所述处理器603上运行的计算机程序602。所述处理器603执行所述计算机程序602时实现上述各个方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,所述处理器603执行所述计算机程序602时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序602可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器601中,并由所述处理器603执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序602在所述终端设备60中的执行过程。例如,所述计算机程序602可以被分割成第一获取模块、第一提取模块和预测模块,各模块具体功能如下:
第一获取模块,用于获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,所述SNPs位点信息为所述待测用户的基因中会与目标药物产生作用的位点信息。
第一提取模块,用于根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征。
预测模块,用于根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测。
所述终端设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器603、存储器601。本领域技术人员可以理解,图6仅仅是终端设备60的示例,并不构成对终端设备60的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器603可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器601可以是所述终端设备60的内部存储单元,例如终端设备80的硬盘或内存。所述存储器801也可以是所述终端设备60的外部存储设备,例如所述终端设备60上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。在一个实施例中,所述存储器601还可以既包括所述终端设备60的内部存储单元也包括外部存储设备。所述存储器601用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器601还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种目标药物敏感度预测方法,其特征在于,包括:
获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,所述SNPs位点信息为所述待测用户的基因中会与目标药物产生作用的位点信息;
根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征;
根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测。
2.如权利要求1所述的目标药物敏感度预测方法,其特征在于,所述获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,包括:
获取所述待测用户的临床因素信息和初始SNPs位点信息;
在SNPs位点数据库中获取会与所述目标药物产生作用的第一SNPs位点信息;
从所述初始SNPs位点信息中筛选出与所述第一SNPs位点信息相同的位点信息,作为所述待测用户的SNPs位点信息。
3.如权利要求1所述的目标药物敏感度预测方法,其特征在于,所述根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征,包括:
清洗所述SNPs位点信息和所述临床因素信息,得到第二SNPs位点信息以及第一临床因素信息;
根据所述第二SNPs位点信息的数据特性,对所述第二SNPs位点信息进行标准化处理,获得所述第二SNPs位点信息的SNPs信息特征;
根据所述第一临床因素信息的数据特性,对所述第一临床因素信息进行标准化处理,获得所述第一临床因素信息的临床因素特征。
4.如权利要求1所述的目标药物敏感度预测方法,所述根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测,包括:
将所述SNPs信息特征和所述临床因素特征输入第一模型进行预测,得到所述待测用户服用所述目标药物时的敏感度;
其中,所述第一模型通过如下步骤进行训练得到:
获取训练数据,所述训练数据包括多个训练用户的训练临床因素信息和训练SNPs位点信息;
根据所述训练SNPs位点信息提取训练SNPs信息特征,并根据所述训练临床因素信息提取训练临床因素特征;
将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值;
根据所述训练用户的药物敏感度的真实值和所述第一初始预测值,确定所述训练用户的训练损失;
根据所述训练损失迭代更新所述初始第一模型的模型参数;
若在迭代更新过程中所述训练损失收敛,则结束训练所述初始第一模型,并将当前的初始第一模型作为已训练的第一模型;
若在迭代更新过程中所述训练损失未收敛,则调整所述初始第一模型的模型参数,并返回执行所述将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值的步骤,直到所述训练损失收敛。
5.如权利要求4所述的目标药物敏感度预测方法,所述已训练的第一模型包括多个;在所述将所述训练SNPs信息特征和训练临床因素特征输入至初始第一模型进行训练,得到所述训练用户的药物敏感度的第一初始预测值之后,还包括:
将所述训练SNPs信息特征和训练临床因素特征输入至多个初始第一模型进行训练,对应得到多个已训练的第一模型;
获取测试数据,所述测试数据包括测试用户的测试SNPs信息特征和测试临床因素特征;
将所述测试数据分别输入至所有所述已训练的第一模型中,对应获得基于各个已训练第一模型进行预测后的第二初始预测值;
根据所述第二初始预测值,在多个已训练第一模型中确定最优的第一模型。
6.如权利要求5所述的目标药物敏感度预测方法,所述测试数据包括多组;所述根据所述第二初始预测值,在多个已训练第一模型中确定最优的第一模型,包括:
获取所述测试用户中属于敏感类别的第一测试数据,以及所述测试用户中属于非敏感类别的第二测试数据;
获取各个第一模型根据所述第一测试数据得到的第三初始预测值,以及获取各个第一模型根据所述第二测试数据得到的第四初始预测值;
分别计算所述各个第一模型根据所述第三初始预测值,判定所述测试用户属于敏感类别的第一数量,以及分别计算所述各个第一模型根据所述第四初始预测值,判定所述测试用户属于敏感类别的第二数量;
根据所述第一数量以及所述第一测试数据的总数量计算第一测试率,并根据所述第二数量以及所述第二测试数据的总数量计算第二测试率;
根据所述第一测试率以及所述第二测试率,对所述各个第一模型进行评分;
将评分最高的第一模型,作为所述最优的第一模型。
7.如权利要求4所述的目标药物敏感度预测方法,其特征在于,在所述获取训练数据之后,还包括:
获取所述训练用户的SNPs位点信息的基因分型;
根据所述基因分型,判断所述训练用户的SNPs位点之间是否存在连锁平衡关系;
若所述训练用户的SNPs位点之间存在连锁平衡关系,则去除存在连锁平衡关系的SNPs位点,根据剩余SNPs位点信息提取所述训练SNPs位点信息特征。
8.一种目标药物敏感度预测装置,其特征在于,包括:
第一获取模块,用于获取待测用户的临床因素信息和单核苷酸多态性SNPs位点信息,所述SNPs位点信息为所述待测用户的基因中会与目标药物产生作用的位点信息;
第一提取模块,用于根据所述SNPs位点信息提取SNPs信息特征,并根据所述临床因素信息提取临床因素特征;
预测模块,用于根据所述SNPs信息特征和所述临床因素特征,对所述待测用户服用所述目标药物时的敏感度进行预测。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202010401840.4A 2020-05-13 2020-05-13 目标药物敏感度预测方法、装置、终端设备及存储介质 Pending CN111724911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010401840.4A CN111724911A (zh) 2020-05-13 2020-05-13 目标药物敏感度预测方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401840.4A CN111724911A (zh) 2020-05-13 2020-05-13 目标药物敏感度预测方法、装置、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN111724911A true CN111724911A (zh) 2020-09-29

Family

ID=72565687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401840.4A Pending CN111724911A (zh) 2020-05-13 2020-05-13 目标药物敏感度预测方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN111724911A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112043408A (zh) * 2020-09-30 2020-12-08 苏州市立医院 一种提高骨科术后康复速度的方法和装置
CN112768089A (zh) * 2021-04-09 2021-05-07 至本医疗科技(上海)有限公司 用于预测药物敏感状态的方法、设备和存储介质
CN117711487A (zh) * 2024-02-05 2024-03-15 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质
CN117711487B (zh) * 2024-02-05 2024-05-17 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1764837A (zh) * 2003-03-24 2006-04-26 魏念之 从一群患者的生物学图谱中取样预测一个个体临床治疗结果的方法
CN107341366A (zh) * 2017-07-19 2017-11-10 西安交通大学 一种利用机器学习预测复杂疾病易感位点的方法
US20180226153A1 (en) * 2015-09-30 2018-08-09 Inform Genomics, Inc. Systems and Methods for Predicting Treatment-Regimen-Related Outcomes
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1764837A (zh) * 2003-03-24 2006-04-26 魏念之 从一群患者的生物学图谱中取样预测一个个体临床治疗结果的方法
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
US20180226153A1 (en) * 2015-09-30 2018-08-09 Inform Genomics, Inc. Systems and Methods for Predicting Treatment-Regimen-Related Outcomes
CN107341366A (zh) * 2017-07-19 2017-11-10 西安交通大学 一种利用机器学习预测复杂疾病易感位点的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈云霁等: "《临床生物样本库的探索与实践》", 上海交通大学出版社, pages: 217 - 220 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112043408A (zh) * 2020-09-30 2020-12-08 苏州市立医院 一种提高骨科术后康复速度的方法和装置
CN112768089A (zh) * 2021-04-09 2021-05-07 至本医疗科技(上海)有限公司 用于预测药物敏感状态的方法、设备和存储介质
CN117711487A (zh) * 2024-02-05 2024-03-15 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质
CN117711487B (zh) * 2024-02-05 2024-05-17 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质

Similar Documents

Publication Publication Date Title
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
Carmi et al. Sequencing an Ashkenazi reference panel supports population-targeted personal genomics and illuminates Jewish and European origins
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
Li et al. Machine learning for lung cancer diagnosis, treatment, and prognosis
US20140229495A1 (en) Method for processing genomic data
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
JP2021503922A (ja) ターゲットシーケンシングのためのモデル
KR20180116309A (ko) 비정상적인 핵형을 검출하기 위한 방법 및 시스템
JP7041614B2 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
WO2022087478A1 (en) Machine learning platform for generating risk models
Zhang et al. EnsembleCNV: an ensemble machine learning algorithm to identify and genotype copy number variation using SNP array data
CN113056563A (zh) 识别血液中基因异常的方法及系统
CN111724911A (zh) 目标药物敏感度预测方法、装置、终端设备及存储介质
Xiao et al. An accurate and powerful method for copy number variation detection
Jiang et al. Recent developments in statistical methods for GWAS and high-throughput sequencing association studies of complex traits
Sehgal et al. Ameliorative missing value imputation for robust biological knowledge inference
EP4193364A1 (en) A method for determining the pathogenicity/benignity of a genomic variant in connection with a given disease
CN106503489A (zh) 心血管系统对应的基因的突变位点的获取方法及装置
Ahmad et al. A review of genetic variant databases and machine learning tools for predicting the pathogenicity of breast cancer
Geng Genome-wide association study of colorectal cancer using evolutionary computing
WO2018210877A1 (en) Method for analysing cell-free nucleic acids
Çelik et al. ROHMM—A flexible hidden Markov model framework to detect runs of homozygosity from genotyping data
Esterhuysen Development of a simple artificial intelligence method to accurately subtype breast cancers based on gene expression barcodes
Woodcock et al. Genomic evolution shapes prostate cancer disease type
Jahangiri Predicting Neuroblastoma Patient Risk Groups, Outcomes, and Treatment Response Using Machine Learning Methods: A Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929