CN108182346A

CN108182346A - 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用

Info

Publication number: CN108182346A
Application number: CN201611121663.4A
Authority: CN
Inventors: 蔡金露; 钟南; 张庆勇; 金盈
Original assignee: Hangzhou Kang Wanda Medical Technology Co Ltd
Current assignee: Hangzhou Kang Wanda Medical Technology Co Ltd
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2018-06-19
Anticipated expiration: 2036-12-08
Also published as: CN108182346B; US20200020420A1; WO2018103684A1

Abstract

提供了预测siRNA对某类细胞的毒性的机器学习模型的建立方法及应用。该方法包括A)提供n条19‑29bp的siRNA，n≥2；B)获得每条siRNA用于建立该模型的输入值和输出值；输入值如此得到：i)将siRNA与基因组mRNA比对，选择互补且错配碱基数小于等于7的脱靶基因；ii)根据互补区中错配碱基特征及mRNA二级结构，得到脱靶权重；iii)用数据库得到脱靶基因的组学权重；iv)基于所有脱靶基因的组学权重和脱靶权重，计算组学特征值作为输入值；输出值如此得到：用siRNA进行细胞实验，获得siRNA下的细胞生存指数作为输出值；C)将n条siRNA的输入值和输出值通过机器学习算法进行计算。

Description

预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用

技术领域

本发明属于生物技术领域，具体涉及一种预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用、计算机可读介质、使用该模型的装置和方法。

背景技术

核酸干扰(RNA inference，RNAi)技术是近十年来生物医学领域的重大突破。RNAi是指一种分子生物学上由双链RNA诱发的基因沉默现象。当细胞中导入与内源性mRNA编码区同源的双链RNA时，该mRNA发生降解或者翻译被抑制而导致基因表达沉默。RNAi技术可以关闭特定基因的表达，是一种快速、有效的抑制基因表达的工具，已被广泛用于病毒性疾病(主要是艾滋病和肝炎)及恶性肿瘤的基因治疗领域。一方面，RNAi是基因功能检验的试金石，利用RNAi技术可以大幅度缩短人类对基因功能的认知的时间；另一方面，可以利用RNAi技术研发抑制致病基因的新型药物，即小干扰核酸(small inference RNA，siRNA)药物。RNAi可以有效地沉默目的基因的表达，并降低相关蛋白水平从而放大抑制效果，相比传统小分子或抗体药物的抑制蛋白活性的作用途径效果更加彻底。

siRNA作用核心机制为核苷酸互补配对原理，因此不可避免地会产生脱靶效应。在siRNA作用过程中存在非特异性，可能与其它非目的基因互作而非特异地阻断基因的表达，进而产生预期外的毒副作用。现有技术中通常在设计得到siRNA后，进行简单的同源性比对来避免所设计的siRNA的严重脱靶效应。例如，当siRNA用作人用抗病毒候选药物时，如果候选的siRNA的序列和人类基因的序列基本匹配，即只有1-2个碱基错配，这个候选的siRNA则不再被考虑。但是事实上，当候选的siRNA的序列和人类基因的序列有3个或者3个以上碱基错配时，这个siRNA还是可能对相应的人类基因有一定的干扰效果，可以减少/抑制相应的蛋白的合成，导致细胞毒性的产生。目前，在实际操作中，针对siRNA的细胞毒性，往往都是通过大量的生物实验进行体外筛选。在病毒感染性疾病应急药物研发时，不能解决如何快速提供安全有效的药物的问题。

发明内容

为解决上述现有技术中所存在的问题，本发明提供了预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用、计算机可读介质、使用该模型的装置和方法。

具体而言，本发明提供了：

(1)一种建立用于预测siRNA针对某类细胞的毒性的机器学习模型的方法，包括以下步骤：

A)提供n条siRNA，其中n≥2，并且其中所述siRNA的长度为19-29bp；

B)由所述每条siRNA分别独立地获得用于建立机器学习模型的输入值和输出值；

其中，所述n条siRNA中的任一条siRNA的输入值是这样得到的：

i)将该条siRNA的序列与基因组mRNA的序列分别进行比对，选择出位于基因组mRNA中的一个或多个脱靶基因，该脱靶基因为基因组mRNA中能与该条siRNA互补且错配碱基数小于或等于7的基因；

ii)各自独立地就每个所选脱靶基因mRNA与该条siRNA序列的互补区，根据错配碱基的特征以及该脱靶基因mRNA序列的二级结构特征，得到该脱靶基因的脱靶权重；

iii)独立于ii)且与ii)不按序地，利用生物信息学数据库对每个所选脱靶基因进行组学注释，得到该脱靶基因的组学权重，该组学权重包括该脱靶基因的蛋白质互作权重、信号通路权重和核心基因权重中的至少一者；

iv)基于所有所选的脱靶基因的各个组学权重和脱靶权重，计算得到各个组学的特征值，将该特征值作为所述输入值；

并且，该条siRNA的输出值是这样得到的：

利用该条siRNA对该类细胞进行实验，以获得该条siRNA存在下的细胞生存指数，将所述细胞生存指数作为输出值；

C)将所述n条siRNA的所述输入值和所述输出值全部通过机器学习算法进行计算，从而建立机器学习模型。

(2)根据(1)所述的方法，其中所述错配碱基的特征包括错配碱基的数目，任选包括错配碱基的位置。

(3)根据(1)或(2)所述的方法，其中所述脱靶基因mRNA序列的二级结构特征为，就所述互补区该mRNA自身不形成二级结构的概率。

(4)根据(3)所述的方法，其中对于每个所选脱靶基因，根据所述错配碱基的特征计算该条siRNA对该脱靶基因mRNA的表达量的干扰率，并且计算该干扰率与所述不形成二级结构的概率的乘积，从而得到该脱靶基因的脱靶权重。

(5)根据(3)所述的方法，其中利用选自以下的软件预测每个脱靶基因mRNA的所述不形成二级结构的概率：RNAPLFOLD、mfold或RNAstructure。

(6)根据(1)所述的方法，其中所述组学的特征值包括蛋白质组特征值、信号通路组特征值和核心基因组特征值中的至少一者，并且所述蛋白质组特征值、所述信号通路组特征值和所述核心基因组特征值分别各自按照以下a)至c)计算：

a)计算每个所选脱靶基因的脱靶权重与其蛋白质互作权重的乘积a’，然后计算所有所选脱靶基因各自得到的所述乘积a’的总和，得到蛋白质组特征值；

b)计算每个所选脱靶基因的脱靶权重与其信号通路权重的乘积b’，然后计算所有所选脱靶基因各自得到的所述乘积b’的总和，得到信号通路组特征值；

c)计算每个所选脱靶基因的脱靶权重与其核心基因权重的乘积c’，然后计算所有所选脱靶基因各自得到的所述乘积c’的总和，得到核心基因组特征值。

(7)根据(1)所述的方法，其中在建立所述机器学习模型之前，对所述输入值进行标准化处理。

(8)根据(1)所述的方法，其中所述机器学习算法包括：支持向量机、人工神经网络、决策树或回归模型。

(9)根据(1)所述的方法，其中在步骤i)中，所选择的脱靶基因不包括这样的脱靶基因：其mRNA与所述siRNA序列的互补区仅位于其5’UTR。

(10)根据(1)所述的方法，其中在步骤i)中，所选择的脱靶基因不包括在正常状态下的所述某类细胞中不表达的基因。

(11)根据(1)-(10)中任一项所述的方法在预测siRNA针对某类细胞的毒性中的应用。

(12)一种计算机可读介质，该计算机可读介质能够用于根据(1)-(10)中任一项所述的方法建立所述机器学习模型，并且该计算机可读介质包括以下模块：

序列比对模块，用于执行(1)-(10)中任一项所述方法所述的步骤i)；

脱靶权重计算模块，用于执行(1)-(10)中任一项所述方法所述的步骤ii)；

组学注释模块，用于执行(1)-(10)中任一项所述方法所述的步骤iii)；

组学特征值计算模块，用于执行(1)-(10)中任一项所述方法所述的步骤iv)；

机器学习算法计算模块，用于执行(1)-(10)中任一项所述方法所述的步骤C)。

(13)一种用于预测siRNA针对某类细胞的毒性的装置，包括：

1)输入单元，用于输入待测siRNA的序列；

2)存储单元，用于存储利用(1)-(10)中任一项所述方法针

对该类细胞建立的机器学习模型；

3)执行单元，用于对所述siRNA的序列执行所述机器学习模型；

4)输出单元，用于显示该siRNA针对该类细胞的毒性的预测结果。

(14)一种预测siRNA针对某类细胞的毒性的方法，包括：

提供待测siRNA的序列；

将该siRNA的序列输入(13)所述的装置，通过该装置执行利用(1)-(10)中任一项所述方法针对该类细胞建立的机器学习模型，从而得到该siRNA针对该类细胞的毒性的预测结果。

本发明与现有技术相比具有以下优点和积极效果：

本发明基于生物信息学大数据，利用生物信息学的分析方法，建立了用于预测siRNA针对某类细胞的毒性的机器学习模型，该模型全面地确定了待测siRNA的脱靶基因并给予相应的权重系数，可联合蛋白组、通路组及核心基因组等大数据，快速预测待测siRNA的脱靶效应所导致的细胞毒性，特别是在应急的情况下，可有效地辅助siRNA的设计、缩短筛选时间、提高筛选效率，有利于应急成药。

附图说明

图1示出针对MGMT基因筛选siRNA有效干扰序列的结果。其中，横轴示出不同的siRNA组别名称；纵轴示出各组别的MGMT的mRNA表达水平相对于空白对照组的比值。

图2示出针对MGMT基因筛选siRNA有效干扰序列的干扰浓度的结果。其中，横轴示出siRNA4的不同转染浓度；纵轴示出各转染浓度下的MGMT的mRNA表达水平相对于空白对照组的比值。

图3示出在不同错配siRNA的存在下MGMT mRNA的相对表达量。其中，横轴示出不同的siRNA组别名称，纵轴示出各组别的MGMT的mRNA表达水平相对于空白对照组的比值。

图4示出错配位于有义链3’端的siRNA的干扰率相对不同错配碱基数的曲线示意图。连接圆点的实线表示实际曲线，虚线表示拟合结果。其中，横轴示出siRNA的错配位于有义链3’端的不同错配碱基数，纵轴示出对应的siRNA的干扰率。

图5示出错配位于有义链5’端的siRNA的干扰率相对不同错配碱基数的曲线示意图。连接圆点的实线表示实际曲线，虚线表示拟合结果。其中，横轴示出siRNA的错配位于有义链5’端的不同错配碱基数，纵轴示出对应的siRNA的干扰率。

图6示出蛋白质组特征值的计算方法的示意图。

图7示出在不同错配siRNA的存在下A549细胞的细胞生存指数的结果。其中，横轴示出不同的siRNA组别名称，纵轴示出各组别的细胞生存指数。

图8示出本发明方法的一个实施方案的流程图。

图9示出本发明计算机可读介质的一个实施方案的示意图。

具体实施方式

以下通过具体实施方式的描述并参照附图对本发明作进一步说明，但这并非是对本发明的限制，本领域技术人员根据本发明的基本思想，可以做出各种修改或改进，但是只要不脱离本发明的基本思想，均在本发明的范围之内。

siRNA药物在应对新突发性病毒疫情暴发方面具有其它传统药物所不具备的优势。在初步得到突发病毒的序列之后，在相对较短的时间内，即可完成具有病毒抑制作用的siRNA药物的设计、初步筛选和有效性验证。然而，这样得到的siRNA通常具有脱靶效应，会导致细胞毒性。在应急情况下，迫切需要一种可以缩短筛选时间、提高筛选效率、有利于应急成药的方法来预测siRNA的细胞毒性，从而有效地辅助siRNA的设计。

在本文中，术语“突发性病毒”或“突发病毒”包括：呼吸道病毒、埃博拉病毒、寨卡病毒等。

在本文中，术语“呼吸道病毒”在本领域是已知的，其是指一大类能侵犯呼吸道引起呼吸道局部病变或仅以呼吸道为侵入门户，主要引起呼吸道外组织器官病变的病毒。呼吸道病毒包括正粘病毒科(Orthomyxoviridae)中的流感病毒；副粘病毒科(Paramyxoviridae)中的副流感病毒、呼吸道合胞病毒、麻疹病毒、腮腺炎病毒以及其它病毒科中的一些病毒，如腺病毒、风疹病毒、鼻病毒、冠状病毒和呼肠病毒等。据统计，90％以上急性呼吸道感染由病毒引起。

在本文中，术语“流行性感冒病毒”(influenza virus，简称流感病毒)在本领域是已知的，其有甲(A)乙(B)丙(C)三型，引起人和动物(猪、马、海洋哺乳动物和禽类等)流行性感冒(简称流感)。甲型流感病毒在引起人类流感流行上最为重要，是反复流行最为频繁和引起真正全球流行的重要病原体。在分类学上，流感病毒属于正黏液病毒科，它会造成急性上呼吸道感染，并借由空气迅速的传播，在世界各地常会有周期性的大流行。流感病毒在免疫力较弱的老人或小孩及一些免疫失调的病人会引起较严重的症状，如肺炎或是心肺衰竭等。

呼吸道病毒也包括冠状病毒，而一种前所未知的冠状病毒则造成了全球非典灾难。非典是于2002年在中国广东首发，并扩散至东南亚乃至全球，直至2003年中期疫情才被逐渐消灭的一次全球性传染病疫潮。研究报道表明，SARS冠状病毒(SARS Coronavirus，SARS-CoV)就是导致严重急性呼吸道综合症(SARS)的病原体。

在本文中，术语“埃博拉病毒”(Ebolavirus，EBOV)在本领域是已知的，其属于丝状病毒科(Filoviridae)。病毒体呈长丝状或杆状，直径约100nm，长300～1500nm。病毒粒子有螺旋状核衣壳，外有包膜。其基因组为单股负链RNA，全长约19kb，共编码7种蛋白。目前埃博拉病毒可分为五种亚型：扎伊尔型(Zaire Ebolavirus，ZE-BOV)，科特迪瓦型(Cote d’Ivoire Ebolavirus，CE-BOV)，苏丹型(Sudan Ebolavirus，SEBOV)，莱斯顿型(RestonEbolavirus，REBOV)和本迪布焦型(Bundibugyo Ebolavirus，BEBOV)。埃博拉出血热(Ebolahemorrhagic fever，EHF)是由埃博拉病毒引起的一种急性出血性传染病，1976年首次发生于埃博拉河流域的扎伊尔(现刚果民主共和国)，因其引起感染者全身出血症状，故命名为埃博拉出血热。自1976年在非洲中部扎伊尔(现刚果民主共和国)和苏丹暴发流行后，已在非洲中部形成地方流行，主要包括乌干达、刚果、加蓬、苏丹、科特迪瓦、利比里亚、南非等国家，具有极高的传染性，致死率高达50％～88％。人主要通过接触病人或感染动物的体液、排泄物、分泌物等而感染。临床表现主要为发热、出血和多脏器损害。

在本文中，术语“脱靶效应(off-target effect)”在本领域是已知的，其是指siRNA作用过程中存在非特异性，可能与非靶基因之外的其它基因作用而非特异地阻断基因表达，产生意料之外的效用。与siRNA相关的脱靶效应分成三大类型：microRNA(miRNA)样脱靶效应、免疫刺激、RNAi元件饱和。

本发明的一个目的在于提供一种建立用于预测siRNA针对某类细胞的毒性的机器学习模型的方法。本发明的另一个目的在于提供所述的方法在预测siRNA针对该类细胞的毒性中的应用。本发明的又一个目的在于提供计算机可读介质。本发明的又一个目的在于提供用于预测siRNA针对某类细胞的毒性的装置。本发明的又一个目的在于提供预测siRNA针对某类细胞的毒性的方法。

(一)建立用于预测siRNA针对某类细胞的毒性的机器学习模型的方法

本发明的第一个方面提供了一种建立用于预测siRNA针对某类细胞的毒性的机器学习模型的方法，包括以下步骤：

A)提供n条siRNA，其中n≥2，并且其中所述siRNA的长度为19-29bp；

其中，所述n条siRNA中的任一条siRNA的输入值是这样得到的：

并且，该条siRNA的输出值是这样得到的：

本发明的建立机器学习模型的方法是利用生物信息学结合生物学实验数据，并通过机器学习算法计算得到的。

在本文中，术语“生物信息学(Bioinformatics)”在本领域是已知的，其是指在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。通常而言，生物信息学将分子生物学与信息技术(尤其是因特网技术)结合在一起。生物信息学的研究材料和结果包括各种各样的生物学数据，其研究工具包括计算机，研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。

在本文中，术语“机器学习”(Machine Learning)在本领域是已知的，其是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法属于人工智能算法，是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。机器学习可以分成下面几种类别：监督学习、无监督学习、半监督学习、增强学习等。监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。无监督学习与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有聚类。半监督学习介于监督学习与无监督学习之间。增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。

在本发明的一个实施方式中，机器学习算法优选为监督学习算法。

本发明所述的机器学习模型是用于预测siRNA针对某类细胞的毒性的机器学习模型。

本文在提及预测细胞毒性时所用的术语“某类细胞”中的所述细胞可以是人类细胞或其它哺乳动物细胞。当所述细胞为人类细胞时，所述基因组mRNA为人类基因组mRNA。当所述细胞为其它哺乳动物细胞时，所述基因组mRNA为该哺乳动物的基因组mRNA。另外，所述的“某类细胞”是指，功能上相同或相关的一类或多类细胞，例如，“某类细胞”可以为病毒能够接触或感染的细胞，例如呼吸道上皮细胞、胃肠道上皮细胞、皮肤细胞、肝细胞、神经细胞、淋巴细胞、眼部细胞、尿道细胞、生殖道细胞等。当所述的“某类细胞”是指多类细胞时，可以针对其中的每一类细胞分别建立用于预测siRNA针对该类细胞的毒性的机器学习模型。

在本文中，术语“siRNA(小干扰核酸，简称小核酸)”在本领域是已知的，其是指带有特定基因密码的双链短小核酸，长度可为19-29bp(碱基对)(参见文献“McIntyre GJ,YuYH,Lomas M,Fanning GC.The effects of stem length and core placement on shRNAactivity.BMC Mol Biol.2011Aug 8；12:34.”)。siRNA双链中和信使RNA(mRNA)的靶向序列相同的链称为正义链，与之互补的另一条链为反义链。siRNA包括5’-磷酸末端、19nt的双链区、3’-羟基末端和2个不配对的3’端核苷酸突起，可指导mRNA的裂解。一般而言，一个基因通常含有数千个bp，siRNA是其中长度为21～23bp的某一段特异序列。siRNA可以克隆到siRNA表达载体，其功能是在哺乳动物细胞内和特定靶基因的信使核糖核酸(mRNA)结合，使之降解，失去靶基因表达而“沉默”下来，即“关闭”该基因的功能。这种siRNA降解mRNA从而阻断特定蛋白质合成的机制即为核酸干扰(RNAi)。

在本文中，术语“核酸干扰(或RNA干扰)(RNA interference,RNAi)”在本领域是已知的，其是指在进化过程中高度保守的、由双链RNA(double-stranded RNA，dsRNA)诱发的、同源mRNA高效特异性降解的现象。RNAi一经发现，迅速成为生物学研究领域最为活跃的热点之一，《Science》在2001年将其列为十大科学成就之一，2002年又将其列为十大科技之首；《Nature》也将siRNA评为2002年度最重要的科技发现之一；2006年发现RNAi机理的两位美国科学家法尔和梅洛获得诺贝尔医学奖。RNAi技术可以特异性剔除或关闭特定基因的表达，是一种快速、有效、特异的抑制基因表达的工具，已被广泛用于探索基因功能、病毒性疾病(主要是艾滋病和肝炎)及恶性肿瘤的基因治疗领域。一方面，RNAi是基因功能检验的试金石，利用RNAi技术可以大幅度缩短人类对人类基因功能与作用的了解和认识的时间；另一方面，可以利用RNAi技术获得使致病基因失活的新型基因药物，即siRNA药物。

作为例子，图8示出本发明方法的一个实施方案的流程图。在本发明的方法中，首先提供n条siRNA，每条siRNA包括一对有义链序列和反义链序列。该n值大于等于2，例如大于等于10，大于等于15，大于等于20，大于等于100等。本领域技术人员可以基于本发明根据实际情况(例如，在对模型精确度的需求或其它需求和对时间和经济成本控制的需求或其它需求之间进行平衡)采用合适的n值。

所述n条siRNA可以是为实现本发明的方法，以建立用于预测siRNA针对某类细胞的毒性的机器学习模型而特别设计的，例如本说明书试验例1中表1和2所示的那些。所述n条siRNA也可以是针对某种病毒设计的具有抗病毒作用的候选siRNA药物，所述病毒可以是突发性病毒。例如，所述n条siRNA可以是针对呼吸道病毒中的某种具体病毒设计得到的，或者是针对埃博拉病毒中的某种具体病毒设计得到的。

在本发明的方法中，进一步对各条siRNA利用生物信息学获得用于建立机器学习模型的输入值，并且与上述获得输入值的步骤不按序地、独立地利用生物学实验获得用于建立机器学习模型的输出值。

在本发明的方法中，在对各条siRNA获得用于建立机器学习模型的输入值时，为了初步确定每条siRNA的脱靶基因，本发明将该siRNA的序列和基因组mRNA的序列进行了全面的比对，并且设定两者的错配碱基数应小于或等于7，从而全面地选择出一系列脱靶基因。

所述基因组mRNA可以为人类基因组mRNA或其它哺乳动物基因组mRNA。其它哺乳动物包括但不限于(例如)：黑猩猩，大猩猩，倭黑猩猩，豚鼠，鼠兔，兔，松鼠，狗，猫，小鼠、大鼠等。

在本文中，术语“人类基因组”是本领域是已知的，是指人类(Homo sapiens)的基因组，由23对染色体组成，含有约31.6亿个DNA碱基对。其中一部分的碱基对组成了大约20000到25000个基因。全部人类基因组测序工作已于2006年完成，并且人类基因组序列是公开可得的。

由于siRNA与mRNA不同程度的互补、以及互补区域的mRNA的二级结构会导致不同的脱靶效应，因此，本发明就每个所选脱靶基因mRNA与该条siRNA序列的互补区，根据错配碱基的特征以及脱靶基因mRNA序列的二级结构特征，确定了该脱靶基因的脱靶权重。

此外，从基因影响到细胞毒性，是个复杂的生物学课题，如同一个黑盒子。siRNA的脱靶效应主要体现在使mRNA降解或者抑制mRNA进一步翻译成蛋白，因此脱靶效应在蛋白层面的影响是最直接的。蛋白质并不是孤立作用的，而且在细胞内各个信号通路中，上游蛋白往往对下游蛋白的活性具有调节(包括激活或抑制)作用，这主要是通过添加或去除磷酸基团，改变下游蛋白的立体构象来实现的。另外，在人类基因组的所有基因中，有些基因是人类所必需的，称为核心基因，目前已知超过1500个核心基因。为了更加科学准确地预测siRNA针对某类细胞的毒性，在建立机器学习模型时，本发明整合了蛋白组、信号通路组和/或核心基因组等大数据的信息，对每个所选脱靶基因进行了组学注释，得到了该脱靶基因的组学权重，并且基于所有所选的脱靶基因的各个组学权重和脱靶权重，综合计算得到了各个组学的特征值。

在本发明的方法中，在对各条siRNA获得用于建立机器学习模型的输出值时，利用该条siRNA对该类细胞进行实验，以获得该条siRNA存在下的细胞生存指数，将所述细胞生存指数作为输出值。本文所用术语“细胞生存指数”是指细胞的生存状态，可用给定siRNA存在下的细胞的OD450值与在正常状态下该细胞的OD450值的比率来表示。

通过以上设计和构思，本发明的建立用于预测siRNA针对某类细胞的毒性的机器学习模型的方法更加科学、严谨和准确。

在所述方法中，所述siRNA的长度进一步优选为19-25bp，更优选为19-21bp，还优选为21bp。

可以利用选自以下的比对软件进行所述比对：BLAST、BLAT或Wise2DBA。在使用这些软件时，可以根据需要使用默认参数并调整其中某些参数以获得全面的比对结果。以BLAST(对该软件的描述可参见文献“Camacho C,Coulouris G,Avagyan V,Ma N,Papadopoulos J,Bealer K,Madden TL.BLAST+:architecture and applications.BMCBioinformatics.2008,10:421.”，其全部内容以引用方式并入本文)为例，在本发明的一个实施方式中，可以使用默认参数，并设置期望值(evalue)＝1000，这样软件会保留所有期望值小于或等于1000的序列。

对BLAT(即“the BLAST-like alignment tool”，类BLAST比对工具)软件的描述可参见文献“Kent,W James(2002)."BLAT--the BLAST-like alignment tool".GenomeResearch.12(4):656–664.”，其全部内容以引用方式并入本文。在本发明的一个实施方式中，在使用软件BLAT时，可以使用默认参数。

对Wise2DBA软件的描述可参见文献“Jareborg N,Birney E,DurbinR.Comparative analysis of noncoding regions of 77orthologous mouse and humangene pairs.Genome Research 9:815-824,1999.”，其全部内容以引用方式并入本文。在本发明的一个实施方式中，在使用软件Wise2DBA时，可以使用默认参数。

优选地，对于每条siRNA，将其正义链(或称有义链)和反义链分别与基因组mRNA的序列进行比对。

优选地，所述错配碱基的特征包括错配碱基的数目，任选包括错配碱基的位置。

优选地，所述脱靶基因mRNA序列的二级结构特征为，就所述互补区该mRNA自身不形成二级结构的概率。互补区域的mRNA的二级结构可以影响该区域中mRNA与互补的siRNA结合的概率。

优选地，对于每个所选脱靶基因，根据所述错配碱基的特征计算该条siRNA对该脱靶基因mRNA的表达量的干扰率，并且计算该干扰率与所述不形成二级结构的概率的乘积，从而得到该脱靶基因的脱靶权重。

如果某一特定脱靶基因mRNA与同一个siRNA的序列有多个互补区域，那么取针对各个互补区域计算得到的脱靶权重的最大值。

siRNA与mRNA不同程度的序列匹配会导致不同的干扰率，例如，随着错配碱基数目的增加，干扰率会下降，通常，如果错配碱基数目达到7个以上，该siRNA对mRNA表达量的干扰率可忽略不计。siRNA对mRNA表达量的干扰率可以根据理论确定，也可以通过生物学实验来确定。

例如，可以利用以下方法确定与给定mRNA有不同错配碱基数目的siRNA分别对该mRNA表达量的干扰率：利用qRT-PCR法检测给定mRNA在合适的细胞中的表达量(以下称为天然表达量)；将与所述给定mRNA有不同错配碱基数目的siRNA分别各自转染入所述细胞，利用qRT-PCR法检测各错配情况下该mRNA的表达量(以下称为干扰表达量)；分别计算各干扰表达量与天然表达量的比率，用1减去该比率即得到不同错配碱基数目的siRNA的干扰率。

此外，本发明将具有不同错配碱基数目的siRNA的干扰率进行了曲线拟合处理，发现可以得到非线性拟合公式，并且可以利用拟合公式计算与特定mRNA有不同错配碱基数目的siRNA对该mRNA表达量的干扰率。用拟合公式计算的干扰率与实际干扰率高度接近，准确率良好。

在本发明一个实施方式中，非线性拟合公式为：1)对于3’端的错配碱基：y_3’＝-0.01316x_3’ ²-0.03245x_3’+1.0238；其中x_3’为3’端的错配碱基数目，y_3’为3’端的干扰率；2)对于5’端的错配碱基：y_5’＝-0.01313x_5’ ²+0.03223x_5’+0.95513。其中x_5’为5’端的错配碱基数目，y_5’为5’端的干扰率。本发明的非线性拟合公式的获得方法可以为例如本说明书试验例1所述。虽然试验例1中非线性公式利用的是人MGMT基因(O-6-Methylguanine-DNAMethyltransferase，O-6-甲基鸟嘌呤-DNA甲基转移酶)作为脱靶基因获得的，但本发明的非线性拟合公式不限于此，可适用于其它脱靶基因。

进一步而言，本发明的非线性拟合公式可以按照例如本说明书试验例1所述的方法进一步优化，以提高非线性公式的系数的精度。

而本发明所述的“根据所述错配碱基的特征计算该条siRNA对该脱靶基因mRNA的表达量的干扰率”是指siRNA对脱靶基因的整体的干扰率，即y＝y_3’×y_5’。例如，某一个特定的脱靶基因，它和siRNA匹配的区域，在有义链的3’端有2个错配，在有义链的5’端有3个错配，那么该siRNA对该脱靶基因的整体的干扰率为两端干扰率的积，即0.9060乘以0.9337等于0.8459。

在本发明的方法中，可以利用选自以下的软件预测每个脱靶基因mRNA的所述不形成二级结构的概率：RNAPLFOLD、mfold或RNAstructure。在使用这些软件时，可以根据需要来设置参数。对RNAPLFOLD软件的描述可以参见文献“Lewis BP,Burge CB,BartelDP.Conserved seed pairing,often flanked by adenosines,indicates thatthousands of human genes are microRNA targets.Cell.2005,120(1):15-20.”，其全部内容以引用方式并入本文。在本发明的一个实施方式中，可以利用RNAPLFOLD软件对人类全基因组mRNA的二级结构进行预测，并对输出结果进行整合，形成本地化的数据库，以实现高速读取，提高计算速度。RNAPLFOLD的参数设计可为包括：L＝40，W＝80，u＝25。从而得到脱靶基因不形成二级结构的概率。

结合上述的siRNA对脱靶基因的整体的干扰率，该脱靶基因的脱靶权重为不能形成二级结构的概率乘以整体的干扰率得到的乘积。

在所述步骤iii)中，所述组学权重可以选自脱靶基因的蛋白质互作权重、信号通路权重和核心基因权重中的一者、两者或全部。

蛋白质互作权重可以利用例如蛋白互作网络数据库“STRING”对每个所选脱靶基因进行组学注释而获得。“STRING”是当今世界最权威的蛋白互作网络的数据库之一，它涵盖了已知蛋白质和预测蛋白质的互作数据(参见文献“Szklarczyk D,Franceschini A,Kuhn M,Simonovic M,Roth A,Minguez P,Doerks T,Stark M,Muller J,Bork P,JensenLJ,von Mering C.The STRING database in 2011:functional interaction networksof proteins,globally integrated and scored.Nucleic Acids Res.2011，39(Databaseissue):D561-8.”，其全部内容以引用方式并入本文)。这些相互作用包括物理上的直接作用和功能学上的间接的影响。这些数据源自基因组学的信息，高通量生物实验，保守的共表达特性和文献知识的梳理。STRING对上述的基础数据做了有机的量化整合，在某一特定物种中，每一对互作的蛋白都被给予权重(权重的范围是0～1000)，以示关联的紧密程度。如果某一蛋白参与多对互作关系，那么其蛋白质互作权重为其参与的各互作关系的权重之和。

信号通路权重可以利用例如人类通路组数据库“ConsensusPathDB-human”(参见文献“Kamburov A,Pentchev K,Galicka H,Wierling C,Lehrach H,HerwigR.ConsensusPathDB:toward a more complete picture of cell biology.NucleicAcids Res.2011，39(Database issue):D712-7.”，其全部内容以引用方式并入本文)对每个所选脱靶基因进行组学注释而获得。该数据库涉及到基因调控、蛋白作用、信号传导、新陈代谢、药物靶向、生化反应等各个方面，是迄今为止最完整的公共的通路组数据库。针对任一所选出的脱靶基因，可以依据该数据库提取它所参与的通路的个数作为所述信号通路权重。

关于核心基因权重，已知多伦多大学分子遗传学系的研究团队利用最新的基因编辑技术CRISPR，逐个关闭18000个基因(占人类基因组的90％)，发现超过1500个基因是人类必需的(参见文献“Hart T,Chandrashekhar M,Aregger M,Steinhart Z,Brown KR,MacLeod G,Mis M,Zimmermann M,Fradet-Turcotte A,Sun S,Mero P,Dirks P,Sidhu S,Roth FP,Rissland OS,Durocher D,Angers S,Moffat J.High-Resolution CRISPRScreens Reveal Fitness Genes and Genotype-Specific CancerLiabilities.Cell.2015，163(6):1515-26.”，其全部内容以引用方式并入本文)。本文将人类所必需的基因称为“核心基因”。如果所选脱靶基因是核心基因，那么siRNA对细胞的毒性影响可能会更大。针对任一所选出的脱靶基因，如果其为核心基因，那么可以将其核心基因权重设定为1，如果不是核心基因，那么可以将其核心基因权重设定为0。

在所述步骤iv)中，所述组学的特征值可以选自蛋白质组特征值、信号通路组特征值和核心基因组特征值中的一者、两者或全部，并且所述蛋白质组特征值、所述信号通路组特征值和所述核心基因组特征值可以分别各自按照以下a)至c)计算：

优选地，在建立所述机器学习模型之前，对所述输入值进行标准化处理。标准化处理是为了避免其中某一类数据因为绝对值过大而影响模型的建立。通常采用(数值-最小值)/(最大值-最小值)的方法，将数据一一映射到0-1区间，这是常用的经典方法之一。

在建立机器学习模型之前，还可以对所述输出值进行二元化处理，但这不是必须的。可以以某一细胞生存指数为边界值，高于或等于该细胞生存指数的定为1，其余定为0。作为边界值的细胞生存指数可以大于等于0.75。例如，以细胞生存指数0.9为边界值，高于或等于0.9的定为1，其余定为0。

优选地，所述机器学习算法包括支持向量机、人工神经网络、决策树和回归模型。这些机器学习算法可以基于C语言，perl语言，python语言，R语言进行，并且参数可以根据需要来设置。例如，在采用支持向量机算法建立机器学习模型时，可以采用R的库函数svm，将主要参数kernel(决定数据空间的函数映射模式)设定为linear,polynomial,radial,sigmoid，其中优选为linear。在采用人工神经网络算法建立机器学习模型时，可以采用R的库函数neuralnet，调试主要参数hidden(即隐藏的神经元数量/层)，其优选设定为1。

可采用已知的评价方法对所建立的机器学习模型进行评价。最常规的为交叉验证(cross validation)。例如，可以为8折交叉验证、9折交叉验证、10折交叉验证等。

优选地，基于siRNA的作用原理，所选择的脱靶基因不包括该脱靶基因mRNA与所述siRNA序列的互补区域仅位于5’非翻译区域(untranslated region,UTR)的基因。

siRNA的干扰作用体现在对基因的沉默效应，如果在某类细胞中，某一个特定基因在自然状态下本身就不表达，那么针对这个基因，siRNA的干扰作用可以忽略不计。因此，优选地，基于已知细胞系的表达谱数据库，所选择的脱靶基因不包括在所述某类细胞中在自然状态下(或正常状态下)不表达的基因。所述细胞系的表达谱数据库例如为“THE HUMANPROTEIN ATLAS”数据库(参见文献“Uhlen M,Oksvold P,Fagerberg L,Lundberg E,Jonasson K,Forsberg M,Zwahlen M,Kampf C,Wester K,Hober S,Wernerus H,L,Ponten F.Towards a knowledge-based Human Protein Atlas.Nat Biotechnol.2010,28(12):1248-50.”，其全部内容以引用方式并入本文)，该数据库包含了常见细胞系的蛋白编码基因的表达数据，这些数据分别在RNA和蛋白质水平上得到了双重验证。

在本发明的方法中，用于对细胞进行实验的siRNA可以采用本领域的常规方法进行制备，包括(例如)：化学合成、体外转录、siRNA表达载体、siRNA框架等。

(二)本发明的方法在预测siRNA针对该类细胞的毒性中的应用

本发明的另一个方面还提供了本发明所述的方法在预测siRNA针对某类细胞的毒性中的应用。

(三)计算机可读介质

本发明的另一个方面还提供了一种计算机可读介质，该计算机可读介质能够用于根据本发明的方法建立所述机器学习模型，并且该计算机可读介质包括以下模块：

序列比对模块，用于执行本发明所述方法所述的步骤i)；

脱靶权重计算模块，用于执行本发明所述方法所述的步骤ii)；

组学注释模块，用于执行本发明所述方法所述的步骤iii)；

组学特征值计算模块，用于执行本发明所述方法所述的步骤iv)；

机器学习算法计算模块，用于执行本发明所述方法所述的步骤C)。

计算机可读介质可以包括外部数据输入模块，用于分别输入n条siRNA序列和对应的细胞生存指数。

作为例子，图9示出本发明计算机可读介质的一个实施方案的示意图。

(四)用于预测siRNA针对某类细胞的毒性的装置

本发明的另一个方面还提供了一种用于预测siRNA针对某类细胞的毒性的装置，包括：

1)输入单元，用于输入待测siRNA的序列；

2)存储单元，用于存储利用本发明所述方法针对该类细胞建立的机器学习模型；

3)执行单元，用于对所述siRNA的序列执行所述机器学习模型；

所述装置可以是为本发明的目的而专门构建的装置，也可以是计算机。

如本领域已知的，所述输入单元例如但不限于键盘、鼠标、扫描仪、触屏。

在本发明的一个方面，所述存储单元可以是用于存储数据和/或软件的任何类型的存储器，包括电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、网络上的虚拟存储位置、存储器设备、计算机可读介质、计算机盘以及可传输信息的存储设备，或任何其他类型的适合于存储所述机器学习模型的介质。

所述输出单元包括(但不限于)任何类型的显示器，打印机。

(五)预测siRNA针对某类细胞的毒性的方法

本发明的另一个方面还提供了一种预测siRNA针对某类细胞的毒性的方法，包括：

提供待测siRNA的序列；

将该siRNA的序列输入本发明所述的装置，通过该装置执行利用本发明所述方法针对该类细胞建立的机器学习模型，从而得到该siRNA针对该类细胞的毒性的预测结果。

所述待测siRNA可以是抗病毒(包括：呼吸道病毒、埃博拉病毒等)感染的药物候选物。通常这样的siRNA序列可以采用本领域常用的方式获得。例如，使用已知的公共或商业siRNA设计工具(例如Invitrogen、GenScript、Dharmacon和/或siDirect等)按本领域公知的siRNA设计原则设计待测siRNA序列。

siRNA设计原则的一个例子为：在(例如)人呼吸道病毒的全基因序列的保守区的基因启动子后50-100个碱基开始，寻找基因序列中符合下列条件的19-21bp(例如19bp)核苷酸序列：(1)以G或C起始，以A或T结尾；(2)末端最后7个碱基至少有5个是A或T；(3)避免4个连续的碱基，如AAAA或CCCC，从而增加碱基的复杂度；和/或(4)GC含量为30-52％之间。

人呼吸道病毒的全基因序列包括提供已知的人呼吸道病毒的全基因序列或新的人呼吸道病毒的全基因序列。已知的人呼吸道病毒的全基因序列可以直接从公共数据库Genebank得到，新的人呼吸道病毒的全基因序列可以通过已知方法对新病毒株进行分离、提取(例如)RNA、测定序列得到，并可进一步进行基因分型。

优选地，在本发明方法中，所述的呼吸道病毒包括流感病毒、副流感病毒、呼吸道合胞病毒、麻疹病毒、腮腺炎病毒、腺病毒、风疹病毒、鼻病毒、冠状病毒和/或呼肠病毒；更优选为流感病毒；进一步优选为甲型流感病毒；还进一步优选为H1、H3、H5、H7或H9甲型流感病毒；还进一步优选为H1N1、H3N2、H5N1、H7N7、H7N9甲型流感病毒。

以下通过例子的方式进一步解释或说明本发明的内容，但这些例子不应被理解为对本发明的保护范围的限制。

例子

以建立用于预测siRNA针对人类呼吸道细胞的毒性的机器学习模型为例，阐述发明的实施方案，具体如下：

[试验所用材料]

1)细胞培养材料

常规的培养液为添加10％(v/v)胎牛血清(美国Hyclone公司)的DMEM培养基(美国Gibco公司)；DMSO购自于美国Sigma-Aldrich公司。

2)qRT-PCR检测相关试剂

细胞总RNA提取试剂盒、反转录试剂盒、荧光定量PCR试剂盒均购于美国Promega公司；

转染试剂脂质体lipo2000购自美国Invitrogen公司；siRNA序列均合成于美国Invitrogen公司。

3)细胞生存指数相关试剂

CCK-8试剂盒(包含CCK-8溶液)购自于日本同仁化学研究所。

4)实验耗材

实验所用一次性实验耗材均购自美国Corning公司。

除非特别说明，以下生物学实验均采用本领域常规的方法、材料、条件和设备进行。

试验例1siRNA对脱靶基因mRNA表达量的干扰率

siRNA和mRNA不同程度的序列匹配会导致不同的干扰效果，具体权重的设定源于生物实验数据的支持。选取A549非小细胞肺癌细胞系，并且选取人类基因MGMT(O-6-Methylguanine-DNA Methyltransferase，O-6-甲基鸟嘌呤-DNA甲基转移酶)，这是一个在A549细胞系中已知的弱表达基因。之所以选择弱表达的基因，是因为如果是一个强表达基因，则可能需要大剂量的siRNA才能检测到干扰作用，而大剂量的外源siRNA作用于细胞可能会引起其它的免疫刺激和元件饱和效应。

针对MGMT，设计了四条siRNA序列(每条siRNA包括一对有义链序列和反义链序列)，详见表1。分别以50nM转染浓度的siRNA，转染A549细胞，以未转染的空白组为对照。在完全培养基(10％FBS+90％DMEM:F12(1:1))中，在37℃，5％CO₂恒温箱中培养48小时后，用qRT-PCR方法，检测MGMT的mRNA表达水平，结果详见图1。如图1所示，设定空白组中的MGMT的mRNA表达水平为1，其它转染组中mRNA表达水平为相对的百分比，可见siRNA4组中MGMT的mRNA表达量<10％，即siRNA4干扰效果>90％，确定为有效干扰序列。之后，使用该有效干扰序列摸索最佳siRNA转染浓度，图2示出了所试验的各转染浓度。如图2所示，转染浓度在25nM基本趋于饱和，后续实验的转染浓度均选择25nM。

表1：针对MGMT基因设计的siRNA

以筛选出来的有效干扰序列为基准，合成15条错配序列，如表2，其中下划线部分为错配碱基。

表2：针对MGMT基因的错配siRNA的序列设计

用这些siRNA分别转染A549细胞，设置空白组(未转染)，阴性对照组(转染了随机序列的siRNA(Invitrogen合成)，即不针对MGMT基因的siRNA)，阳性对照组(转染了高效敲除MGMT的siRNA(即siRNA4))，按上述培养条件培养48小时后，以qRT-PCR方法，检测各个错配序列的siRNA对MGMT的mRNA水平的影响。结果如图3，所有的mRNA的表达量是相对于空白对照组的。可见，随着错配的碱基数目的增加，mRNA的表达量也增加，即siRNA的干扰效果是减少的。错配的碱基无论在5’还是3’端，规律一致，只是在权重系数(干扰率)上有所差异。基于mRNA的表达数据，得到siRNA的干扰率，即：分别计算各实验组表达量与空白对照组表达量的比率，用1减去该比率即得到各siRNA的干扰率。对这些siRNA的干扰率进行曲线拟合的处理。由于阴性对照组中mRNA的表达量约为0.6，而siRNA10组和siRNA11组中的mRNA也接近0.6，故不纳入曲线拟合处理，拟合曲线见图4和图5。错配位于3’端(图4)和5’端(图5)的非线性拟合公式分别为，1)对于3’端的错配碱基：y_3’＝-0.01316x_3’ ²-0.03245x_3’+1.0238；其中x_3’为3’端的错配碱基数目，y_3’为3’端的干扰率；2)对于5’端的错配碱基：y_5’＝-0.01313x_5’ ²+0.03223x_5’+0.95513。其中x_5’为5’端的错配碱基数目，y_5’为5’端的干扰率。

siRNA对脱靶基因的整体的干扰率为y＝y_3’×y_5’。

实施例1：建立用于预测siRNA针对人呼吸系统细胞的毒性的机器学习模型的流程

A.提供用于建立机器学习模型的siRNA

将上述16条siRNA(表1中的siRNA4和表2中的15条错配序列siRNA5-siRNA19)用于建立机器学习模型。

B.分别获得用于建立机器学习模型的输入值和输出值

其中，所述16条siRNA中任一条siRNA的输入值是这样得到的：

i)siRNA序列与人类基因组mRNA序列的比对，基于功能注释和表达谱数据库进一步筛选脱靶基因

为了初步确定某个siRNA的脱靶基因，建立了本地化(即将mRNA序列下载到硬盘上，后续的工作可以不依赖网络)人类基因组的mRNA序列数据库，通过BLAST(版本号2.2.31)软件(参见文献“Camacho C,Coulouris G,Avagyan V,Ma N,Papadopoulos J,Bealer K,Madden TL.BLAST+:architecture and applications.BMCBioinformatics.2008,10:421.”)，将该siRNA的序列和人类基因组的mRNA序列数据进行了全面的比对。为了获得全面的比对结果，而不仅仅是高度类似的比对，在BLAST软件中，我们选用blastn模式。BLAST软件的参数设置大多使用默认参数，具体如下:evalue＝1000，word_size＝7，gapopen＝5，gapextend＝2，penalty＝3，reward＝2。在比对时，分别比对了该siRNA的正义和反义链。

通过比对，得到了一个完整的初步的脱靶基因列表，之后对该siRNA和各脱靶基因mRNA匹配的区域做了功能注释，即标注该siRNA的作用区域分布在mRNA的5’UTR、3’UTR、还是编码区。基于siRNA的作用原理，在之后的分析中，只关注该siRNA匹配位点位于其mRNA的3’UTR和/或编码区的脱靶基因。

利用已知细胞系的表达谱数据库，从脱靶基因列表中删除在人类呼吸道细胞(例如A549非小细胞肺癌的细胞系)中本身不表达的脱靶基因。细胞系的表达谱数据源自“THEHUMAN PROTEIN ATLAS”数据库。

由此选择出一系列脱靶基因。对于16条siRNA中的每条siRNA均得到上百条脱靶基因，脱靶基因数目的具体统计结果见表3。

表3：siRNA的脱靶基因数目统计

siRNA名称	脱靶基因数目
		siRNA4	138
siRNA5	131
		siRNA6	140
siRNA7	124
		siRNA8	131
siRNA9	120
		siRNA10	134
siRNA11	101
		siRNA12	132
siRNA13	136
		siRNA14	121
siRNA15	127
		siRNA16	129
siRNA17	121
		siRNA18	151
siRNA19	151

ii)确定所选脱靶基因的脱靶权重

以试验例1得到的曲线拟合的干扰率为标准，为脱靶基因设定权重。

例如，某一个特定的脱靶基因(人ERCC6，Excision Repair Cross-Complementation 6，切除修复交叉互补基因6)，它和某一个特定的siRNA(例如，siRNA4(有义链序列CCAGACAGGUGUUAUGGAATT(SEQ NO.7)))匹配的区域，在有义链的3’端有1个错配，在有义链的5’端有5个错配，那么siRNA对该脱靶基因的整体的干扰率为两端干扰率的积，即0.9782乘以0.7880等于0.7708。

就互补区域，利用软件RNAPLFOLD(版本号2.2.4)(参见文献“Lewis BP,Burge CB,Bartel DP.Conserved seed pairing,often flanked by adenosines,indicates thatthousands of human genes are microRNA targets.Cell.2005,120(1):15-20.”)确定该脱靶基因mRNA自身不形成二级结构的概率。具体而言，利用该软件对人类全基因组mRNA的二级结构进行预测，并对输出结果提取相关文本和数值信息以形成本地化的数据库，以实现高速读取，提高计算速度。RNAPLFOLD的参数设计，具体包括：L＝40，W＝80，u＝25。例如，就上述脱靶基因的mRNA和siRNA序列互补的区域，该脱靶基因不能形成二级结构的概率是0.5425，结合基于两端干扰率获得的整体的干扰率为0.7708，该脱靶基因的脱靶权重为0.5425乘以0.7708等于0.4182。

iii)-vi)对所选脱靶基因进行组学注释，得到组学权重；由组学权重和脱靶权重，计算组学特征值

(1)基于所有所选的脱靶基因的蛋白质互作权重和脱靶权重，计算蛋白质组特征值

对STRING数据库中人类的links表格做了本地化处理(即下载到本地计算机的硬盘中)，并且将蛋白的名称转化为常用的基因名，以便计算操作。用特定siRNA作用于细胞，通过上述方法，确定了可能的脱靶基因及其权重。图6示例性示出如果某一siRNA有七个脱靶基因(圆圈表示)的简化例子，其中每个基因都带有示意性的脱靶权重(圆圈中的数字)。根据STRING数据库的信息确定它们之中哪些具有互作关系以及蛋白质互作权重。图6示例性示出如果其中三个基因之间有互作关系的例子，它们之间用线条连接，线条上的数字示出互作关系权重。由此计算得到蛋白质组特征值＝0.9×(280+160)+0.8×280+0.6×160。即，对于每个脱靶基因，如果它参与到一个互作关系中，那么用其脱靶权重乘以蛋白质互作权重；如果它参与到多个互作关系中，那么用其脱靶权重乘以各蛋白质互作权重的和；如果脱靶基因是孤立的，那么忽略它的影响。各条siRNA的脱靶基因的蛋白质组特征值计算结果见表4。

表4：siRNA的脱靶基因的蛋白质组特征值计算结果

siRNA名称	蛋白质组特征值
		siRNA4	150.0129
siRNA5	135.2095
		siRNA6	182.5355
siRNA7	97.8546
		siRNA8	102.6913
siRNA9	88.8456
		siRNA10	106.3368
siRNA11	65.3091
		siRNA12	141.7128
siRNA13	101.5539
		siRNA14	82.2402
siRNA15	107.9213
		siRNA16	107.9795
siRNA17	122.7014
		siRNA18	182.3832
siRNA19	134.8214

(2)基于所有所选的脱靶基因的信号通路权重和脱靶权重，计算信号通路组特征值

对人类通路组数据库ConsensusPathDB-human(版本号31)做了本地化处理。用所确定的各个脱靶基因的脱靶权重分别乘以各自所参与的通路的个数，再取和，就可以作为信号通路组特征值，如果脱靶基因是孤立的，那么忽略它的影响。例如，确定了三个脱靶基因A、B、C，根据该数据库得知A参与3个已知通路，B参与2个已知通路，C是孤立的，那么它们的信号通路组特征值为(A的脱靶权重乘以3)加上(B的脱靶权重乘以2)。各条siRNA的脱靶基因的信号通路组特征值计算结果见表5。

表5：siRNA的脱靶基因的信号通路组特征值计算结果

siRNA名称	信号通路组特征值
		siRNA4	653.2424
siRNA5	585.7767
		siRNA6	742.5516
siRNA7	372.6335
		siRNA8	404.0694
siRNA9	416.7108
		siRNA10	419.1286
siRNA11	318.9158
		siRNA12	717.8643
siRNA13	476.5563
		siRNA14	362.0600
siRNA15	368.6291
		siRNA16	440.0923
siRNA17	551.1228
		siRNA18	837.8167
siRNA19	258.3346

(3)基于所有所选的脱靶基因的核心基因权重和脱靶权重，计算核心基因组特征值

目前已知发现了超过1500个核心基因。例如，如果确定4个脱靶基因A’、B’、C’、D’，根据所发现的核心基因确定其中B’和C’为核心基因，那么它们的核心基因组特征值为B’的脱靶权重加上C’的脱靶权重。各条siRNA的脱靶基因的核心基因组特征值计算结果见表6。

表6：siRNA的脱靶基因的核心基因组特征值计算结果

siRNA名称	核心基因组特征值
		siRNA4	7.6147
siRNA5	6.6085
		siRNA6	8.0534
siRNA7	5.7126
		siRNA8	8.5514
siRNA9	5.3999
		siRNA10	5.8094
siRNA11	4.6920
		siRNA12	7.3661
siRNA13	5.4217
		siRNA14	5.7174
siRNA15	4.9374
		siRNA16	6.1381
siRNA17	4.1732
		siRNA18	7.2726
siRNA19	4.0797

其中，所述16条siRNA中任一条siRNA的输出值是这样得到的：

分别用上述16条siRNA(表1中的siRNA4和表2中的15条错配序列siRNA5-siRNA19)转染A549细胞，并设置空白组(未转染)，阴性对照组(转染了随机序列的siRNA(Invitrogen合成)，即不针对MGMT基因的siRNA)，按上述培养条件培养48小时后，用CCK-8溶液处理细胞，每孔加入10μL CCK-8溶液，将培养板在培养箱内孵育0.5-1小时。用酶标仪测定在450nm处的吸光度，收集OD450数据，分别计算各实验组OD450值与空白组OD450值的比率，得到各组的细胞生存指数，结果详见图7。

对比图7和图3可知，经各siRNA转染的细胞的生存指数与MGMT的mRNA表达量没有显著的关联关系，与siRNA序列错配位点和个数之间的关系也不存在一定的规律，这表明细胞生存指数的不同是由siRNA的脱靶效应引起的。除了脱靶基因之外，siRNA对其它基因也有一定的影响，因为各个脱靶基因在RNA组、蛋白质组、通路组等各个层面上均有复杂的网络互作效应。

C.通过机器学习算法建立机器学习模型

(1)通过机器学习算法ANN建立机器学习模型

如上所述，针对某一特定siRNA，获得了蛋白质组特征值、信号通路组特征值和核心基因组特征值，在用这些数据作为机器学习算法的输入值之前，需要经过标准化处理。采用(数值-最小值)/(最大值-最小值)的方法，将数据一一映射到0-1区间。标准化处理的蛋白质组特征值、信号通路组特征值和核心基因组特征值结果见表7。

表7：标准化处理的蛋白质组特征值、信号通路组特征值和核心基因组特征值结果

对于机器学习算法的输出值数据，即siRNA存在下的细胞的生存指数，在作为输出值数据之前，对其进行二元化处理(例如，以生存指数0.9为边界值，高于或等于0.9的定为1，其余定为0)。二元化处理的细胞生存指数结果见表8。

表8：二元化处理的细胞生存指数结果

siRNA名称	二元化处理的细胞生存指数
		siRNA4	1
siRNA5	1
		siRNA6	1
siRNA7	1
		siRNA8	1
siRNA9	0
		siRNA10	0
siRNA11	1
		siRNA12	0
siRNA13	0
		siRNA14	0
siRNA15	0
		siRNA16	0
siRNA17	0
		siRNA18	0
siRNA19	0

将标准化处理的蛋白质组特征值、信号通路组特征值和核心基因组特征值作为输入值，二元化处理的细胞生存指数作为输出值代入人工神经网络算法(ANN)，使用R的库函数neuralnet，其中主要可调节参数为hidden，优选方案可将其设置为1。

采用8折交叉验证(8-fold cross validation)对模型进行评价，将数据集分成8份，轮流将其中7份做训练，1份做验证，8次的结果的均值作为对算法精度的估计。上述算法的精确度可达56.25％。

(2)通过机器学习算法SVM建立机器学习模型

如上所述，针对某一特定siRNA，获得了蛋白质组特征值、信号通路组特征值和核心基因组特征值，在用这些数据作为机器学习算法的输入值之前，需要经过标准化处理。采用(数值-最小值)/(最大值-最小值)的方法，将数据一一映射到0-1区间。结果同表7。

对于机器学习算法的输出值数据，即siRNA存在下的细胞的生存指数，在作为输出值数据之前，对其进行二元化处理(例如，以生存指数0.9为边界值，高于或等于0.9的定为1，其余定为0)。结果同表8。

将标准化处理的蛋白质组特征值、信号通路组特征值和核心基因组特征值作为输入值，二元化处理的细胞生存指数作为输出值代入支持向量机算法(SVM)，使用R的库函数svm，其中主要可调节参数为hidden，优选方案将其设置为linear。

采用8折交叉验证对模型进行评价，将数据集分成8份，轮流将其中7份做训练，1份做验证，8次的结果的均值作为对算法精度的估计。上述算法的精确度可达62.5％。

在本实施例中采用了16条siRNA(即n＝16)，可以理解的是，当上述siRNA的样本量提高时，上述算法的精确度可以进一步提高。

实施例2：利用机器学习模型预测siRNA针对人呼吸系统细胞的毒性

作为例子，使用实施例1得到的机器学习模型(具体为通过机器学习算法SVM建立的机器学习模型)，来预测上述16条siRNA对人呼吸系统细胞的毒性的影响，结果列于表9，其中分别列出实验所获的值(二元化处理的实验值，即表8所示的二元化处理的细胞生存指数)和根据机器学习的模型预测的值(预测值)，标记有下划线的预测值与实验值有差异。表9中数值含义如下：以细胞生存率0.9为边界值，其中大于0.9的为1，小于0.9的为0，即1表示无细胞毒性，0表示有细胞毒性。

表9：siRNA对人呼吸系统细胞的毒性的影响

siRNA名称	二元化处理的实验值	预测值
			siRNA4	1	0
siRNA5	1	0
			siRNA6	1	1
siRNA7	1	0
			siRNA8	1	1
siRNA9	0	0
			siRNA10	0	0
siRNA11	1	0
			siRNA12	0	0
siRNA13	0	0
			siRNA14	0	0
siRNA15	0	0
			siRNA16	0	0
siRNA17	0	0
			siRNA18	0	0
siRNA19	0	0

由表9所示的结果可知，通过本发明方法建立的模型可以较为准确地预测出相对有细胞毒性的那些siRNA。在实际应用时，可以选取预测值为1(无细胞毒性)的那些siRNA进一步作为候选药物。

SEQUENCE LISTING

<110> 杭州康万达医药科技有限公司

<120> 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用

<130> FI-162414-59:52/C

<160> 38

<170> PatentIn version 3.5

<210> 1

<211> 21

<212> DNA

<213> 人工序列

<400> 1

ggaagccuau uuccgugaat t 21

<210> 2

<211> 21

<212> DNA

<213> 人工序列

<400> 2

uucacggaaa uaggcuucct t 21

<210> 3

<211> 21

<212> DNA

<213> 人工序列

<400> 3

gacaaggauu gugaaaugat t 21

<210> 4

<211> 21

<212> DNA

<213> 人工序列

<400> 4

ucauuucaca auccuuguct t 21

<210> 5

<211> 21

<212> DNA

<213> 人工序列

<400> 5

auggcuucug gcccaugaat t 21

<210> 6

<211> 21

<212> DNA

<213> 人工序列

<400> 6

uucaugggcc agaagccaut t 21

<210> 7

<211> 21

<212> DNA

<213> 人工序列

<400> 7

ccagacaggu guuauggaat t 21

<210> 8

<211> 21

<212> DNA

<213> 人工序列

<400> 8

uuccauaaca ccugucuggt t 21

<210> 9

<211> 21

<212> DNA

<213> 人工序列

<400> 9

ccagacaggu guuauggaut t 21

<210> 10

<211> 21

<212> DNA

<213> 人工序列

<400> 10

auccauaaca ccugucuggt t 21

<210> 11

<211> 21

<212> DNA

<213> 人工序列

<400> 11

ccagacaggu guuaugguut t 21

<210> 12

<211> 21

<212> DNA

<213> 人工序列

<400> 12

aaccauaaca ccugucuggt t 21

<210> 13

<211> 21

<212> DNA

<213> 人工序列

<400> 13

ccagacaggu guuaugcuut t 21

<210> 14

<211> 21

<212> DNA

<213> 人工序列

<400> 14

aagcauaaca ccugucuggt t 21

<210> 15

<211> 21

<212> DNA

<213> 人工序列

<400> 15

ccagacaggu guuauccuut t 21

<210> 16

<211> 21

<212> DNA

<213> 人工序列

<400> 16

aaggauaaca ccugucuggt t 21

<210> 17

<211> 21

<212> DNA

<213> 人工序列

<400> 17

ccagacaggu guuaaccuut t 21

<210> 18

<211> 21

<212> DNA

<213> 人工序列

<400> 18

aagguuaaca ccugucuggt t 21

<210> 19

<211> 21

<212> DNA

<213> 人工序列

<400> 19

ccagacaggu guuuaccuut t 21

<210> 20

<211> 21

<212> DNA

<213> 人工序列

<400> 20

aagguaaaca ccugucuggt t 21

<210> 21

<211> 21

<212> DNA

<213> 人工序列

<400> 21

ccagacaggu guauaccuut t 21

<210> 22

<211> 21

<212> DNA

<213> 人工序列

<400> 22

aagguauaca ccugucuggt t 21

<210> 23

<211> 21

<212> DNA

<213> 人工序列

<400> 23

gcagacaggu guuauggaat t 21

<210> 24

<211> 21

<212> DNA

<213> 人工序列

<400> 24

uuccauaaca ccugucugct t 21

<210> 25

<211> 21

<212> DNA

<213> 人工序列

<400> 25

ggagacaggu guuauggaat t 21

<210> 26

<211> 21

<212> DNA

<213> 人工序列

<400> 26

uuccauaaca ccugucucct t 21

<210> 27

<211> 21

<212> DNA

<213> 人工序列

<400> 27

ggugacaggu guuauggaat t 21

<210> 28

<211> 21

<212> DNA

<213> 人工序列

<400> 28

uuccauaaca ccugucacct t 21

<210> 29

<211> 21

<212> DNA

<213> 人工序列

<400> 29

ggucacaggu guuauggaat t 21

<210> 30

<211> 21

<212> DNA

<213> 人工序列

<400> 30

uuccauaaca ccugugacct t 21

<210> 31

<211> 21

<212> DNA

<213> 人工序列

<400> 31

ggucucaggu guuauggaat t 21

<210> 32

<211> 21

<212> DNA

<213> 人工序列

<400> 32

uuccauaaca ccugagacct t 21

<210> 33

<211> 21

<212> DNA

<213> 人工序列

<400> 33

ggucugaggu guuauggaat t 21

<210> 34

<211> 21

<212> DNA

<213> 人工序列

<400> 34

uuccauaaca ccucagacct t 21

<210> 35

<211> 21

<212> DNA

<213> 人工序列

<400> 35

ggucuguggu guuauggaat t 21

<210> 36

<211> 21

<212> DNA

<213> 人工序列

<400> 36

uuccauaaca ccacagacct t 21

<210> 37

<211> 21

<212> DNA

<213> 人工序列

<400> 37

ccagacagca cuuauggaat t 21

<210> 38

<211> 21

<212> DNA

<213> 人工序列

<400> 38

uuccauaagu gcugucuggt t 21

Claims

1.一种建立用于预测siRNA针对某类细胞的毒性的机器学习模型的方法，包括以下步骤：

A)提供n条siRNA，其中n≥2，并且其中所述siRNA的长度为19-29bp；

其中，所述n条siRNA中的任一条siRNA的输入值是这样得到的：

并且，该条siRNA的输出值是这样得到的：

2.根据权利要求1所述的方法，其中所述错配碱基的特征包括错配碱基的数目，任选包括错配碱基的位置。

3.根据权利要求1或2所述的方法，其中所述脱靶基因mRNA序列的二级结构特征为，就所述互补区该mRNA自身不形成二级结构的概率。

4.根据权利要求3所述的方法，其中对于每个所选脱靶基因，根据所述错配碱基的特征计算该条siRNA对该脱靶基因mRNA的表达量的干扰率，并且计算该干扰率与所述不形成二级结构的概率的乘积，从而得到该脱靶基因的脱靶权重。

5.根据权利要求3所述的方法，其中利用选自以下的软件预测每个脱靶基因mRNA的所述不形成二级结构的概率：RNAPLFOLD、mfold或RNAstructure。

6.根据权利要求1所述的方法，其中所述组学的特征值包括蛋白质组特征值、信号通路组特征值和核心基因组特征值中的至少一者，并且所述蛋白质组特征值、所述信号通路组特征值和所述核心基因组特征值分别各自按照以下a)至c)计算：

7.根据权利要求1所述的方法，其中在建立所述机器学习模型之前，对所述输入值进行标准化处理。

8.根据权利要求1所述的方法，其中所述机器学习算法包括：支持向量机、人工神经网络、决策树或回归模型。

9.根据权利要求1所述的方法，其中在步骤i)中，所选择的脱靶基因不包括这样的脱靶基因：其mRNA与所述siRNA序列的互补区仅位于其5’UTR。

10.根据权利要求1所述的方法，其中在步骤i)中，所选择的脱靶基因不包括在正常状态下的所述某类细胞中不表达的基因。

11.根据权利要求1-10中任一项所述的方法在预测siRNA针对某类细胞的毒性中的应用。

12.一种计算机可读介质，该计算机可读介质能够用于根据权利要求1-10中任一项所述的方法建立所述机器学习模型，并且该计算机可读介质包括以下模块：

序列比对模块，用于执行权利要求1-10中任一项所述方法所述的步骤i)；

脱靶权重计算模块，用于执行权利要求1-10中任一项所述方法所述的步骤ii)；

组学注释模块，用于执行权利要求1-10中任一项所述方法所述的步骤iii)；

组学特征值计算模块，用于执行权利要求1-10中任一项所述方法所述的步骤iv)；

机器学习算法计算模块，用于执行权利要求1-10中任一项所述方法所述的步骤C)。

13.一种用于预测siRNA针对某类细胞的毒性的装置，包括：

1)输入单元，用于输入待测siRNA的序列；

2)存储单元，用于存储利用权利要求1-10中任一项所述方法针对该类细胞建立的机器学习模型；

3)执行单元，用于对所述siRNA的序列执行所述机器学习模型；

14.一种预测siRNA针对某类细胞的毒性的方法，包括：

提供待测siRNA的序列；

将该siRNA的序列输入权利要求13所述的装置，通过该装置执行利用权利要求1-10中任一项所述方法针对该类细胞建立的机器学习模型，从而得到该siRNA针对该类细胞的毒性的预测结果。