CN116825192A - 一种ncRNA基因突变的解读方法、存储介质及终端 - Google Patents
一种ncRNA基因突变的解读方法、存储介质及终端 Download PDFInfo
- Publication number
- CN116825192A CN116825192A CN202310653276.9A CN202310653276A CN116825192A CN 116825192 A CN116825192 A CN 116825192A CN 202310653276 A CN202310653276 A CN 202310653276A CN 116825192 A CN116825192 A CN 116825192A
- Authority
- CN
- China
- Prior art keywords
- ncrna
- gene
- mutation
- data set
- ncrna gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108020004417 Untranslated RNA Proteins 0.000 title claims abstract description 299
- 102000039634 Untranslated RNA Human genes 0.000 title claims abstract description 299
- 206010064571 Gene mutation Diseases 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 180
- 230000035772 mutation Effects 0.000 claims abstract description 90
- 201000010099 disease Diseases 0.000 claims abstract description 88
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 88
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 230000007918 pathogenicity Effects 0.000 claims abstract description 47
- 230000001717 pathogenic effect Effects 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 9
- 238000007477 logistic regression Methods 0.000 claims abstract description 7
- 108700026220 vif Genes Proteins 0.000 claims abstract description 4
- 238000010276 construction Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 230000002759 chromosomal effect Effects 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 9
- 210000000349 chromosome Anatomy 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 7
- 230000002939 deleterious effect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000007614 genetic variation Effects 0.000 claims description 3
- 230000001988 toxicity Effects 0.000 abstract description 15
- 231100000419 toxicity Toxicity 0.000 abstract description 15
- 230000006870 function Effects 0.000 description 10
- 238000012163 sequencing technique Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 108091030146 MiRBase Proteins 0.000 description 3
- 201000003043 Persistent hyperplastic primary vitreous Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 101000741396 Chlamydia muridarum (strain MoPn / Nigg) Probable oxidoreductase TC_0900 Proteins 0.000 description 2
- 101000741399 Chlamydia pneumoniae Probable oxidoreductase CPn_0761/CP_1111/CPj0761/CpB0789 Proteins 0.000 description 2
- 101000741400 Chlamydia trachomatis (strain D/UW-3/Cx) Probable oxidoreductase CT_610 Proteins 0.000 description 2
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 108091070501 miRNA Proteins 0.000 description 2
- 239000002679 microRNA Substances 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 102000042567 non-coding RNA Human genes 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 108091028075 Circular RNA Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 241000288113 Gallirallus australis Species 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108010089610 Nuclear Proteins Proteins 0.000 description 1
- 102000007999 Nuclear Proteins Human genes 0.000 description 1
- 108091007412 Piwi-interacting RNA Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 102000054767 gene variant Human genes 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004055 small Interfering RNA Substances 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种ncRNA基因突变的解读方法、存储介质及终端,解读方法包括:构建ncRNA基因致病性突变标准数据集、ncRNA基因良性变异标准数据集和用于实验验证的ncRNA基因变异有害性标准数据集;利用前述数据集构建训练ncRNA基因变异有害性的计分模型、ncRNA基因相关疾病表型相似度计分模型,采用数据挖掘软件对包含相同数量的致病性和良性的ncRNA基因变异位点的有害性计分文件和ncRNA基因的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncRNA基因致病性突变的筛查鉴定的算法模型,对算法模型进行训练,利用训练后的算法模型对ncRNA基因突变进行解读和报告。实现针对ncRNA基因突变的标准化、自动会、智能化和高通量地临床解读报告,大大提升了解读效率,解读的准确性。
Description
技术领域
本发明涉及基因技术领域,尤其涉及一种ncRNA基因突变的解读方法、存储介质及终端。
背景技术
非编码RNA(noncoding RNA,ncRNA)是一类细胞内不编码蛋白的RNA,根据其物理生理特性可分为长非编码RNA,微小RNA,环状RNA,piRNA,核小RNA和核仁小RNA等。近年的研究发现,ncRNA基因突变与各种人类重大疾病的发生发展密切相关,已成为疾病诊断治疗和预后的潜在标志物。目前一个典型的临床全基因组测序,能够发现上百万个基因组变异,而其中绝大部分的变异都落在基因组的非编码区域,涉及各种ncRNA基因。相比编码基因变异的解读,目前十分缺乏系统的筛选鉴定方法来在全基因组范围内实现ncRNA基因突变的方法和工具系统,只能基于已发表的文献和ncRNA疾病知识库,依赖人工的知识经验进行解读报告,导致解读报告效率非常低下。由于针对ncRNA基因突变,缺乏统一的解读报告专业标准,导致同样的检测数据可能出现不同的解读报告。例如,目前存在多种多样的ncRNA疾病知识库,不同ncRNA疾病知识库在疾病和ncRNA命名方面存在很强的异质性,缺乏使用统一的本体术语进行注释。
虽然目前国际上的研究人员开发了一些人工智能辅助筛查鉴定致病性基因组变异的工具,但是这些工具在理论层面只能筛查鉴定编码基因及其调控区域上的致病性变异,无法有效地筛查鉴定ncRNA基因上的致病性变异,更无法实现对ncRNA突变进行自动化解读和报告。
因此,现有技术还有待于进一步的改进和提升。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种ncRNA基因突变的解读方法,该方法能够对ncRNA致病性突变进行高通量筛查解读和报告。
为达此目的,本发明采用以下技术方案:
第一方面,一种ncRNA基因突变的解读方法,其中,包括:
构建ncRNA基因致病性突变标准数据集、ncRNA基因良性变异标准数据集和实验验证的ncRNA基因变异有害性标准数据集;
利用所述ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集,对两个及以上有监督的机器学习算法分别进行模型训练,得到特异性评估ncRNA基因变异有害性的计分模型;
采用所述特异性评估ncRNA基因变异有害性的计分模型对候选ncRNA基因的变异有害性进行计算,得到ncRNA基因的变异位点的有害性计分文件;
构建ncRNA基因与人类疾病表型关联的标准数据集;基于所述标准数据集构建ncRNA基因相关疾病表型相似度计分模型,采用所述ncRNA基因相关疾病表型相似度计分模型对所述候选ncRNA基因的疾病表型相似度进行计算,得到所述候选ncRNA基因的疾病表型相似度计分文件;
采用数据挖掘软件对包含相同数量的致病性和良性的ncRNA基因变异位点的有害性计分文件和ncRNA基因的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncRNA基因致病性突变的筛查鉴定的算法模型;
采用所述实验验证的ncRNA基因变异有害性标准数据集对所述算法模型进行优化评估,采用优化评估后的算法模型对ncRNA基因突变进行解读和报告。
本发明通过构建ncRNA基因变异有害性标准数据集,基于该标准数据集,利用多种先进的有监督机器学习算法建立准确特异性评估ncRNA基因变异的有害性计分模型。进一步地,利用多种先进的表型相似度算法建立准确特异性评估ncRNA基因疾病表型相似度计分模型,再利用先进的机器学习算法融合ncRNA基因变异功能有害性计分模型和ncRNA基因疾病表型相似度计分模型,来建立智能筛查解读和报告ncRNA致病性突变的系统。实现了针对ncRNA基因突变的标准化、自动会、智能化和高通量地临床解读报告,不但可以大大提升解读效率,还可以大大增加解读的准确性,克服主观因素导致的解读不一致问题。
以下作为本发明的优选技术方案,但不作为对本发明提供的技术方案的限制,通过以下优选的技术方案,可以更好的达到和实现本发明的目的和有益效果。
作为优选的技术方案,所述的ncRNA基因突变的解读方法,其中,所述ncRNA基因致病性突变标准数据集的构建包括:
从疾病相关基因组变异数据库中获取各种基因组变异数据,包括ncRNA基因致病性突变和良性变异,并用USCS liftover工具标准化变异参考基因组染色体位置;
获取各种ncRNA基因组注释文件,所述ncRNA基因组注释文件包括ncRNA基因的染色体位置等信息,并使用专业的术语资源对所述各种ncRNA基因的名称进行标准化;
基于疾病相关基基因组变异和ncRNA基因染色体位置信息,将ncRNA基因组变异注释文件映射到ncRNA基因上,得到所述ncRNA基因致病性突变标准数据集。
作为优选的技术方案,所述的ncRNA基因突变的解读方法,其中,所述ncRNA基因良性变异标准数据集的构建包括:
从健康人群基因变异数据库中获取各种良性得基因组变异数据,包括ncRNA基因良性变异,并用USCS liftover工具标准化变异参考基因组染色体位置;
获取各种ncRNA基因组注释文件,所述ncRNA基因组注释文件包括ncRNA基因的染色体位置等信息,并使用专业的术语资源对所述各种ncRNA基因的名称进行标准化,;
基于基因组良性变异和ncRNA基因染色体位置信息,将ncRNA基因组变异注释文件映射到ncRNA基因上,得到所述ncRNA基因良性变异标准数据集。
作为优选的技术方案,所述的ncRNA基因突变的解读方法,其中,所述特异性评估ncRNA基因变异有害性的计分模型的获取包括:
利用所述ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集,对支持向量机和随机森林等模型分别进行训练和3-7倍的交叉验证,并对交叉验证设置的模型参数分别计算均值,作为所支持向量机和随机森林模型的最终预测参数;
对所述支持向量机和随机森林等模型进行加权整合,得到加权整合的预测模型;
将所述加权整合的预测模型分别和所述支持向量机和随机森林模型进行比较,得到所述特异性评估ncRNA基因变异有害性的计分模型。
作为优选的技术方案,所述的ncRNA基因突变的解读方法,其中,所述构建ncRNA基因与人类疾病表型关联的标准数据集具体包括:
从与疾病关联的数据库中下载并进行整合注释,得到各种ncRNA与疾病关联的数据,使用专业的术语资源对所述各种ncRNA的名称进行标准化;
利用疾病表型本体术语数据库,对各种疾病表型名称进行标准化注释,得到ncRNA基因与人类疾病表型关联的标准数据集。
作为优选的技术方案,所述的ncRNA基因突变的解读方法,其中,所述ncRNA基因相关疾病表型相似度计分模型的构建具体包括:
基于所述ncRNA基因与人类疾病表型关联的标准数据集,利用Phenomizer表型相似度算法和Phrank表型相似度算法分别建立ncRNA相关疾病表型相似度计分模型,对所建立的两个计分模型进行比较,得到所述ncRNA基因相关疾病表型相似度计分模型。
第二方面,一种ncRNA基因突变的解读系统,其中,包括:
ncRNA基因变异有害性数据集构建模块,用于构建ncRNA基因致病性突变标准数据集、ncRNA基因良性变异标准数据集和实验验证的ncRNA基因变异有害性标准数据集;
特异性评估ncRNA基因变异有害性的计分模型构建模块,用于利用所述ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集,对两个及以上有监督的机器学习算法分别进行模型训练,得到特异性评估ncRNA基因变异有害性的计分模型;采用所述特异性评估ncRNA基因变异有害性的计分模型,计算得到候选ncRNA基因变异有害性计分文件;
ncRNA基因相关疾病表型相似度计分模型构建模块,用于构建ncRNA基因与人类疾病表型关联的标准数据集;基于所述标准数据集构建ncRNA基因相关疾病表型相似度计分模型,通过疾病表型关联到候选ncRNA致病基因集,得到候选ncRNA基因集的致病性计分文件;
ncRNA基因致病性突变筛查鉴定的算法模型构建模块,用于采用数据挖掘软件对包含相同数量的致病性和良性的ncRNA变异位点的有害性计分文件和ncRNA的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncRNA基因致病性突变的筛查鉴定的算法模型;
ncRNA基因突变解读模块,用于采用所述实验验证的ncRNA基因变异有害性标准数据集对所述算法模型进行优化评估,采用优化评估后的算法模型对ncRNA基因突变进行解读和报告。
作为优选的技术方案,所述的ncRNA基因突变的解读系统,其中,还包括人工审核模块,用于对训练后的算法模型解读出的结果进行审核。
第三方面,一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述所述的ncRNA基因突变的解读方法中的步骤。
第四方面,一种终端设备,其中,所述终端设备包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上述所述的ncRNA基因突变的解读方法中的步骤。
有益效果:与现有技术相比,本发明提供的ncRNA基因突变的解读方法,通过构建针对ncRNA基因的变异功能有害性计分模型和针对ncRNA基因的疾病表型相似度计分模型,分别得到ncRNA基因变异有害性计分文件和候选ncRNA基因集的致病性计分文件,通过对包含相同数量的致病性和良性的ncRNA变异位点的有害性计分文件和ncRNA的疾病表型相似度计分文件进行逻辑回归建模。得到算法模型,对算法模型进行优化评估,利用优化评估好的算法模型实现针对ncRNA基因突变的标准化、自动会、智能化和高通量地临床解读报告,大大提升了解读效率,解读的准确性。
附图说明
图1为本发明中ncRNA基因突变的解读方法流程示意图。
图2为本发明中ncRNA基因变异有害性标准数据集构建流程示意图。
图3为本发明中ncRNA基因变异有害性计分模型的建立方法示意图。
图4为本发明中ncRNA与疾病表型关联标准数据集的建立方法示意图。
图5为本发明中人工智能评估ncRNA基因突变有害性算法的建立方法示意图。
图6为本发明中人工智能辅助评估报告ncRNA基因突变有害性系统示意图。
图7为本发明中人工智能辅助评估报告ncRNA基因突变有害性系统工作流程示意图。
图8为本发明中终端结构示意图。
具体实施方式
本发明提供一种ncRNA基因突变的解读方法、解读系统、计算机可读存储介质及终端,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种ncRNA基因突变的解读方法,如图1所示,所述方法包括:
S10、构建ncRNA基因致病性突变标准数据集、ncRNA基因良性变异标准数据集和实验验证的ncRNA基因变异有害性标准数据集。
具体来说,第一步,从ncRNAVar、MSDD、GWAS Catalog、COSMIC(Catalogue ofSomatic Mutations in Cancer)和IGSR(The International Genome Sample Resource)等数据库中下载和整合各种基因组变异信息数据,涉及基因组变异名称及其染色体位置和致病性信息等,包括ncRNA基因致病性突变和良性突变,并进一步利用USCS liftover工具对基因组变异注释上不同参考基因组的染色体位置信息(图2中A、C和D);第二步,从GENCODE、miRBase、circAtlas、circBase、piRbase等数据库中下载最新的各种ncRNA基因组注释文件,涉及ncRNA基因名称及其染色体位置信息等(图2中B);第三步,基于基因组变异和ncRNA基因的染色体位置信息,将第一步获得的基因组变异映射到第二步获得的ncRNA基因上,即可建立ncRNA基因变异有害性数据,包括ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集(图2中D)。
ncRNA基因变异有害性数据的特征注释(图2中D):使用公认已发表的RNAfold、SNPnexus、TargetScan、miRanda、GWAVA和CADD等计算机工具,对ncRNA基因变异位点所在的基因组特征和对其所在的ncRNA的结构和功能潜在影响信息进行特征注释。
从ncRNAVar、MSDD、miRNASNP和lncRNASNP等数据库中系统整合,并使用RNAcentral、piRBase、miRBase、circBase、Ensembl以及NONCODE等专业的术语资源对各种ncRNA的名称进行标准化,建立实验验证的ncRNA基因变异有害性数据集(图2中E和D)。
S20、利用所述ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集,对两个及以上有监督的机器学习算法分别进行模型训练,得到特异性评估ncRNA基因变异有害性的计分模型。
具体来说,利用S10建立的ncRNA基因致病性突变标准数据集、ncRNA基因良性变异标准数据集,对支持向量机(SVM)和随机森林(RF)等有监督的机器学习算法分别进行模型训练和3~7倍的交叉验证,并对交叉验证设置的模型参数分别计算平均值,作为各自单独模型的最终预测参数(图3)。随后可进一步对以上这两种单独的预测模型进行加权整合,建立一个加权整合的预测模型,最后将加权整合的预测模型分别和以上这两种单独的最终预测模型进行性能比较(包括准确性和特异性等),获得准确特异性评估ncRNA基因变异有害性的计分模型(图3和图5中①)。
S30、采用所述特异性评估ncRNA基因变异有害性的计分模型对候选ncRNA基因的变异位点有害性进行计算,得到ncRNA基因的变异位点的有害性计分文件。
S40、构建ncRNA基因与人类疾病表型关联的标准数据集;基于所述标准数据集构建ncRNA基因相关疾病表型相似度计分模型,采用所述ncRNA基因相关疾病表型相似度计分模型对所述候选ncRNA基因的疾病表型相似度进行计算,得到所述候选ncRNA基因的疾病表型相似度计分文件.
具体来说,如图4所示,首先从ncRPheno、RNADisease、ncRNAVar、CircR2Disease和piRBase等高质量的公共数据库中下载并进行标准化整合注释获得各种ncRNA与疾病关联的数据。随后,不仅使用RNAcentral、piRBase、miRBase、circBase、Ensembl以及NONCODE等专业的术语资源对各种ncRNA的名称进行标准化,还使用人类表型本体数据库(HumanPhenotype Ontology,HPO)、OMIMI、疾病本体数据库(Disease Ontology,DO)、实验因子本体数据库(Experimental Factor Ontology,EFO)等疾病表型本体术语数据库,对各种疾病表型名称进行标准化注释,可建立一个高质量的ncRNA基因与人类疾病表型关联的标准数据集。
进一步地,基于ncRNA与人类疾病表型关联标准数据集,可利用Phenomizer(是一种搜索临床表型来对疾病表型相似度排名的新方法)和Phrank(是一种信息理论启发的疾病表型相似度排名新方法)表型相似度算法分别建立ncRNA相关疾病表型相似度计分模型,通过比较它们之间的实际性能(包括准确性和特异性等),获得针对ncRNA基因的最佳疾病表型相似度计分模型(图5中②),从而通过疾病表型关联到候选ncRNA致病基因集并实现对候选基因集的致病性计分。
S50、采用数据挖掘软件对包含相同数量的致病性和良性的ncRNA基因变异位点的有害性计分文件和ncRNA基因的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncRNA基因致病性突变的筛查鉴定的算法模型。
具体来说,如图5所示,使用S10中标准化整合注释到的高质量致病性或功能性的ncRNA基因变异位点和千人基因组项目中相当数量的良性ncRNA基因变异位点,利用Weka数据挖掘套件对包含相同数量的致病性的和良性的ncRNA变异位点的有害性计分和ncRNA的疾病表型相似度计分文件进行逻辑回归建模,并使用3~7倍交叉验证对模型进行训练和测试,同时对交叉验证运行中的参数进行计算平均值,从而建立准确特异性评估ncRNA基因致病性突变的人工智能筛查鉴定的算法模型,并对鉴定到ncRNA突变的致病性进行评分和划分临床致病性等级(图5中③)。
S60、采用所述实验验证的ncRNA基因变异有害性标准数据集对所述算法模型进行优化评估,采用优化评估后的算法模型对ncRNA基因突变进行解读和报告。
具体来说,使用S10建立的实验验证的ncRNA基因变异有害性数据集对该人工智能筛查鉴定算法模型进行性能优化评估(图5中④)。最后,基于S10和S40分别建立的ncRNA和ncRNA突变与疾病表型关联知识库,利用计算机技术实现ncRNA致病性突变的自动化临床报告功能。
基于上述ncRNA基因突变的解读方法,本实施例提供了一种ncRNA基因突变的解读系统,如图6所示,所述装置包括:
数据集构建模块100,用于构建ncRNA基因致病性突变标准数据集、ncRNA基因良性变异标准数据集和实验验证的ncRNA基因变异有害性标准数据集;
变异有害性的计分模型构建模块200,用于利用所述ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集,对两个及以上有监督的机器学习算法分别进行模型训练,得到特异性评估ncRNA基因变异有害性的计分模型;采用所述特异性评估ncRNA基因变异有害性的计分模型,计算得到候选ncRNA基因变异有害性计分文件;
疾病表型相似度计分模型构建模块300,用于构建ncRNA基因与人类疾病表型关联的标准数据集;基于所述标准数据集构建ncRNA基因相关疾病表型相似度计分模型,通过疾病表型关联到候选ncRNA致病基因集,得到候选ncRNA基因集的致病性计分文件;
算法模型构建模块400,用于采用数据挖掘软件对包含相同数量的致病性和良性的ncRNA变异位点的有害性计分和ncRNA的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncRNA基因致病性突变的筛查鉴定的算法模型;
解读模块500,用于采用所述实验验证的ncRNA基因变异有害性标准数据集对所述算法模型进行训练,采用训练后的算法模型对ncRNA基因突变进行解读和报告。
具体来说,如图7所示,测序分析模块涉及测序数据质控(如总碱基数量,总比对Reads数量和唯一比对上的Reads数量统计以及测序深度分析等),质控过滤低质量reads后,与参考基因组序列进行比对分析,并组装出该个体基因组的一致序列。进一步利用贝叶斯统计模型和基因型似然值计算检测出每个碱基位点的最大可能性基因型,以及使用连锁不平衡或推断技术用于优化基因组变异识别检出的准确性,最后筛选可信度高的基因组变异数据集并统计其在基因组中的分布。
ncRNA基因变异注释模块涉及ncRNA基因变异的筛选和鉴定,并进一步根据参考基因组信息对鉴定到的ncRNA变异进行注释,其中针对不同ncRNA类型注释对应所在的基因组特征和对其所在的ncRNA的结构和功能潜在影响信息,包括各种人群的基因变异频率信息、变异类型(例如在启动子区域、pre-miRNA区域和miRNA seed区域以及剪切位点等)、RNAfold等工具预测变异对ncRNA结构的影响信息、是否为GWAS相关变异、CADD和GWAVA等软件预测的功能有害性得分等。
电子病例临床表型提取模块可以利用自然语言处理的算法从患者的临床电子病例中自动化提取临床表型,并对临床表型进行利用本体术语如人类疾病表型本体术语进行注释;ncRNA基因相关疾病表型相似度计分模块是以自动化提取临床表型本体术语作为输入,基于所建立的ncRNA基因疾病表型相似度计分方法来实现候选ncRNA致病基因集的系统筛选和致病性计分排序;ncRNA基因变异功能有害性计分模块是以系统鉴定和注释的ncRNA变异数据作为输入,基于上述所述建立的ncRNA基因变异功能有害性计分方法来实现候选ncRNA基因致病突变的计分排序。
ncRNA基因变异致病性计分排序和临床分级模块是以上述建立的人工智能方法模型对ncRNA基因相关疾病表型相似度计分和ncRNA基因变异功能有害性计分进行加权整合和融合,实现ncRNA基因突变的致病性计分排序和临床分级,其中可对致病性计分进行归一化(如归一化到0-1之间),并根据计分结果将变异致病性划分为5个临床等级,包括良性、疑似良性、临床意义未明、疑似致病和致病等。
ncRNA基因疾病表型知识库是通过上述所述方法建立,该知识库对已文献报道的ncRNA突变和其相关的疾病以及支持的临床和实验证据等信息进行系统的整合和标准化的注释,涉及具体ncRNA的名称和功能描述,疾病名称和描述及其治疗和致病机理信息,ncRNA突变的类型和致病性信息及其在各种人群数据库的等位频率等信息。
ncRNA基因突变临床解读报告模块是一个基于上述ncRNA基因变异致病性计分排序和临床分级模块以及ncRNA基因疾病表型知识库来实现标准化、自动会、智能化和高通量地生成ncRNA基因突变临床解读报告的功能模块。
专家人工审核模块能够通知和允许人工专家登入系统进行审核模块自动化生成的ncRNA基因突变临床解读报告,并具有对报告审批是否通过、退回和修正等权限;基因检测报告在线展示发放模块可以让客户在线登入在线系统查询报告和查看报告实时状态的功能,同时当人工专家审核报告通过后,该模块会自动将基因检测报告发送自客户接收的电子邮箱,并通过手机短信的方式通知客户查收基因检测报告信息。此外,该模块还支持客户在手机和电脑等移动客户端进行检测报告在线咨询和反馈的功能。
基于上述ncRNA基因突变的解读方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的ncRNA基因突变的解读方法中的步骤。
基于上述ncRNA基因突变的解读方法,本申请还提供了一种终端设备,如图8所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种ncRNA基因突变的解读方法,其特征在于,包括:
构建ncRNA基因致病性突变标准数据集、ncRNA基因良性变异标准数据集和用于实验验证的ncRNA基因变异有害性标准数据集;
利用所述ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集,对两个及以上有监督的机器学习算法分别进行模型训练,得到特异性评估ncRNA基因变异有害性的计分模型;
采用所述特异性评估ncRNA基因变异有害性的计分模型对候选ncRNA基因的变异有害性进行计算,得到ncRNA基因的变异位点的有害性计分文件;
构建ncRNA基因与人类疾病表型关联的标准数据集;基于该标准数据集构建ncRNA基因相关疾病表型相似度计分模型,采用所述ncRNA基因相关疾病表型相似度计分模型对所述候选ncRNA基因的疾病表型相似度进行计算,得到所述候选ncRNA基因的疾病表型相似度计分文件;
采用数据挖掘软件对包含相同数量的致病性和良性的ncRNA基因变异位点的有害性计分文件和ncRNA基因的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncRNA基因致病性突变的筛查鉴定的算法模型;
采用所述实验验证的ncRNA基因变异有害性标准数据集对所述算法模型进行性能优化评估,采用优化评估后的算法模型对ncRNA基因突变进行解读和报告。
2.根据权利要求1所述的ncRNA基因突变的解读方法,其特征在于,所述ncRNA基因致病性突变标准数据集的构建包括:
从疾病相关基因组变异数据库中获取各种基因组变异数据,包括ncRNA基因致病性突变和良性变异,并用USCS liftover工具标准化变异参考基因组染色体位置;
获取各种ncRNA基因组注释文件,所述ncRNA基因组注释文件包括ncRNA基因的染色体位置信息,并使用专业的术语资源对各种ncRNA基因组的名称进行标准化;
基于疾病相关基因组变异和ncRNA基因染色体位置信息,将ncRNA基因组变异注释文件映射到ncRNA基因上,得到所述ncRNA基因致病性突变标准数据集。
3.根据权利要求1所述的ncRNA基因突变的解读方法,其特征在于,所述ncRNA基因良性变异标准数据集的构建包括:
从健康人群基因变异数据库中获取各种良性的基因组变异数据,包括ncRNA基因良性变异,并用USCS liftover工具标准化变异参考基因组染色体位置;
获取各种ncRNA基因组注释文件,所述ncRNA基因组注释文件包括ncRNA基因的染色体位置信息,并使用专业的术语资源对所述各种ncRNA基因的名称进行标准化;
基于基因组良性变异和ncRNA基因染色体位置信息,将ncRNA基因组变异注释文件映射到ncRNA基因上,得到所述ncRNA基因良性变异标准数据集。
4.根据权利要求1所述的ncRNA基因突变的解读方法,其特征在于,所述特异性评估ncRNA基因变异有害性的计分模型的获取包括:
利用所述ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集,对支持向量机和随机森林模型分别进行训练和3-7倍的交叉验证,并对交叉验证设置的模型参数分别计算均值,作为所支持向量机和随机森林模型的最终预测参数;
对所述支持向量机和随机森林模型进行加权整合,得到加权整合的预测模型;
将所述加权整合的预测模型分别和所述支持向量机和随机森林模型进行比较,得到所述特异性评估ncRNA基因变异有害性的计分模型。
5.根据权利要求1所述的ncRNA基因突变的解读方法,其特征在于,所述构建ncRNA基因与人类疾病表型关联的标准数据集具体包括:
从与疾病关联的数据库中下载并进行整合注释,得到各种ncRNA与疾病关联的数据,使用专业的术语资源对所述各种ncRNA的名称进行标准化;
利用人类疾病表型本体术语数据库,对各种疾病表型名称进行标准化注释,得到ncRNA基因与人类疾病表型关联的标准数据集。
6.根据权利要求5所述的ncRNA基因突变的解读方法,其特征在于,所述ncRNA基因相关疾病表型相似度计分模型的构建具体包括:
基于所述ncRNA基因与人类疾病表型关联的标准数据集,利用Phenomizer表型相似度算法和Phrank表型相似度算法分别建立ncRNA相关疾病表型相似度计分模型,对所建立的两个计分模型进行整合比较,得到所述ncRNA基因相关疾病表型相似度计分模型。
7.一种ncRNA基因突变的解读系统,其特征在于,包括:
数据集构建模块,用于构建ncRNA基因致病性突变标准数据集、ncRNA基因良性变异标准数据集和实验验证的ncRNA基因变异有害性标准数据集;
变异有害性的计分模型构建模块,用于利用所述ncRNA基因致病性突变标准数据集和ncRNA基因良性变异标准数据集,对两个及以上有监督的机器学习算法分别进行模型训练,得到特异性评估ncRNA基因变异有害性的计分模型;采用所述特异性评估ncRNA基因变异有害性的计分模型,计算得到候选ncRNA基因变异有害性计分文件;
疾病表型相似度计分模型构建模块,用于构建ncRNA基因与人类疾病表型关联的标准数据集;基于所述标准数据集构建ncRNA基因相关疾病表型相似度计分模型,通过疾病表型关联到候选ncRNA致病基因集,得到候选ncRNA基因集的致病性计分文件;
算法模型构建模块,用于采用数据挖掘软件对包含相同数量的致病性和良性的ncRNA变异位点的有害性计分和ncRNA的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncRNA基因致病性突变的筛查鉴定的算法模型;
解读模块,用于采用所述实验验证的ncRNA基因变异有害性标准数据集对所述算法模型进行优化评估,采用优化评估后的最佳算法模型对ncRNA基因突变进行解读和报告。
8.根据权利要求7所述的ncRNA基因突变的解读系统,其特征在于,还包括人工审核模块,用于对训练后的算法模型解读出的结果进行审核。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任意一项所述的ncRNA基因突变的解读方法中的步骤。
10.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-6任意一项所述的ncRNA基因突变的解读方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310653276.9A CN116825192A (zh) | 2023-06-02 | 2023-06-02 | 一种ncRNA基因突变的解读方法、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310653276.9A CN116825192A (zh) | 2023-06-02 | 2023-06-02 | 一种ncRNA基因突变的解读方法、存储介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116825192A true CN116825192A (zh) | 2023-09-29 |
Family
ID=88123286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310653276.9A Pending CN116825192A (zh) | 2023-06-02 | 2023-06-02 | 一种ncRNA基因突变的解读方法、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116825192A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117577182A (zh) * | 2024-01-15 | 2024-02-20 | 迈杰转化医学研究(苏州)有限公司 | 一种快速识别药物标识位点的系统及其应用 |
-
2023
- 2023-06-02 CN CN202310653276.9A patent/CN116825192A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117577182A (zh) * | 2024-01-15 | 2024-02-20 | 迈杰转化医学研究(苏州)有限公司 | 一种快速识别药物标识位点的系统及其应用 |
CN117577182B (zh) * | 2024-01-15 | 2024-04-02 | 迈杰转化医学研究(苏州)有限公司 | 一种快速识别药物标识位点的系统及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hernandez et al. | Ultrarare variants drive substantial cis heritability of human gene expression | |
Flagel et al. | The unreasonable effectiveness of convolutional neural networks in population genetic inference | |
Kopelman et al. | Clumpak: a program for identifying clustering modes and packaging population structure inferences across K | |
Xiao et al. | Prediction of lncRNA-protein interactions using HeteSim scores based on heterogeneous networks | |
Lu et al. | miRge 2.0 for comprehensive analysis of microRNA sequencing data | |
Wu et al. | PROPER: comprehensive power evaluation for differential expression using RNA-seq | |
Wu et al. | A new shrinkage estimator for dispersion improves differential expression detection in RNA-seq data | |
Fogel et al. | Discovery of sequence motifs related to coexpression of genes using evolutionary computation | |
US20150066378A1 (en) | Identifying Possible Disease-Causing Genetic Variants by Machine Learning Classification | |
Jia et al. | Mapping quantitative trait loci for expression abundance | |
US8332347B2 (en) | System and method for inferring a network of associations | |
CN110827924B (zh) | 基因表达数据的聚类方法、装置、计算机设备及存储介质 | |
Md Mukarram Hossain et al. | Evidence of statistical inconsistency of phylogenetic methods in the presence of multiple sequence alignment uncertainty | |
Young et al. | Finite mixture-of-gamma distributions: estimation, inference, and model-based clustering | |
CN116825192A (zh) | 一种ncRNA基因突变的解读方法、存储介质及终端 | |
WO2021062198A1 (en) | Single cell rna-seq data processing | |
Chen et al. | Improved interpretability of machine learning model using unsupervised clustering: predicting time to first treatment in chronic lymphocytic leukemia | |
CN101030366B (zh) | 信息处理装置,信息处理方法以及程序 | |
Panigrahi et al. | Selection-adjusted inference: an application to confidence intervals for cis-eQTL effect sizes | |
Gažiová et al. | Automated prediction of the clinical impact of structural copy number variations | |
Long et al. | From function to translation: Decoding genetic susceptibility to human diseases via artificial intelligence | |
Benegas et al. | GPN-MSA: an alignment-based DNA language model for genome-wide variant effect prediction | |
US20230410941A1 (en) | Identifying genome features in health and disease | |
WO2024059097A1 (en) | Apparatus for generating a personalized risk assessment for neurodegenerative disease | |
Fazal et al. | RExPRT: a machine learning tool to predict pathogenicity of tandem repeat loci |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |