CN111986818A - 一种基于tmprss2的新冠covid-19治疗药物筛选系统 - Google Patents
一种基于tmprss2的新冠covid-19治疗药物筛选系统 Download PDFInfo
- Publication number
- CN111986818A CN111986818A CN202010847901.XA CN202010847901A CN111986818A CN 111986818 A CN111986818 A CN 111986818A CN 202010847901 A CN202010847901 A CN 202010847901A CN 111986818 A CN111986818 A CN 111986818A
- Authority
- CN
- China
- Prior art keywords
- module
- covid
- tmprss2
- screening system
- drug screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 101000638154 Homo sapiens Transmembrane protease serine 2 Proteins 0.000 title claims abstract description 35
- 208000025721 COVID-19 Diseases 0.000 title claims abstract description 34
- 102100031989 Transmembrane protease serine 2 Human genes 0.000 title claims abstract description 30
- 238000007877 drug screening Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 239000003814 drug Substances 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 229940126585 therapeutic drug Drugs 0.000 claims abstract description 19
- 238000003058 natural language processing Methods 0.000 claims abstract description 18
- 229940079593 drug Drugs 0.000 claims abstract description 16
- 210000000056 organ Anatomy 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 238000010801 machine learning Methods 0.000 claims abstract description 4
- 108090000623 proteins and genes Proteins 0.000 claims description 14
- 201000010099 disease Diseases 0.000 claims description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 10
- 238000012913 prioritisation Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000005295 random walk Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 15
- 230000001225 therapeutic effect Effects 0.000 abstract description 4
- 241000711573 Coronaviridae Species 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 108020003175 receptors Proteins 0.000 description 5
- 102000005962 receptors Human genes 0.000 description 5
- 102100031673 Corneodesmosin Human genes 0.000 description 4
- 101710139375 Corneodesmosin Proteins 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 201000003176 Severe Acute Respiratory Syndrome Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 229940000406 drug candidate Drugs 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 102000053723 Angiotensin-converting enzyme 2 Human genes 0.000 description 2
- 108090000975 Angiotensin-converting enzyme 2 Proteins 0.000 description 2
- 241001678559 COVID-19 virus Species 0.000 description 2
- 206010019233 Headaches Diseases 0.000 description 2
- 108091005804 Peptidases Proteins 0.000 description 2
- 239000004365 Protease Substances 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 231100000869 headache Toxicity 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 210000004789 organ system Anatomy 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- RXZBMPWDPOLZGW-XMRMVWPWSA-N (E)-roxithromycin Chemical compound O([C@@H]1[C@@H](C)C(=O)O[C@@H]([C@@]([C@H](O)[C@@H](C)C(=N/OCOCCOC)/[C@H](C)C[C@@](C)(O)[C@H](O[C@H]2[C@@H]([C@H](C[C@@H](C)O2)N(C)C)O)[C@H]1C)(C)O)CC)[C@H]1C[C@@](C)(OC)[C@@H](O)[C@H](C)O1 RXZBMPWDPOLZGW-XMRMVWPWSA-N 0.000 description 1
- 101150084750 1 gene Proteins 0.000 description 1
- 206010053567 Coagulopathies Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 208000006083 Hypokinesia Diseases 0.000 description 1
- 208000025370 Middle East respiratory syndrome Diseases 0.000 description 1
- 208000000112 Myalgia Diseases 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- 241000315672 SARS coronavirus Species 0.000 description 1
- 208000037847 SARS-CoV-2-infection Diseases 0.000 description 1
- 208000012886 Vertigo Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 239000002671 adjuvant Substances 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 208000015294 blood coagulation disease Diseases 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000009852 coagulant defect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229960003722 doxycycline Drugs 0.000 description 1
- XQTWDDCIUJNLTR-CVHRZJFOSA-N doxycycline monohydrate Chemical compound O.O=C1C2=C(O)C=CC=C2[C@H](C)[C@@H]2C1=C(O)[C@]1(O)C(=O)C(C(N)=O)=C(O)[C@@H](N(C)C)[C@@H]1[C@H]2O XQTWDDCIUJNLTR-CVHRZJFOSA-N 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- ZRCVYEYHRGVLOC-HYARGMPZSA-N gemifloxacin Chemical compound C1C(CN)C(=N/OC)/CN1C(C(=C1)F)=NC2=C1C(=O)C(C(O)=O)=CN2C1CC1 ZRCVYEYHRGVLOC-HYARGMPZSA-N 0.000 description 1
- 229960003170 gemifloxacin Drugs 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- HPNSFSBZBAHARI-UHFFFAOYSA-N micophenolic acid Natural products OC1=C(CC=C(C)CCC(O)=O)C(OC)=C(C)C2=C1C(=O)OC2 HPNSFSBZBAHARI-UHFFFAOYSA-N 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- HPNSFSBZBAHARI-RUDMXATFSA-N mycophenolic acid Chemical compound OC1=C(C\C=C(/C)CCC(O)=O)C(OC)=C(C)C2=C1C(=O)OC2 HPNSFSBZBAHARI-RUDMXATFSA-N 0.000 description 1
- 229960000951 mycophenolic acid Drugs 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000003068 pathway analysis Methods 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229960005224 roxithromycin Drugs 0.000 description 1
- 238000003069 systems biology method Methods 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 210000003708 urethra Anatomy 0.000 description 1
- 231100000889 vertigo Toxicity 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种基于TMPRSS2的新冠COVID‑19治疗药物筛选系统,包括依次连接的:数据采集模块,用于采集与TMPRSS2相关的医疗文献资料;生物医学概念实体提取模块,使用自然语言处理从所述医疗文献资料中提取生物医学概念实体;特征向量转化模块,用于将所述生物医学概念实体转换为机器学习可识别的向量形式;以及相似度分析模块,所述特征向量转化模块输出至所述相似度分析模块,通过相似度分析获得治疗药物。本发明的一种基于TMPRSS2的新冠COVID‑19治疗药物筛选系统,从TMPRSS2出发,使用自然语言处理方法,分析与TMPRSS2相关的所有文献,可以在短时间内由程序筛选出COVID‑19相关的药物、器官与靶点,提高治疗方案选取的效率。
Description
技术领域
本发明涉及智慧医疗技术领域,具体涉及一种基于TMPRSS2的新冠COVID-19治疗药物筛选系统。
背景技术
人们对COVID-19这种疾病的症状,自然病史及其发病率感到困惑,从而阻碍了对新型冠状病毒SARS-CoV-2感染引起的人类疾病升级的早期反应。在COVID-19大流行的初期,临床表现在很大程度上被认为是轻度的,有发烧,咳嗽,呕吐和头痛的患者,或严重的,有呼吸困难,凝血功能障碍以及肾脏和其他器官系统功能受损的患者。由于临床表现的复杂性,对COVID-19的精确诊断和治疗一直是一项持续的挑战。此外,由于没有有效的药物可治疗COVID-19,因此迫切需要找到基于冠状病毒发病机理,临床表现,器官受累和过去治疗经验的药物。
许多研究使用生物信息学方法从基因表达分析和蛋白质-蛋白质相互作用分析中预测COVID-19候选药物。其他研究集中在通过分子3D结构的虚拟对接筛选来预测候选药物。这些方法主要用于系统生物学方法来识别COVID-19候选药物。基于人工智能(AI)的自然语言处理(NLP)方法为从许多非结构化研究文章中找出有可能阻止冠状病毒发病机理的循证医学提供了新途径。NLP可以自动从文献中阐明生物医学概念的文本表示形式中的隐藏知识。但是,迄今为止,尚无已发表的从细胞丝氨酸蛋白酶TMPRSS2入手研究,全面阐述关于COVID-19的临床表现和生物医学机制,以确定治疗靶标的优先次序。
众所周知,冠状病毒通过其病毒突波(S)蛋白与宿主细胞受体的结合进入细胞。S蛋白实际上是由宿主细胞的蛋白酶引发的,因此阻断宿主的受体蛋白及其助手可以阻止病毒进入细胞。最近的研究证实,SARS-CoV-2利用SARS-CoV受体TMPRSS2进入细胞。有了这些最近获得的知识,我们认为使用自然语言处理的工具来识别有关TMPRSS2的循证报告可能会迅速而有效地产生有关这些基因与SARS-CoV-2关系的重要知识。这些知识发现药物可能有助于指导人们有效地靶向受体蛋白及其辅助物,以控制COVID-19中的感染。
现已知SARS等冠状病毒S蛋白进入靶细胞取决于与ACE2受体的结合作用以及细胞蛋白酶对S蛋白的启动作用,SARS的S蛋白与其受体ACE2结合是靠细胞丝氨酸蛋白酶TMPRSS2来引发的,与它有76%氨基酸同一性的新型冠状病毒被怀疑有相似的机能。现有技术针对TMPRSS2的研究,都是人工从文献中寻找相关的靶点与药物,然后人工做分子细胞和动物实验,耗时长,效率低,覆盖的知识面不够全面。
发明内容
为了解决上述问题,本发明提供一种基于TMPRSS2的新冠COVID-19治疗药物筛选系统,从TMPRSS2出发,使用自然语言处理方法,分析与TMPRSS2相关的所有文献,可以在短时间内由程序筛选出COVID-19相关的药物、器官与靶点,提高治疗方案选取的效率。
为了实现以上目的,本发明采取的一种技术方案是:
一种基于TMPRSS2的新冠COVID-19治疗药物筛选系统,包括依次连接的:数据采集模块,用于采集与TMPRSS2相关的医疗文献资料;生物医学概念实体提取模块,与所述数据采集模块相连,使用自然语言处理从所述医疗文献资料中提取生物医学概念实体;特征向量转化模块,与所述生物医学概念实体提取模块相连,用于将所述生物医学概念实体转换为机器学习可识别的向量形式;以及相似度分析模块,所述特征向量转化模块输出至所述相似度分析模块,所述相似度分析模块通过各向量间余弦相似度获得TMPRSS2与所述生物医学概念实体间的相似度,通过相似度分析获得治疗药物。
进一步地,还包括优先级排序模块,所述相似度分析模块输出至所述优先级排序模块,所述优先级排序模块用于对所述生物医学概念实体进行优先级排序。
进一步地,所述生物医学概念实体包括疾病类型、器官类别、基因种类以及药物类别。
进一步地,所述相似度包括TMPRSS2与器官类别、疾病类别、基因种类以及药物类别的相似度。
进一步地,所述生物医学概念实体提取模块为信息提取工具QuickUMLS或信息提取工具MetaMap。
进一步地,所述特征向量转化模块为EHR2Vec模型。
进一步地,所述优先级排序模块为融合了PageRank算法的随机游走模型。
本发明的上述技术方案相比现有技术具有以下优点:
本发明的一种基于TMPRSS2的新冠COVID-19治疗药物筛选系统,从TMPRSS2出发,使用自然语言处理方法,分析与TMPRSS2相关的所有文献,可以在短时间内由程序筛选出COVID-19相关的药物、器官与靶点,提高治疗方案选取的效率。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
图1所示为本发明一实施例的一种基于TMPRSS2的新冠COVID-19治疗药物筛选系统结构图;
图2所示为本发明一实施例的通过TMPRSS2筛选新冠COVID-19治疗药物的流程框图;
图3所示为本发明一实施例的COVID-19基因作为药物治疗靶点的示意图。
图中附图标记:
1数据采集模块、2生物医学概念实体提取模块、3特征向量转化模块、4相似度分析模块、5优先级排序模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于TMPRSS2的新冠COVID-19治疗药物筛选系统,如图1所示,包括依次连接的数据采集模块1、生物医学概念实体提取模块2、特征向量转化模块3、相似度分析模块4以及优先级排序模块5。
所述数据采集模块1用于采集与TMPRSS2相关的医疗文献资料,使用COVID-19目标基因TMPRSS2作为关键词在PubMed公共数据库中进行文献检索获得TMPRSS2相关的医疗文献资料。
所述生物医学概念实体提取模块2与所述数据采集模块1相连,使用自然语言处理从所述医疗文献资料中提取生物医学概念实体,所述生物医学概念实体包括疾病类型、器官类别、基因种类以及药物类别。所述生物医学概念实体提取模块2为信息提取工具QuickUMLS或信息提取工具MetaMap。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效交互的各种理论和方法。其在生物医学领域迅速发展,已经成为当前的研究热点。临床医学信息大量的以非结构化(或半结构化)文本形式存储于信息系统中,NLP是从医疗文本中提取有用信息的关键技术。通过自然语言处理,这些非结构化的医疗文本被转化为包含重要医学信息的结构化数据,科研人员才可以从这些结构化的数据中发现有用医学信息,从而提高医疗系统的运行质量,减少运行成本。代表性的临床医学NLP系统有MedLEE、MetaMap、和cTAKES等。本发明优选QuickUMLS对生物医学概念实体进行提取,此工具QuickUMLS是从非结构化文本中提取医学概念。给定一句话或者一个文档,QuickUMLS提取目标语言中在UMLS中的字符串集中有一个近似匹配,返回与此类字符串相关的概念,从时间消耗与准确度的研究表明QuickUMLS的性能可与其他经典的工具更加优秀。我们保留属于器官系统,疾病和基因的术语。利用工具提取其中有用的诊疗信息,最终形成知识本体或者知识网络,从而为后续的各种文本挖掘任务提供标准和便利。这些临床医学NLP系统的应用覆盖了医学信息抽取、医学文本分类、医疗决策支持、病人信息管理、医疗信息问答、医学知识挖掘及知识库建立等诸多领域。
使用QuickUMLS从非结构化文献中提取器官的生物医学概念术语。由于某些基因具有别名,我们还使用GeneCards标准化了基因名称。将所有医疗实体标记为统一概念,用于下游词向量分析任务使用,如下表1所示。
表1.与TMPRSS2相关的基因标准名称
所述特征向量转化模块3与所述生物医学概念实体提取模块2相连,用于将所述生物医学概念实体转换为机器学习可识别的向量形式,所述特征向量转化模块3为EHR2Vec模型。EHR2Vec模型包含了一种自我关注机制,可以通过每次访问事件整体更新上下文词的值来学习重要的表示形式。EHR2Vec模型采用多头设计的自注意力算法在访问级别识别重要的全局表示,与以前的词嵌入方法相比,大大提高了嵌入精度。LEI4COV技术方案并未使用EHR2Vec中的每次访问来分析临床记录,而是使用每个摘要作为分析单位,并在每个摘要窗口中执行了自注意模型分析。本技术方案可从已经发表的程序中(LEI4COV:https://github.com/hitales-tech/Lei4Cov)中查询,此处不做解释。本技术方案是EHR2Vec的扩展版本,EHR2Vec该工具设计用于在电子健康记录(EHR)临床注释上进行矢量嵌入。EHR2Vec将单词向量生成算法Word2Vec与multi-head attention多头自注意结构集成在一起,该结构已显示与其他表示学习方法相比,能够提高向量生成的精度。关于EHR2Vec更多描述详见文献(https://www.frontiersin.org/articles/10.3389/fgene.2020.00630/full),此处不做详细的解释。
初始化的向量矩阵W在向量空间Rh*c中,其中c是每个实体向量的维数,h是所有摘要中的实体数。在这里,使用默认值c=512,这意味着每个实体都映射到512维向量空间。基于先前的实验,在计算复杂性和准确性之间进行权衡,选择了此超参数。首先,将初始化的矢量矩阵输入到第一子层(使用注意机制)。然后,是所使用的注意力机制的核心公式,其中Q,K和V代表查询向量,关键向量和值向量,为dk和Q,K和V的维数。在多头注意模型中,总共使用八个注意头作为默认值。八个注意头相当于八个子任务,每个子任务在每个摘要窗口中产生自己的注意机制。
通过迭代训练获得优化的矢量矩阵W。我们通过连续优化向量矩阵W来获得最终矩阵。假设ei,ej代表摘要中的不同实体,Et代表一个摘要。共现对数似然函数用于优化摘要(Eq.1),
对于具有极长实体序列的向量,我们使用最大长度的98%分位数作为临界值作为实体序列长度。截断了大于最大值98%摘要中的实体序列,并用0填充了较短的实体序列。
所述相似度分析模块4所述特征向量转化模块3输出至所述相似度分析模块4,所述相似度分析模,4通过各向量间余弦相似度获得TMPRSS2与所述生物医学概念实体间的相似度,通过相似度分析获得治疗药物。所述相似度包括TMPRSS2与器官类别、疾病类别、基因种类以及药物类别的相似度。
所述相似度分析模块4输出至所述优先级排序模块5,所述优先级排序模,5用于对所述生物医学概念实体进行优先级排序。所述优先级排序模块5为融合了PageRank算法的随机游走模型。
下面以一个具体实施例介绍本发明的所述新冠COVID-19治疗药物筛选系统的使用方法:
如图2所示,所述数据采集模块1使用COVID-19目标基因TMPRSS2作为关键词在PubMed公共数据库中进行文献检索,获得1994年至2020年之间发布的与TMPRSS2相关的1025篇摘要文献资料。
使用生物医学概念实体提取模块2的自然语言处理信息提取工具QuickUMLS从所述文献资料中提取TMPRSS2相关的生物医学概念实体,如:疾病、基因、药物、器官等。使用特征向量转化模块3嵌入向量方法把所述生物医学概念实体转换为机器可识别的向量形式。
通过相似度分析模块4各向量间余弦相似度获得TMPRSS2与所述生物医学概念实体间的相似度Sc,通过相似度分析获得治疗药物。如图3所示,进行通路的分析,以验证COVID-19基因相关的路径。通过余弦相似性评分(Sc)进一步计算了实体向量之间的关联。我们使用TensorFlow 1.8.0深度学习框架实施和训练,所有模型计算都在两个16G NVIDIATESLA P100图形卡的CentOS服务器上执行。为获得最佳结果,对LEI4COV进行了20个epochs的训练工作量。最后,我们使用了一种网络分析方法,采用融合了PageRank算法的随机游走来对药物进行优先级排序。
采用自然语言处理TMPRSS2相关的文献,如下表2~4所示,我们可以迅速的发现与新冠病毒相关的器官包括前列腺、肺、尿道等,相关的疾病包括COVID-19、SARS、MERS,相关的症状包括:发热、头疼、肌痛、乏力、眩晕等等,相关的治疗药物包括多西环素、罗红霉素、吉美沙星、麦考酚酸等。
表2.TMPRSS2与器官的相似度
表3.TMPRSS2相关疾病的症状的相似度
表4.使用TMPRSS2预测药物的相似度
发现潜在药物的相关通路如下表5所示。
表5.发现潜在药物的相关通路
以上所述仅为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于TMPRSS2的新冠COVID-19治疗药物筛选系统,其特征在于,包括依次连接的:
数据采集模块(1),用于采集与TMPRSS2相关的医疗文献资料;
生物医学概念实体提取模块(2),与所述数据采集模块(1)相连,使用自然语言处理从所述医疗文献资料中提取生物医学概念实体;
特征向量转化模块(3),与所述生物医学概念实体提取模块(2)相连,用于将所述生物医学概念实体转换为机器学习可识别的向量形式;以及
相似度分析模块(4),所述特征向量转化模块(3)输出至所述相似度分析模块(4),所述相似度分析模块(4)通过各向量间余弦相似度获得TMPRSS2与所述生物医学概念实体间的相似度,通过相似度分析获得治疗药物。
2.根据权利要求1所述的基于TMPRSS2的新冠COVID-19治疗药物筛选系统,其特征在于,还包括优先级排序模块(5),所述相似度分析模块(4)输出至所述优先级排序模块(5),所述优先级排序模块(5)用于对所述生物医学概念实体进行优先级排序。
3.根据权利要求1所述的基于TMPRSS2的新冠COVID-19治疗药物筛选系统,其特征在于,所述生物医学概念实体包括疾病类型、器官类别、基因种类以及药物类别。
4.根据权利要求3所述的基于TMPRSS2的新冠COVID-19治疗药物筛选系统,其特征在于,所述相似度包括TMPRSS2与器官类别、疾病类别、基因种类以及药物类别的相似度。
5.根据权利要求1所述的基于TMPRSS2的新冠COVID-19治疗药物筛选系统,其特征在于,所述生物医学概念实体提取模块(2)为信息提取工具QuickUMLS或信息提取工具MetaMap。
6.根据权利要求1所述的基于TMPRSS2的新冠COVID-19治疗药物筛选系统,其特征在于,所述特征向量转化模块(3)为EHR2Vec模型。
7.根据权利要求2所述的基于TMPRSS2的新冠COVID-19治疗药物筛选系统,其特征在于,所述优先级排序模块(5)为融合了PageRank算法的随机游走模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847901.XA CN111986818A (zh) | 2020-08-21 | 2020-08-21 | 一种基于tmprss2的新冠covid-19治疗药物筛选系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847901.XA CN111986818A (zh) | 2020-08-21 | 2020-08-21 | 一种基于tmprss2的新冠covid-19治疗药物筛选系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111986818A true CN111986818A (zh) | 2020-11-24 |
Family
ID=73443602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010847901.XA Pending CN111986818A (zh) | 2020-08-21 | 2020-08-21 | 一种基于tmprss2的新冠covid-19治疗药物筛选系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986818A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667922A (zh) * | 2021-01-12 | 2021-04-16 | 山东大学 | 基于协同过滤的新型冠状病毒中药组方推荐方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060036368A1 (en) * | 2002-02-04 | 2006-02-16 | Ingenuity Systems, Inc. | Drug discovery methods |
US20190300625A1 (en) * | 2018-01-26 | 2019-10-03 | Regeneron Pharmaceuticals, Inc. | Anti-tmprss2 antibodies and antigen-binding fragments |
CN111081316A (zh) * | 2020-03-25 | 2020-04-28 | 元码基因科技(北京)股份有限公司 | 用于筛选新冠肺炎候选药物的方法及装置 |
CN111428036A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
-
2020
- 2020-08-21 CN CN202010847901.XA patent/CN111986818A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060036368A1 (en) * | 2002-02-04 | 2006-02-16 | Ingenuity Systems, Inc. | Drug discovery methods |
US20190300625A1 (en) * | 2018-01-26 | 2019-10-03 | Regeneron Pharmaceuticals, Inc. | Anti-tmprss2 antibodies and antigen-binding fragments |
CN111428036A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN111081316A (zh) * | 2020-03-25 | 2020-04-28 | 元码基因科技(北京)股份有限公司 | 用于筛选新冠肺炎候选药物的方法及装置 |
Non-Patent Citations (2)
Title |
---|
LI WANG,ET AL: "EHR2Vec: Representation Learning of Medical Concepts From Temporal Patterns of Clinical Notes Based on Self-Attention Mechanism", 《FRONTIERS IN GENETICS》, pages 1 - 9 * |
薛均等: "基于语义关系发现的阿尔茨海默病药物重定位", 《医学信息学杂志》, vol. 39, no. 4, pages 69 - 73 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667922A (zh) * | 2021-01-12 | 2021-04-16 | 山东大学 | 基于协同过滤的新型冠状病毒中药组方推荐方法及系统 |
CN112667922B (zh) * | 2021-01-12 | 2022-06-28 | 山东大学 | 基于协同过滤的新型冠状病毒中药组方推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220005608A1 (en) | Method of predicting disease, gene or protein related to queried entity and prediction system built by using the same | |
Tutubalina et al. | Combination of deep recurrent neural networks and conditional random fields for extracting adverse drug reactions from user reviews | |
Huang et al. | Biomedical named entity recognition and linking datasets: survey and our recent development | |
Hahn et al. | Mining the pharmacogenomics literature—a survey of the state of the art | |
JP2008537821A (ja) | 生体分子及び疾患の間の関係に関する証拠を収集するシステム及び方法 | |
US20130060793A1 (en) | Extracting information from medical documents | |
Wang et al. | EHR2Vec: representation learning of medical concepts from temporal patterns of clinical notes based on self-attention mechanism | |
Gudivada et al. | A literature review on machine learning based medical information retrieval systems | |
Dai et al. | Entity disambiguation using a markov-logic network | |
Naresh et al. | Impact of machine learning in bioinformatics research | |
Kocaman et al. | Improving clinical document understanding on COVID-19 research with spark NLP | |
US20050033569A1 (en) | Methods and systems for automatically identifying gene/protein terms in medline abstracts | |
CN111986818A (zh) | 一种基于tmprss2的新冠covid-19治疗药物筛选系统 | |
CN111986817A (zh) | 一种通过ace2筛选新冠covid-19治疗药物的方法 | |
Ebrahimi et al. | Analysis of Persian Bioinformatics Research with Topic Modeling | |
KR102519848B1 (ko) | 생의학적 연관성 예측 방법 및 장치 | |
Benício et al. | Applying Text Mining and Natural Language Processing to Electronic Medical Records for extracting and transforming texts into structured data | |
Samuel et al. | Mining online full-text literature for novel protein interaction discovery | |
CN111180076B (zh) | 一种基于多层语义分析的医疗信息提取方法 | |
Bchir et al. | Extraction of drug-disease relations from MEDLINE abstracts | |
Thangamani et al. | Automatic medical disease treatment system using datamining | |
Tari et al. | Passage Relevancy Through Semantic Relatedness. | |
CN115938609B (zh) | 融合疗效对比信息的药物重定位方法及系统 | |
Cappelli | Big biomedical data modeling for knowledge extraction with machine learning techniques | |
Carey | Ontology concepts and tools for statistical genomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201124 |