CN113611365B - 冠状病毒信息数据的处理方法、装置、电子设备及介质 - Google Patents
冠状病毒信息数据的处理方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN113611365B CN113611365B CN202110725025.8A CN202110725025A CN113611365B CN 113611365 B CN113611365 B CN 113611365B CN 202110725025 A CN202110725025 A CN 202110725025A CN 113611365 B CN113611365 B CN 113611365B
- Authority
- CN
- China
- Prior art keywords
- coronavirus
- data
- biological
- standardized
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 10
- 241000004176 Alphacoronavirus Species 0.000 title 1
- 241000711573 Coronaviridae Species 0.000 claims abstract description 400
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000010354 integration Effects 0.000 claims abstract description 18
- 108090000623 proteins and genes Proteins 0.000 claims description 61
- 102000004169 proteins and genes Human genes 0.000 claims description 46
- 150000007523 nucleic acids Chemical class 0.000 claims description 45
- 108020004707 nucleic acids Proteins 0.000 claims description 44
- 102000039446 nucleic acids Human genes 0.000 claims description 44
- 108700010904 coronavirus proteins Proteins 0.000 claims description 34
- 239000013078 crystal Substances 0.000 claims description 32
- 238000000547 structure data Methods 0.000 claims description 31
- 241000700605 Viruses Species 0.000 claims description 29
- 241000894007 species Species 0.000 claims description 16
- 230000002906 microbiologic effect Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000011160 research Methods 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000001737 promoting effect Effects 0.000 abstract 1
- 241000282414 Homo sapiens Species 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 244000005700 microbiome Species 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 241001678559 COVID-19 virus Species 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 3
- 238000012268 genome sequencing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003612 virological effect Effects 0.000 description 3
- 241000008904 Betacoronavirus Species 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 241000711450 Infectious bronchitis virus Species 0.000 description 2
- 241000283966 Pholidota <mammal> Species 0.000 description 2
- 108010003723 Single-Domain Antibodies Proteins 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 244000309467 Human Coronavirus Species 0.000 description 1
- 241001428935 Human coronavirus OC43 Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000025370 Middle East respiratory syndrome Diseases 0.000 description 1
- 241000127282 Middle East respiratory syndrome-related coronavirus Species 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 241000315672 SARS coronavirus Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002003 electron diffraction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 229920001282 polysaccharide Polymers 0.000 description 1
- 239000005017 polysaccharide Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000000605 viral structure Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Peptides Or Proteins (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及冠状病毒信息数据的处理方法、装置、电子设备及介质。该方法包括:获取冠状病毒信息数据;根据预设的标准化词库,将冠状病毒元数据中字段的字段值处理为相应的标准化字段值,得到相应的冠状病毒标准化元数据;根据冠状病毒标准化元数据,在对应相同标准化字段值的至少两个冠状病毒生物数据之间建立关联关系,以形成冠状病毒信息整合数据集。该方法实现了冠状病毒信息数据的标准化和关联化,能够形成冠状病毒信息整合数据集,有利于对冠状病毒的研究分析工作起到推动作用。
Description
技术领域
本公开涉及微生物技术领域,具体涉及冠状病毒信息数据的处理方法、装置、电子设备及介质。
背景技术
冠状病毒自从被发现以来,人们对其病毒结构、致病、传染、分子生物学研究、基因组测序等等方面进行科学研究,产生了多种科学数据。
为了推动冠状病毒信息数据的研究工作,通常由特定机构对冠状病毒信息数据进行记录和公开。但是,现有的冠状病毒信息数据分散在不同的数据库和数据平台中,一方面不同数据源的冠状病毒信息数据存在不一致问题,另一方面不同数据源的冠状病毒信息数据之间缺少关联性。上述冠状病毒信息数据的不一致和缺少关联现象会对冠状病毒的研究和分析工作带来不利影响。
发明内容
本公开提出了冠状病毒信息数据的处理方法、装置及电子设备。
第一方面,本公开提供了一种冠状病毒信息数据的处理方法,包括:
获取冠状病毒信息数据,其中,所述冠状病毒信息数据包括冠状病毒生物数据集和所述冠状病毒生物数据集中的每个冠状病毒生物数据对应的冠状病毒元数据;所述冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种数据;所述冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一个字段;
根据预设的标准化词库,将所述冠状病毒元数据中字段的字段值处理为相应的标准化字段值,得到相应的冠状病毒标准化元数据;
根据所述冠状病毒标准化元数据,在对应相同所述标准化字段值的至少两个所述冠状病毒生物数据之间建立关联关系,以形成冠状病毒信息整合数据集。
在一些可选的实施方式中,所述冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少两种数据,所述冠状病毒元数据包括病毒名称,所述冠状病毒标准化元数据包括标准化病毒名称;以及
所述根据所述冠状病毒标准化元数据,在对应相同所述标准化字段值的至少两个所述冠状病毒生物数据之间建立关联关系,包括:
在对应相同所述标准化病毒名称的至少两种所述冠状病毒生物数据之间建立关联关系。
在一些可选的实施方式中,所述冠状病毒生物数据集包括冠状病毒核酸数据,所述冠状病毒核算数据从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中的至少一个数据库获取。
在一些可选的实施方式中,所述冠状病毒生物数据包括冠状病毒蛋白数据,所述冠状病毒蛋白数据从美国国家生物信息中心蛋白质数据库、Uniprot通用蛋白质数据库中的至少一个数据库获取。
在一些可选的实施方式中,所述冠状病毒生物数据包括所述冠状病毒晶体结构数据,所述冠状病毒晶体结构数据从PDB蛋白质结构数据库获取。
在一些可选的实施方式中,所述冠状病毒生物数据包括所述冠状病毒抗体数据,所述冠状病毒抗体数据从CoV-AbDab冠状病毒抗体数据库获取。
在一些可选的实施方式中,所述根据预设的标准化词库,将所述冠状病毒元数据中字段的字段值处理为相应的标准化字段值,包括:
对于所述冠状病毒元数据中的每个字段,在该字段对应的标准化词库中查找与该字段的字段值匹配的标准词;
响应于查找到,将所查找到的标准词确定为该字段的标准化字段值。
优选地,所述根据所述冠状病毒标准化元数据,在对应相同所述标准化字段值的至少两个所述冠状病毒生物数据之间建立关联关系,包括:
确定至少两个所述冠状病毒生物数据是否对应相同的所述标准化字段值;
响应于确定是,在所述至少两个所述冠状病毒生物数据之间添加所述关联关系。
第二方面,本公开提供了一种冠状病毒信息数据的处理装置,包括:
获取模块,用于获取冠状病毒信息数据,其中,所述冠状病毒信息数据包括冠状病毒生物数据集和所述冠状病毒生物数据集中的每个冠状病毒生物数据对应的冠状病毒元数据;所述冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种数据;所述冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一个字段;
标准化模块,用于根据预设的标准化词库,将所述冠状病毒元数据中字段的字段值处理为相应的标准化字段值,得到相应的冠状病毒标准化元数据;
关联模块,用于根据所述冠状病毒标准化元数据,在对应相同所述标准化字段值的至少两个所述冠状病毒生物数据之间建立关联关系,以形成冠状病毒信息整合数据集;
在一些可选的实施方式中,所述冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少两种数据,所述冠状病毒元数据包括病毒名称,所述冠状病毒标准化元数据包括标准化病毒名称;以及
所述关联模块进一步用于:
在对应相同所述标准化病毒名称的至少两种所述冠状病毒生物数据之间建立关联关系;
在一些可选的实施方式中,所述冠状病毒生物数据集包括冠状病毒核酸数据,所述冠状病毒核算数据从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中的至少一个数据库获取;
在一些可选的实施方式中,所述冠状病毒生物数据包括冠状病毒蛋白数据,所述冠状病毒蛋白数据从美国国家生物信息中心蛋白质数据库、Uniprot通用蛋白质数据库中的至少一个数据库获取;
在一些可选的实施方式中,所述冠状病毒生物数据包括所述冠状病毒晶体结构数据,所述冠状病毒晶体结构数据从PDB蛋白质结构数据库获取;
在一些可选的实施方式中,所述冠状病毒生物数据包括所述冠状病毒抗体数据,所述冠状病毒抗体数据从CoV-AbDab冠状病毒抗体数据库获取;
在一些可选的实施方式中,所述标准化模块进一步用于:对于所述冠状病毒元数据中的每个字段,在该字段对应的标准化词库中查找与该字段的字段值匹配的标准词;响应于查找到,将所查找到的标准词确定为该字段的标准化字段值;
在一些可选的实施方式中,所述关联模块进一步用于:确定至少两个所述冠状病毒生物数据是否对应相同的所述标准化字段值;响应于确定是,在所述至少两个所述冠状病毒生物数据之间添加所述关联关系。
第三方面,本公开提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如本公开第一方面任一实施方式描述的方法。
第四方面,本公开还提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如本公开第一方面任一实施方式描述的方法。
本实施例中的冠状病毒信息数据的处理方法、装置及电子设备,通过获取冠状病毒信息数据、对冠状病毒元数据进行标准化处理以及根据冠状病毒标准化元数据在对应相同标准化字段值的至少两个冠状病毒生物数据之间建立关联关系,实现了冠状病毒信息数据的标准化和关联化,能够形成冠状病毒信息整合数据集,有利于对冠状病毒的研究分析工作起到推动作用。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2A是根据本公开的冠状病毒信息数据的处理方法的一个实施例的流程图;
图2B是根据本公开的步骤202的一个实施例的分解流程图;
图2C是根据本公开的步骤203的一个实施例的分解流程图;
图2D是根据本公开的冠状病毒信息数据的处理方法的一个具体例子的示意图;
图3是根据本公开的冠状病毒信息数据的处理装置的一个实施例的结构示意图;
图4是适于用来实现本公开的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的冠状病毒信息数据的处理方法或冠状病毒信息数据的处理装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如冠状病毒信息数据记录类应用、冠状病毒信息数据处理类应用、网页浏览器应用等。
终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是具有显示屏并且支持信息输入(比如,文本输入和/或语音输入等)的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供冠状病毒信息数据的处理服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器103可以是提供各种服务的服务器,例如对终端设备101发送的冠状病毒信息数据提供处理服务的后台服务器。后台服务器可以对接收到的冠状病毒信息数据进行处理操作,并将操作结果(例如冠状病毒信息整合数据集)反馈给终端设备。
在一些情况下,本公开所提供的冠状病毒信息数据的处理方法可以由终端设备101和服务器103共同执行,例如,“获取冠状病毒信息数据”的步骤可以由终端设备101执行,其余步骤可以由服务器103执行。本公开对此不做限定。相应地,冠状病毒信息数据的处理装置也可以分别设置于终端设备101和服务器103中。
在一些情况下,本公开所提供的冠状病毒信息数据的处理方法可以由服务器103执行,相应地,冠状病毒信息数据的处理装置也可以设置于服务器103中,这时,系统架构100也可以不包括终端设备101。
在一些情况下,本公开所提供的冠状病毒信息数据的处理方法可以由终端设备101执行,相应地,冠状病毒信息数据的处理装置也可以设置于终端设备101中,这时,系统架构100也可以不包括服务器103。
需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供冠状病毒信息数据的处理服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2A,其示出了根据本公开的冠状病毒信息数据的处理方法的一个实施例的流程200。该冠状病毒信息数据的处理方法,包括以下步骤:
步骤201,获取冠状病毒信息数据。
在本实施例中,冠状病毒信息数据的处理方法的执行主体(例如,图1所示的服务器103)可以从与上述执行主体网络连接的、预设的数据源(例如提供冠状病毒信息数据的网站或数据库)获取冠状病毒信息数据。例如,可以从中国国家微生物科学数据中心(National Microbiology Data Center,NMDC)网站的上抓取冠状病毒的相关数据,从而得到冠状病毒信息数据。
在本实施例中,冠状病毒信息数据的处理方法的执行主体也可以从本地直接读取冠状病毒信息数据。
在本实施例中,冠状病毒信息数据可以包括冠状病毒生物数据集和冠状病毒生物数据集中的每个冠状病毒生物数据对应的冠状病毒元数据。
这里,冠状病毒生物数据用于描述冠状病毒的生物信息。冠状病毒生物数据例如是冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据等。冠状病毒核酸数据,例如是冠状病毒的基因序列。冠状病毒蛋白数据,例如是冠状病毒的蛋白序列。冠状病毒晶体结构数据,例如是冠状病毒的蛋白三维晶体结构数据。冠状病毒抗体数据,例如是冠状病毒相关的抗体信息。
这里,冠状病毒生物数据集可包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种数据。在一个例子中,冠状病毒生物数据集可以包括冠状病毒核酸数据这一个种类的数据。在一个例子中,冠状病毒生物数据集可以包括冠状病毒核酸数据和冠状病毒蛋白数据这两个种类的数据。在另外一个例子中,冠状病毒生物数据集也可以包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据全部四个种类的数据。
这里,冠状病毒生物数据对应的冠状病毒元数据用于描述相应的冠状病毒生物数据或者冠状病毒的相关属性。在一个例子中,冠状病毒元数据可以包括以下字段:病毒名称、获取ID(Identity Document,唯一标识)、数据来源名称、相关ID、宿主名称、采样时间、采样国家名称、样本提供单位名称、数据递交单位名称等。
在一个例子中,冠状病毒生物数据集可以包括冠状病毒核酸数据。在该例子中,冠状病毒核酸数据可以从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中的至少一个数据库获取。
GenBank数据库是美国国家生物技术信息中心(National Center forBiotechnology Information,NCBI)建立的DNA(Deoxyribo Nucleic Acid,脱氧核糖核酸)序列数据库。从其公共资源中可获取序列数据,上述序列数据主要是科研人员直接提供或来源于大规模基因组测序计划。完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。索引文件是根据数据库中作者、参考文献等字段建立的,用于数据库查询。其中,序列文件可以对应于冠状病毒核酸数据,而索引文件可以对应于冠状病毒元数据。
中国国家微生物科学数据中心(NMDC)数据库,于2019年6月经科技部、财政部通知公布,由中科院微生物研究所作为依托单位建设。中国国家微生物科学数据中心按照2018年国家发布的《科学数据管理办法》,承担微生物领域科学数据汇交管理、共享与服务工作。该中心建立了微生物领域完善的数据体系,数据内容覆盖微生物资源、研究过程及工程、微生物组学、微生物技术、合成生物学等交叉学科以及微生物文献、专利、专家、成果等知识库,重点推进微生物领域科技资源向国家平台汇聚与整合,为科学研究、技术进步和社会发展提供高质量的科学数据资源共享服务。
中国国家基因组科学数据中心(National Genomics Data Center,NGDC)数据库是国家科技资源共享服务平台之一,依托单位为中国科学院北京基因组研究所。面向国家大数据战略发展需求,国家基因组科学数据中心围绕人、动物、植物、微生物基因组数据,重点开展了数据资源及数据库体系建设,并开展了数据服务、系统运维、技术研发、数据挖掘等系列工作。目前,国家基因组科学数据中心已拥有自主知识产权的基因组数据汇交、管理与共享系统,保障数据安全性,支撑并服务于国家重点研发计划、国家自然科学基金、中科院先导专项等300余个科研项目的数据存储、管理和共享。
中国国家基因库(China National GeneBank,CNGB)数据库由国家发展和改革委员会、财政部、工业和信息化部、国家卫生健康委员会(原卫生部)四部委批复建设,并在以国家发展改革委员会和深圳市政府为联合理事长单位的理事会指导下,由深圳华大生命科学研究院(原深圳华大基因研究院)承建。该数据库具备遗传资源的“存、读、写”能力,即存储生物资源和基因数据、对遗传信息进行读取及合成运用,并以此为基础搭建起挖掘基因资源,支撑生命科学研究与生物产业创新发展的公益性、开放性、引领性、战略性科技平台。
在一个例子中,冠状病毒核酸数据可以同时从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中获取。如此,有利于全面完整地获得冠状病毒核酸数据。
在一个例子中,冠状病毒生物数据集可以包括冠状病毒蛋白数据。在该例子中,冠状病毒蛋白数据可以从美国国家生物信息中心蛋白质数据库、Uniprot通用蛋白质数据库中的至少一个数据库获取。
美国国家生物信息中心蛋白质数据库(NCBI Protein Database)是包含来自各种来源的蛋白质序列记录的数据库,包括GenPept数据库、RefSeq数据库、Swiss-Prot数据库和PIR(Protein Information Resource,蛋白质信息资源)数据库等。其中,GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。RefSeq数据库是美国国家生物信息技术中心提供的具有生物意义上的非冗余的基因和蛋白质序列数据库。Swiss-Prot数据库是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所维护。PIR数据库是由蛋白质信息资源、慕尼黑蛋白质序列信息中心和日本国际蛋白质序列数据库共同维护的国际上最大的公共蛋白质序列数据库。
Uniprot通用蛋白质数据库中是信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、TrEMBL和PIR-PSD(Protein Information Resource-Protein SequenceDatabase,蛋白质信息资源-蛋白质序列数据库)三大数据库的数据而成。它的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。其中,Swiss-Prot、TrEMBL和PIR-PSD均为经典的蛋白质数据库。
在一个例子中,冠状病毒蛋白数据可以同时从美国国家生物信息中心蛋白质数据库和Uniprot通用蛋白质数据库获取。如此,有利于全面完整地获得冠状病毒蛋白数据。
需要说明的是,上述蛋白质数据库可以来自于生物实验,也可以来自于计算机算法预测。
在一个例子中,冠状病毒生物数据可以包括冠状病毒晶体结构数据。在该例子中,冠状病毒晶体结构数据可以从PDB蛋白质结构数据库获取。
PDB(Protein Data Bank,蛋白质数据库)数据库是美国Brookhaven(布鲁克海文)国家实验室于1971年创建的,由结构生物信息学研究合作组织维护。PDB数据库是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。
在一个例子中,冠状病毒生物数据可以包括冠状病毒抗体数据。在该例子中,冠状病毒抗体数据可以从CoV-AbDab冠状病毒抗体数据库获取。
CoV-AbDab冠状病毒抗体数据库包含了380多种已公开/已获专利的抗体和已知与至少一种β冠状病毒结合的纳米抗体的数据。该数据库是已知结合SARS-CoV-2和其他β冠状病毒(例如SARS-CoV-1和MERS-CoV)的抗体的首次合并。该数据库还提供交叉中和的证据、抗体/纳米抗体的起源、完整的可变域序列(如果有)和种系分配、表位区域、同源性模型和来源文献等信息。
在一个例子中,冠状病毒生物数据可以包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据全部四个种类。相应地,冠状病毒核酸数据可以从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中的至少一个数据库获取;冠状病毒蛋白数据可以从美国国家生物信息中心蛋白质数据库、Uniprot通用蛋白质数据库中的至少一个数据库获取;冠状病毒晶体结构数据可以从PDB蛋白质结构数据库获取;以及冠状病毒抗体数据可以从CoV-AbDab冠状病毒抗体数据库获取。如此,有利于全面完整地获得冠状病毒生物数据。
在本实施例中,冠状病毒元数据可以包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一个字段。其中,宿主名称的字段值例如是人(Homosapiens)、穿山甲(pangolin)等。国家名称可以是采样国家的名称,也可以是提交者所属国家的名称等。国家名称的字段值例如是美国(USA)、意大利(Italy)、日本(Japan)等。病毒名称的字段值例如是2019-nCoV、MERS、SARS等。物种分类名称的字段值例如是传染性支气管炎病毒(Infectious bronchitis virus)、人冠状病毒OC43(Human coronavirus OC43)等。分离物名称的字段值例如是鼻咽拭子、环境样本等。
在一个例子中,在获取冠状病毒信息数据后,还可以对获得的冠状病毒信息数据进行去重处理,以去除从不同数据源获得的重复数据。
步骤202,根据预设的标准化词库,将冠状病毒元数据中字段的字段值处理为相应的标准化字段值,得到相应的冠状病毒标准化元数据。
这里,上述执行主体可以根据预设的标准化词库,对步骤201所获取的冠状病毒元数据进行标准化处理,得到相应的冠状病毒标准化元数据。
这里,对于冠状病毒元数据中不同的字段,可以预先获取该字段对应的标准化词库(或者称之为字典)。例如,对于宿主名称这一字段,可以预先获取宿主名称标准化词库。对于国家名称这一字段,可以预先获取国家名称标准化词库。对于病毒名称这一字段,可以预先获取病毒名称标准化词库。对于物种分类名称这一字段,可以预先获取物种分类名称标准化词库。对于分离物名称这一字段,可以预先获取分离物名称标准化词库。
这里,标准化词库可以对应存储有标准词和相应的非标准词。例如,在宿主名称标准化词库中,一个标准词可以是“Homo sapiens”,该标准词相应的非标准词可以是“Human”、“人类”、“患者”等。又例如,在国家名称标准化词库中,一个标准词可以是“USA”,该标准词对应的非标准词可以是“American”、“the United States”、“美国”等。又例如,在物种分类名称标准化词库中,标准词可以是物种科学名称,对应的非标准词可以是相应的曾用名、常用写法、错误写法、基因名写法等。
在一个例子中,如图2B所示,步骤202可以进一步包括以下步骤:
步骤2021,对于冠状病毒元数据中的每个字段,在该字段对应的标准化词库中查找与该字段的字段值匹配的标准词。
在一个例子中,假设在冠状病毒元数据中宿主名称这个字段的字段值为“Human”,则可以在宿主名称标准化词库进行查找与该字段值匹配的标准词。这里,如果该字段值与某个标准词相同,则该标准词即为匹配结果;如果该字段值与某个非标准词相同,则该非标准词对应的标准词即为匹配结果。例如,“Homo sapiens”这一字段值匹配的标准词为“Homosapiens”,“Human”这一字段值匹配的标准词也为“Homo sapiens”。
步骤2022,响应于查找到,将所查找到的标准词确定为该字段的标准化字段值。
在上面的例子中,“Homo sapiens”即为宿主名称这个字段的标准化字段值。
步骤203,根据冠状病毒标准化元数据,在对应相同标准化字段值的至少两个冠状病毒生物数据之间建立关联关系,以形成冠状病毒信息整合数据集。
这里,不同的冠状病毒生物数据之间存在关联关系,可以是不同的冠状病毒生物数据对应相同的冠状病毒标准化元数据。例如,冠状病毒核酸数据A1和冠状病毒核酸数据A2均对应于标准化字段值“Homo sapiens”,即这两种病毒的宿主均为人类,因此可在这两个冠状病毒核酸数据之间建立关联关系。又例如,冠状病毒核酸数据A和冠状病毒蛋白数据B均对应于标准化字段值“2019-nCoV”,即这两个冠状病毒生物数据为同一病毒的冠状病毒核酸数据和冠状病毒蛋白数据,因此可在该冠状病毒核酸数据和该冠状病毒蛋白数据之间建立关联关系。
实践中,可以采用各种实现方式在对应相同标准化字段值的至少两个冠状病毒生物数据之间建立关联关系,以形成冠状病毒信息整合数据集。例如,可以采用图结构表示冠状病毒信息整合数据集。在该图结构中,节点可以用来表示冠状病毒生物数据,两节点之间的边表示相应的冠状病毒生物数据之间建立关联关系。又例如,还可以采用关系型数据库或者非关系型数据库表示冠状病毒信息整合数据集,其中,冠状病毒信息整合数据集中每个冠状病毒信息整合数据可以对应存储建立了关联关系的对应相同标准化字段值的至少两个冠状病毒生物数据。
在一个例子中,如图2C所示,步骤203可以进一步包括以下步骤:
步骤2031,确定至少两个冠状病毒生物数据是否对应相同的标准化字段值。
例如,可以确定不同的病毒核酸数据是否对应相同的宿主名称标准词或者国家名称标准词。又例如,可以确定某一病毒核酸数据和某一冠状病毒蛋白数据是否对应相同的病毒名称标准词或物种分类名称标准词。
步骤2032,响应于确定是,在至少两个冠状病毒生物数据之间添加关联关系。
例如,可以在均对应于标准化字段值“Homo sapiens”的冠状病毒核酸数据A1和冠状病毒核酸数据A2之间建立关联关系,或者可以在均对应于标准化字段值“2019-nCoV”的冠状病毒核酸数据A和冠状病毒蛋白数据B之间添加关联关系。
在一个例子中,冠状病毒生物数据包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少两种数据。相应地,在步骤203中可以对不同种类的冠状病毒生物数据之间的关联关系进行判断,具体可参见前文描述。如此,有利于实现不同种类的病毒生物数据之间的关联化。
图2D是根据本公开的冠状病毒信息数据的处理方法的一个具体例子的示意图。如图2D所示,首先,可以从多个预设数据源,即数据源一、数据源二……数据源七获取冠状病毒信息数据,包括冠状病毒生物数据集和冠状病毒生物数据集中每个冠状病毒生物数据对应的冠状病毒元数据。其中,冠状病毒生物数据包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据这四个种类的数据。冠状病毒元数据包括物种分类名称、国家名称、宿主名称和分离物名称这四个字段。其次,可以利用冠状病毒元数据中每个字段对应的标准化词库,对冠状病毒元数据进行标准化处理。例如,可以利用物种分类词表,对物种分类名称进行标准化处理,得到物种分类名称这一字段的标准化字段值。可以利用国家词表,对国家名称进行标准化处理,得到国家名称这个字段的标准化字段值。可以利用宿主词表,对宿主名称进行标准化处理,得到宿主名称这个字段的标准化字段值。可以利用分离物词表,对分离物名称进行标准化处理,得到分离物名称这个字段的标准化字段值。上述各个字段的标准化字段值可以共同组成标准化元数据。最后,可以利用标准化元数据,在对应相同标准化字段值的至少两个冠状病毒生物数据之间建立关联关系。利用上述冠状病毒生物数据、标准化元数据和冠状病毒生物数据之间的关联关系,可以形成冠状病毒信息整合数据集。
本实施例中的冠状病毒信息数据的处理方法,通过获取冠状病毒信息数据、对冠状病毒元数据进行标准化处理以及根据冠状病毒标准化元数据在对应相同标准化字段值的至少两个冠状病毒生物数据之间建立关联关系,实现了冠状病毒信息数据的标准化和关联化,能够形成冠状病毒信息整合数据集,有利于对冠状病毒的研究分析工作起到推动作用。
进一步参考图3,作为对上述各图所示方法的实现,本公开提供了一种冠状病毒信息数据的处理装置的一个实施例,该装置实施例与图2A所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例的冠状病毒信息数据的处理装置300可以包括:获取模块301、标准化模块302和关联模块303。其中,获取模块301可以被用于获取冠状病毒信息数据,其中,冠状病毒信息数据包括冠状病毒生物数据集和冠状病毒生物数据集中的每个冠状病毒生物数据对应的冠状病毒元数据;冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种数据;冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一个字段;标准化模块302可以用于根据预设的标准化词库,将冠状病毒元数据中字段的字段值处理为相应的标准化字段值,得到相应的冠状病毒标准化元数据;关联模块303可以用于根据冠状病毒标准化元数据,在对应相同标准化字段值的至少两个冠状病毒生物数据之间建立关联关系,以形成冠状病毒信息整合数据集。
在本实施例中,冠状病毒信息数据的处理装置300的获取模块301、标准化模块302和关联模块303的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201、步骤202和步骤203的相关说明,在此不再赘述。
在一些可选的实施方式中,冠冠状病毒生物数据集可以包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少两种数据,冠状病毒元数据包括病毒名称,冠状病毒标准化元数据包括标准化病毒名称;以及关联模块303可以进一步用于:在对应相同标准化病毒名称的至少两种冠状病毒生物数据之间建立关联关系。
在一些可选的实施方式中,冠状病毒生物数据集可以包括冠状病毒核酸数据,冠状病毒核算数据可以从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中的至少一个数据库获取。
在一些可选的实施方式中,冠状病毒生物数据可以包括冠状病毒蛋白数据,冠状病毒蛋白数据可以从美国国家生物信息中心蛋白质数据库、Uniprot通用蛋白质数据库中的至少一个数据库获取。
在一些可选的实施方式中,冠状病毒生物数据可以包括冠状病毒晶体结构数据,冠状病毒晶体结构数据可以从PDB蛋白质结构数据库获取。
在一些可选的实施方式中,冠状病毒生物数据可以包括冠状病毒抗体数据,冠状病毒抗体数据可以从CoV-AbDab冠状病毒抗体数据库获取。
在一些可选的实施方式中,标准化模块302可以进一步用于:对于冠状病毒元数据中的每个字段,在该字段对应的标准化词库中查找与该字段的字段值匹配的标准词;响应于查找到,将所查找到的标准词确定为该字段的标准化字段值。
在一些可选的实施方式中,关联模块303可以进一步用于:确定至少两个冠状病毒生物数据是否对应相同的标准化字段值;响应于确定是,在至少两个冠状病毒生物数据之间添加关联关系。
需要说明的是,本公开提供的冠状病毒信息数据的处理装置中各模块的实现细节和技术效果可以参考本公开中其它实施例的说明,在此不再赘述。
下面参考图4,其示出了适于用来实现本公开的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本公开的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU,Central Processing Unit)401,其可以根据存储在只读存储器(ROM,Read Only Memory)402中的程序或者从存储部分408加载到随机访问存储器(RAM,Random Access Memory)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有系统400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O,Input/Output)接口405也连接至总线404。
以下部件连接至I/O接口405:包括触控屏、手写板、键盘或鼠标等的输入部分406;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid CrystalDisplay)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本公开的方法中限定的上述功能。需要说明的是,本公开的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、标准化模块和关联模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取冠状病毒信息数据的模块”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的,也可以是单独存在而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取冠状病毒信息数据,其中,冠状病毒信息数据包括冠状病毒生物数据和相应的冠状病毒元数据;冠状病毒生物数据用于描述冠状病毒的生物信息,冠状病毒生物数据包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种;冠状病毒元数据用于描述相应的冠状病毒生物数据的属性;根据预设的标准化词库,对冠状病毒元数据进行标准化处理,得到相应的冠状病毒标准化元数据;根据冠状病毒标准化元数据,确定不同的冠状病毒生物数据之间的关联关系,以形成冠状病毒信息整合数据集。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (18)
1.一种冠状病毒信息数据的处理方法,包括:
获取冠状病毒信息数据,其中,所述冠状病毒信息数据包括冠状病毒生物数据集和所述冠状病毒生物数据集中的每个冠状病毒生物数据对应的冠状病毒元数据;所述冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种数据;所述冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一个字段;
根据预设的标准化词库,将所述冠状病毒元数据中字段的字段值处理为相应的标准化字段值,得到相应的冠状病毒标准化元数据;
根据所述冠状病毒标准化元数据,在对应相同所述标准化字段值的至少两个所述冠状病毒生物数据之间建立关联关系,以形成冠状病毒信息整合数据集。
2.根据权利要求1所述的方法,其中,所述冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少两种数据,所述冠状病毒元数据包括病毒名称,所述冠状病毒标准化元数据包括标准化病毒名称;以及
所述根据所述冠状病毒标准化元数据,在对应相同所述标准化字段值的至少两个所述冠状病毒生物数据之间建立关联关系,包括:
在对应相同所述标准化病毒名称的至少两种所述冠状病毒生物数据之间建立关联关系。
3.根据权利要求1所述的方法,其中,所述冠状病毒生物数据集包括冠状病毒核酸数据,所述冠状病毒核算数据从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中的至少一个数据库获取。
4.根据权利要求1所述的方法,其中,所述冠状病毒生物数据包括冠状病毒蛋白数据,所述冠状病毒蛋白数据从美国国家生物信息中心蛋白质数据库、Uniprot通用蛋白质数据库中的至少一个数据库获取。
5.根据权利要求1所述的方法,其中,所述冠状病毒生物数据包括所述冠状病毒晶体结构数据,所述冠状病毒晶体结构数据从PDB蛋白质结构数据库获取。
6.根据权利要求1所述的方法,其中,所述冠状病毒生物数据包括所述冠状病毒抗体数据,所述冠状病毒抗体数据从CoV-AbDab冠状病毒抗体数据库获取。
7.根据权利要求1-6中任一项所述的方法,其中,所述根据预设的标准化词库,将所述冠状病毒元数据中字段的字段值处理为相应的标准化字段值,包括:
对于所述冠状病毒元数据中的每个字段,在该字段对应的标准化词库中查找与该字段的字段值匹配的标准词;
响应于查找到,将所查找到的标准词确定为该字段的标准化字段值。
8.根据权利要求7所述的方法,其中,所述根据所述冠状病毒标准化元数据,在对应相同所述标准化字段值的至少两个所述冠状病毒生物数据之间建立关联关系,包括:
确定至少两个所述冠状病毒生物数据是否对应相同的所述标准化字段值;
响应于确定是,在所述至少两个所述冠状病毒生物数据之间添加所述关联关系。
9.一种冠状病毒信息数据的处理装置,包括:
获取模块,用于获取冠状病毒信息数据,其中,所述冠状病毒信息数据包括冠状病毒生物数据集和所述冠状病毒生物数据集中的每个冠状病毒生物数据对应的冠状病毒元数据;
所述冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种数据;所述冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一个字段;
标准化模块,用于根据预设的标准化词库,将所述冠状病毒元数据中字段的字段值处理为相应的标准化字段值,得到相应的冠状病毒标准化元数据;
关联模块,用于根据所述冠状病毒标准化元数据,在对应相同所述标准化字段值的至少两个所述冠状病毒生物数据之间建立关联关系,以形成冠状病毒信息整合数据集。
10.根据权利要求9所述的处理装置,其中,所述冠状病毒生物数据集包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少两种数据,所述冠状病毒元数据包括病毒名称,所述冠状病毒标准化元数据包括标准化病毒名称;以及
所述关联模块进一步用于:
在对应相同所述标准化病毒名称的至少两种所述冠状病毒生物数据之间建立关联关系。
11.根据权利要求9所述的处理装置,其中,所述冠状病毒生物数据集包括冠状病毒核酸数据,所述冠状病毒核算数据从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中的至少一个数据库获取。
12.根据权利要求9所述的处理装置,其中,所述冠状病毒生物数据包括冠状病毒蛋白数据,所述冠状病毒蛋白数据从美国国家生物信息中心蛋白质数据库、Uniprot通用蛋白质数据库中的至少一个数据库获取。
13.根据权利要求9所述的处理装置,其中,所述冠状病毒生物数据包括所述冠状病毒晶体结构数据,所述冠状病毒晶体结构数据从PDB蛋白质结构数据库获取。
14.根据权利要求9所述的处理装置,其中,所述冠状病毒生物数据包括所述冠状病毒抗体数据,所述冠状病毒抗体数据从CoV-AbDab冠状病毒抗体数据库获取。
15.根据权利要求9-14任一项所述的处理装置,其中,所述标准化模块进一步用于:对于所述冠状病毒元数据中的每个字段,在该字段对应的标准化词库中查找与该字段的字段值匹配的标准词;响应于查找到,将所查找到的标准词确定为该字段的标准化字段值。
16.根据权利要求15任一项所述的处理装置,其中,所述关联模块进一步用于:确定至少两个所述冠状病毒生物数据是否对应相同的所述标准化字段值;响应于确定是,在所述至少两个所述冠状病毒生物数据之间添加所述关联关系。
17.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110725025.8A CN113611365B (zh) | 2021-06-29 | 2021-06-29 | 冠状病毒信息数据的处理方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110725025.8A CN113611365B (zh) | 2021-06-29 | 2021-06-29 | 冠状病毒信息数据的处理方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113611365A CN113611365A (zh) | 2021-11-05 |
CN113611365B true CN113611365B (zh) | 2024-03-26 |
Family
ID=78336908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110725025.8A Active CN113611365B (zh) | 2021-06-29 | 2021-06-29 | 冠状病毒信息数据的处理方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611365B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424399A (zh) * | 2013-08-30 | 2015-03-18 | 中国科学院上海生命科学研究院 | 一种基于病毒蛋白质本体的知识导航的方法、装置和系统 |
CN106599104A (zh) * | 2016-11-29 | 2017-04-26 | 北京锐安科技有限公司 | 一种基于redis集群的海量数据关联方法 |
CN112037865A (zh) * | 2020-08-13 | 2020-12-04 | 中国科学院微生物研究所 | 物种科学名称确定方法、装置、电子设备及存储介质 |
CN112037864A (zh) * | 2020-08-13 | 2020-12-04 | 中国科学院微生物研究所 | 微生物菌株信息的标准化处理方法、装置及电子设备 |
CN112286916A (zh) * | 2020-10-22 | 2021-01-29 | 北京锐安科技有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN112507138A (zh) * | 2020-12-28 | 2021-03-16 | 医渡云(北京)技术有限公司 | 专病知识图谱构建方法及装置、介质及电子设备 |
CN112650819A (zh) * | 2020-12-29 | 2021-04-13 | 清华大学 | 元数据立方体的构建方法、装置、设备和存储介质 |
CN112800173A (zh) * | 2021-04-14 | 2021-05-14 | 北京金山云网络技术有限公司 | 标准化数据库和医学文本库的构建方法、装置及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090105092A1 (en) * | 2006-11-28 | 2009-04-23 | The Trustees Of Columbia University In The City Of New York | Viral database methods |
GB0703822D0 (en) * | 2007-02-27 | 2007-04-11 | Iti Scotland Ltd | Methods and apparatus for term normalization |
US10997244B2 (en) * | 2017-07-14 | 2021-05-04 | Phylot Inc. | Method and system for identifying and discovering relationships between disparate datasets from multiple sources |
-
2021
- 2021-06-29 CN CN202110725025.8A patent/CN113611365B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424399A (zh) * | 2013-08-30 | 2015-03-18 | 中国科学院上海生命科学研究院 | 一种基于病毒蛋白质本体的知识导航的方法、装置和系统 |
CN106599104A (zh) * | 2016-11-29 | 2017-04-26 | 北京锐安科技有限公司 | 一种基于redis集群的海量数据关联方法 |
CN112037865A (zh) * | 2020-08-13 | 2020-12-04 | 中国科学院微生物研究所 | 物种科学名称确定方法、装置、电子设备及存储介质 |
CN112037864A (zh) * | 2020-08-13 | 2020-12-04 | 中国科学院微生物研究所 | 微生物菌株信息的标准化处理方法、装置及电子设备 |
CN112286916A (zh) * | 2020-10-22 | 2021-01-29 | 北京锐安科技有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN112507138A (zh) * | 2020-12-28 | 2021-03-16 | 医渡云(北京)技术有限公司 | 专病知识图谱构建方法及装置、介质及电子设备 |
CN112650819A (zh) * | 2020-12-29 | 2021-04-13 | 清华大学 | 元数据立方体的构建方法、装置、设备和存储介质 |
CN112800173A (zh) * | 2021-04-14 | 2021-05-14 | 北京金山云网络技术有限公司 | 标准化数据库和医学文本库的构建方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113611365A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Regier et al. | Functional equivalence of genome sequencing analysis pipelines enables harmonized variant calling across human genetics projects | |
Sayers et al. | Database resources of the national center for biotechnology information | |
Nekrutenko et al. | Next-generation sequencing data interpretation: enhancing reproducibility and accessibility | |
Puckelwartz et al. | Supercomputing for the parallelization of whole genome analysis | |
Tripathi et al. | Next-generation sequencing revolution through big data analytics | |
Kroll et al. | Quality control for RNA-Seq (QuaCRS): an integrated quality control pipeline | |
US20140361911A1 (en) | Methods and systems for storing sequence read data | |
US20150066383A1 (en) | Collapsible modular genomic pipeline | |
Yu et al. | SeqOthello: querying RNA-seq experiments at scale | |
Souilmi et al. | Scalable and cost-effective NGS genotyping in the cloud | |
Samarakoon et al. | Genopo: a nanopore sequencing analysis toolkit for portable Android devices | |
Neumann et al. | BLASTGrabber: a bioinformatic tool for visualization, analysis and sequence selection of massive BLAST data | |
Huang et al. | Analyzing large scale genomic data on the cloud with Sparkhit | |
Brown et al. | MGS-Fast: metagenomic shotgun data fast annotation using microbial gene catalogs | |
Ding et al. | Big data and stratified medicine: what does it mean for children? | |
Yang et al. | The Quartet Data Portal: integration of community-wide resources for multiomics quality control | |
Lim et al. | Robust mutation profiling of SARS-CoV-2 variants from multiple raw Illumina sequencing data with cloud workflow | |
Agarwal et al. | Next generation distributed computing for cancer research | |
Stansfield et al. | R Tutorial: Detection of Differentially Interacting Chromatin Regions From Multiple Hi‐C Datasets | |
CN113611365B (zh) | 冠状病毒信息数据的处理方法、装置、电子设备及介质 | |
Perez-Riverol | Proteomic repository data submission, dissemination, and reuse: key messages | |
Lemane et al. | Indexing and real-time user-friendly queries in terabyte-sized complex genomic datasets with kmindex and ORA | |
Berg et al. | Comparing gene annotation enrichment tools for functional modeling of agricultural microarray data | |
Martínez et al. | A framework for genomic sequencing on clusters of multicore and manycore processors | |
Tahir et al. | A fast and scalable workflow for SNPs detection in genome sequences using hadoop map-reduce |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |