CN113609251A - 冠状病毒关联数据的处理方法及装置 - Google Patents

冠状病毒关联数据的处理方法及装置 Download PDF

Info

Publication number
CN113609251A
CN113609251A CN202110726428.4A CN202110726428A CN113609251A CN 113609251 A CN113609251 A CN 113609251A CN 202110726428 A CN202110726428 A CN 202110726428A CN 113609251 A CN113609251 A CN 113609251A
Authority
CN
China
Prior art keywords
coronavirus
data
literature
graph structure
particle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110726428.4A
Other languages
English (en)
Inventor
孙清岚
范国梅
史文聿
吴林寰
马俊才
张幸姣
孙秀强
林思汝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Microbiology of CAS
Original Assignee
Institute of Microbiology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Microbiology of CAS filed Critical Institute of Microbiology of CAS
Priority to CN202110726428.4A priority Critical patent/CN113609251A/zh
Publication of CN113609251A publication Critical patent/CN113609251A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了冠状病毒关联数据的处理方法、装置、电子设备及介质。该方法一具体实施方式包括:获取冠状病毒关联数据,其中,冠状病毒关联数据包括冠状病毒生物信息数据、冠状病毒文献数据和冠状病毒专利数据中的至少一种;对冠状病毒关联数据进行颗粒化处理,得到颗粒数据集;根据颗粒数据集,生成相应的图结构;根据图结构,对查询请求进行响应。该方法实现了不同冠状病毒关联数据的整合,有利于进行关联数据的全面查询和科学知识的深度挖掘,从而为冠状病毒的研究工作提供有力支持。

Description

冠状病毒关联数据的处理方法及装置
技术领域
本公开涉及微生物技术领域,具体涉及冠状病毒关联数据的处理方法、装置、电子设备及介质。
背景技术
冠状病毒自从被发现以来,人们对其病毒结构、致病、传染、分子生物学、基因组测序等等方面进行科学研究,产生了冠状病毒生物信息数据、冠状病毒文献数据和冠状病毒专利数据等多种关联数据。
现有的冠状病毒关联数据通常分散在不同的数据库中。不同类型数据信息可以得到的分析挖掘的结果往往是片面化的,局部的。信息整合的越全面,越有利于科学知识的深度挖掘,越能产生综合有意义的分析结果。
因此,有必要提出一种新的对冠状病毒关联数据进行处理的技术方案。
发明内容
本公开提出了冠状病毒关联数据的处理方法、装置及电子设备。
第一方面,本公开提供了一种冠状病毒关联数据的处理方法,包括:
获取冠状病毒关联数据,其中,所述冠状病毒关联数据包括冠状病毒生物信息数据、冠状病毒文献数据和冠状病毒专利数据中的至少一种;
对所述冠状病毒关联数据进行颗粒化处理,得到颗粒数据集;
根据所述颗粒数据集,生成相应的图结构;
根据所述图结构,对查询请求进行响应。
在一些可选的实施方式中,所述冠状病毒关联数据包括冠状病毒生物信息数据;以及
所述对所述冠状病毒关联数据进行颗粒化处理,得到颗粒数据集,包括:
提取所述冠状病毒生物信息数据对应的冠状病毒科学数据和冠状病毒元数据,以得到所述颗粒数据集,其中,所述冠状病毒科学数据包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种,所述冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一种。
在一些可选的实施方式中,所述根据所述颗粒数据集,生成相应的图结构,包括:
在所述冠状病毒科学数据和对应的冠状病毒元数据之间建立第一关联关系;
在对应于同一冠状病毒元数据的至少两个冠状病毒科学数据之间建立第二关联关系;
根据所述第一关联关系和所述第二关联关系,得到所述图结构。
在一些可选的实施方式中,所述冠状病毒关联数据包括冠状病毒文献数据;以及
所述对所述冠状病毒关联数据进行颗粒化处理,得到颗粒数据集,包括:
提取所述冠状病毒文献数据对应的冠状病毒文献元数据,以得到所述颗粒数据集,其中,所述冠状病毒文献元数据包括文献编号、文献类型、文献标题、文献作者姓名、文献发表刊物名称、文献发表时间、标准国际刊号、文献数字对象标识符以及文献摘要中的至少一种。
在一些可选的实施方式中,所述根据所述颗粒数据集,生成相应的图结构,包括:
在对应于同一文献的至少两个冠状病毒文献元数据之间建立第三关联关系;
在对应于同一冠状病毒的至少两个冠状病毒文献元数据之间建立第四关联关系;
根据所述第三关联关系和所述第四关联关系,得到所述图结构。
在一些可选的实施方式中,所述根据所述图结构,对查询请求进行响应,包括:
接收终端设备发送的查询请求;
响应于所述查询请求,根据所述图结构执行数据检索、生物信息分析和数据挖掘分析中的至少一项操作,得到相应的查询结果;
将所述查询结果发送至所述终端设备。
在一些可选的实施方式中,所述生物信息分析通过以下方式实施:
获取所述查询请求中包含的目标科学数据;
基于预设的生物信息分析算法,将所述目标科学数据与所述图结构中的冠状病毒科学数据进行对比,得到所述查询结果。
第二方面,本公开提供了一种冠状病毒关联数据的处理方法,包括:
获取单元,用于获取冠状病毒关联数据,其中,所述冠状病毒关联数据包括冠状病毒生物信息数据、冠状病毒文献数据和冠状病毒专利数据中的至少一种;
颗粒化处理单元,用于对所述冠状病毒关联数据进行颗粒化处理,得到颗粒数据集;
图结构生成单元,用于根据所述颗粒数据集,生成相应的图结构;
查询单元,用于根据所述图结构,对查询请求进行响应。
在一些可选的实施方式中,所述冠状病毒关联数据包括冠状病毒生物信息数据;以及
所述颗粒化处理单元进一步用于:
提取所述冠状病毒生物信息数据对应的冠状病毒科学数据和冠状病毒元数据,以得到所述颗粒数据集,其中,所述冠状病毒科学数据包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种,所述冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一种。
在一些可选的实施方式中,所述图结构生成单元进一步用于:
在所述冠状病毒科学数据和对应的冠状病毒元数据之间建立第一关联关系;
在对应于同一冠状病毒元数据的至少两个冠状病毒科学数据之间建立第二关联关系;
根据所述第一关联关系和所述第二关联关系,得到所述图结构。
在一些可选的实施方式中,所述冠状病毒关联数据包括冠状病毒文献数据;以及
所述颗粒化处理单元进一步用于:
提取所述冠状病毒文献数据对应的冠状病毒文献元数据,以得到所述颗粒数据集,其中,所述冠状病毒文献元数据包括文献编号、文献类型、文献标题、文献作者姓名、文献发表刊物名称、文献发表时间、标准国际刊号、文献数字对象标识符以及文献摘要中的至少一种。
在一些可选的实施方式中,所述图结构生成单元进一步用于:
在对应于同一文献的至少两个冠状病毒文献元数据之间建立第三关联关系;
在对应于同一冠状病毒的至少两个冠状病毒文献元数据之间建立第四关联关系;
根据所述第三关联关系和所述第四关联关系,得到所述图结构。
在一些可选的实施方式中,所述查询单元进一步用于:
接收终端设备发送的查询请求;
响应于所述查询请求,根据所述图结构执行数据检索、生物信息分析和数据挖掘分析中的至少一项操作,得到相应的查询结果;
将所述查询结果发送至所述终端设备。
在一些可选的实施方式中,所述查询单元进一步用于:
获取所述查询请求中包含的目标科学数据;
基于预设的生物信息分析算法,将所述目标科学数据与所述图结构中的冠状病毒科学数据进行对比,得到所述查询结果。
第三方面,本公开提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如本公开第一方面任一实施方式描述的方法。
第四方面,本公开还提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如本公开第一方面任一实施方式描述的方法。
本公开提供的冠状病毒关联数据的处理方法、装置及电子设备,通过对冠状病毒关联数据进行颗粒化处理得到颗粒数据集,进而生成相应的图结构,在此基础上对查询请求进行响应,实现了不同冠状病毒关联数据的整合,有利于进行关联数据的全面查询和科学知识的深度挖掘,从而为冠状病毒的研究工作提供有力支持。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2A是根据本公开的冠状病毒关联数据的处理方法的一个实施例的流程图;
图2B是根据本公开的冠状病毒关联数据的处理方法的一个例子的示意图;
图3是根据本公开的冠状病毒关联数据的处理装置的一个实施例的结构示意图;
图4是适于用来实现本公开的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的冠状病毒关联数据的处理方法或冠状病毒关联数据的处理装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如冠状病毒信息数据记录类应用、冠状病毒信息数据处理类应用、网页浏览器应用等。
终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是具有显示屏并且支持信息输入(比如,文本输入和/或语音输入等)的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件单元(例如用来提供冠状病毒关联数据的处理服务),也可以实现成单个软件或软件单元。在此不做具体限定。
服务器103可以是提供各种服务的服务器,例如对终端设备101发送的冠状病毒信息查询请求提供处理服务的后台服务器。后台服务器可以对接收到的冠状病毒信息查询请求进行处理操作,并将操作结果(例如查询结果)反馈给终端设备。
在一些情况下,本公开所提供的冠状病毒关联数据的处理方法可以由服务器103执行,相应地,冠状病毒关联数据的处理装置也可以设置于服务器103中,这时,系统架构100也可以不包括终端设备101。
在一些情况下,本公开所提供的冠状病毒关联数据的处理方法可以由终端设备101执行,相应地,冠状病毒关联数据的处理装置也可以设置于终端设备101中,这时,系统架构100也可以不包括服务器103。
需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件单元(例如用来提供冠状病毒关联数据的处理服务),也可以实现成单个软件或软件单元。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2A,其示出了根据本公开的冠状病毒关联数据的处理方法的一个实施例的流程200。该冠状病毒关联数据的处理方法包括以下步骤:
步骤201,获取冠状病毒关联数据,其中,冠状病毒关联数据包括冠状病毒生物信息数据、冠状病毒文献数据和冠状病毒专利数据中的至少一种。
冠状病毒生物信息数据是记录冠状病毒的生物信息的数据,其可以进一步包括冠状病毒科学数据和冠状病毒元数据。
冠状病毒科学数据可以包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种。冠状病毒核酸数据包含的字段例如为核酸编号、数据来源、核酸长度、是否基因组、是否参考序列、物种ID、序列类型、采集日期、提交日期、提交地点和所属国家等。冠状病毒蛋白数据包含的字段例如为蛋白编号、GI、数据来源、序列长度、基本描述、蛋白ID、蛋白描述、UniProtID和核酸编号等。冠状病毒晶体结构数据包含的字段例如为结构编号、描述、物种、表现系统、表达方式等。
冠状病毒元数据可用于描述相应的冠状病毒科学数据或者冠状病毒的相关属性。冠状病毒元数据可以包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一种。
冠状病毒核酸数据可以从美国国家生物技术信息中心GenBank数据库、中国国家微生物科学数据中心数据库、中国国家基因组科学数据中心数据库和中国国家基因库数据库中的至少一个数据库获取。冠状病毒蛋白数据可以从美国国家生物信息中心蛋白质数据库、Uniprot通用蛋白质数据库中的至少一个数据库获取。冠状病毒晶体结构数据可以从PDB蛋白质结构数据库获取。冠状病毒抗体数据可以从CoV-AbDab冠状病毒抗体数据库获取。
冠状病毒文献数据是与冠状病毒有关的文献数据,其可以进一步包括冠状病毒名称、冠状病毒文献标识和冠状病毒文献元数据。
可以从预设的数据源(例如提供冠状病毒名称的网站或数据库、提供冠状病毒文献标识的医学文献数据库)获取冠状病毒名称集和文献标识集。例如,可以从中国国家微生物科学数据中心(National Microbiology Data Center,NMDC)网站上抓取冠状病毒名称,从而得到冠状病毒名称集。例如,可以从PubMed医学文献数据库中抓取冠状病毒文献标识,从而得到冠状病毒文献标识集。
冠状病毒文献元数据可用于描述相应的冠状病毒文献的相关属性,可以包括以下至少一项:文献编号、文献类型、文献标题、文献作者姓名、文献发表刊物名称、文献发表时间、标准国际刊号、文献数字对象标识符以及文献摘要。可以从预设数据库(例如PubMed数据库)查找与每个冠状病毒文献标识匹配的冠状病毒文献元数据。
冠状病毒专利数据是与冠状病毒有关的专利数据,其可以进一步包括冠状病毒专利元数据。
冠状病毒专利元数据可用于描述相应的冠状病毒专利数据的相关属性,其可以包括专利号、标题、发明人、专利权人和代码、摘要、重点技术、等同摘要、国际专利分类、专利详细信息、申请详细信息、更多申请详细信息、优先权申请信息和日期、检索领域、被审查员引用的专利、被审查员引用的文献、化合物、马库什号、环系索引号和科学数据编号的至少一种。
可以从预设的数据源(例如spacenet/INPADOC数据库、专利全文数据库或者中国专利局专利检索及分析系统等)获取冠状病毒专利数据。可以通过自动方式或者人工方式进行冠状病毒专利数据的广泛收集、精细梳理及深度挖掘。
步骤202,对冠状病毒关联数据进行颗粒化处理,得到颗粒数据集。
可以从冠状病毒关联数据中提取特定的字段信息,从而形成颗粒数据集。例如,对于冠状病毒生物信息数据,可以提取冠状病毒生物信息数据对应的冠状病毒科学数据和冠状病毒元数据,以得到颗粒数据集。对于冠状病毒文献数据,可以提取冠状病毒文献数据对应的冠状病毒文献元数据,以得到颗粒数据集。对于冠状病毒专利数据,可以提取冠状病毒专利数据对应的冠状病毒专利元数据,以得到颗粒数据集。
在进行数据颗粒化处理时,可以对关联数据进行标准化处理,以便数据的提取、查找和分析等。
以冠状病毒元数据为例,可以对原始的冠状病毒元数据进行标准化处理,得到相应的冠状病毒标准化元数据,以便进行后续步骤。对于冠状病毒元数据中不同的字段,可以预先获取该字段对应的标准化词库(或者称之为字典)。例如,对于宿主名称这一字段,可以预先获取宿主名称标准化词库。对于国家名称这一字段,可以预先获取国家名称标准化词库。对于病毒名称这一字段,可以预先获取病毒名称标准化词库。对于物种分类名称这一字段,可以预先获取物种分类名称标准化词库。对于分离物名称这一字段,可以预先获取分离物名称标准化词库。
这里,标准化词库可以对应存储有标准词和相应的非标准词。例如,在宿主名称标准化词库中,一个标准词可以是“Homo sapiens”,该标准词相应的非标准词可以是“Human”、“人类”、“患者”等。又例如,在国家名称标准化词库中,一个标准词可以是“USA”,该标准词对应的非标准词可以是“American”、“the United States”、“美国”等。又例如,在物种分类名称标准化词库中,标准词可以是物种科学名称,对应的非标准词可以是相应的曾用名、常用写法、错误写法、基因名写法等。
步骤203,根据颗粒数据集,生成相应的图结构。
可以以颗粒数据集中的每个颗粒数据为节点,并且在具有关联关系的节点之间添加边,从而生成颗粒数据集对应的图结构(即知识图谱)。
对于冠状病毒生物信息数据,可以在冠状病毒科学数据和对应的冠状病毒元数据之间建立第一关联关系,在对应于同一冠状病毒元数据的至少两个冠状病毒科学数据之间建立第二关联关系,并且根据第一关联关系和第二关联关系得到图结构。
举例来说,可以在冠状病毒核酸数据A1和相应的宿主名称“Homo sapiens”之间建立关联关系。可以在均对应于宿主名称“Homo sapiens”的冠状病毒核酸数据A1和冠状病毒核酸数据A2之间建立关联关系,或者在均对应于病毒名称“2019-nCoV”的冠状病毒核酸数据A和冠状病毒蛋白数据B之间添加关联关系。
对于冠状病毒文献数据,可以在对应于同一文献的至少两个冠状病毒文献元数据之间建立第三关联关系,在对应于同一冠状病毒的至少两个冠状病毒文献元数据之间建立第四关联关系,并且根据第三关联关系和第四关联关系,得到图结构。
对于冠状病毒专利数据,可以在对应于同一专利的至少两个冠状病毒专利元数据之间建立第五关联关系,在对应于同一冠状病毒的至少两个冠状病毒专利元数据之间建立第六关联关系,并且根据第五关联关系和第六关联关系,得到图结构。
在一个例子中,可以通过以下方式为图结构中的边添加权值:图结构中边的权值通过以下方式确定:确定边对应的两个节点是否为直接关联;响应于确定是,将边的权值确定为1;响应于确定否,确定边对应的两个节点之间中间媒介的个数N,并将边的权值确定为N+1。
通过上述方式,所有颗粒数据之间根据相互的关联关系形成了一张巨大的网络关联图。据此可以进行数据查询、分析和挖掘等操作。
步骤204,根据图结构,对查询请求进行响应。
在一个例子中,执行主体可以按照如下方式对查询请求进行响应:首先,接收终端设备发送的查询请求。其次,响应于查询请求,根据图结构执行数据检索、生物信息分析和数据挖掘分析中的至少一项操作,得到相应的查询结果。最后,将查询结果发送至终端设备。通过上述方式,能够快速查找特定冠状病毒的相关数据并且进行展示,有利于对查询请求做出快速响应。
在一个例子中,生物信息分析可以通过以下方式实施:获取查询请求中包含的目标科学数据;基于预设的生物信息分析算法,将目标科学数据与图结构中的冠状病毒科学数据进行对比,得到查询结果。
在一个例子中,可以基于图结构,从时序、地域或者研究领域等角度进行数据挖掘分析,以获得深层次的信息。
在一个例子中,可以根据图结构形成知识图谱,以可视化方式展示给用户,使用户清楚、直观地获取相关信息。
在一个例子中,可以根据图结构生成RDF三元组数据集,并提供基于RDF的SPAQL查询,以满足多样化的查询分析需求。
在一个例子中,查询请求中包含目标病毒名称。在此种情况下,执行主体可以以目标病毒名称对应的节点为起始节点,在图结构中查找相应的最短路径,其中,图结构中的节点包括冠状病毒名称和冠状病毒关联数据,图结构中的边具有预设的权值,权值表示相应两个节点建立关联所需的步长。执行主体可以将每个最短路径对应的终止节点作为查询结果发送至终端设备。
在一个例子中,查询请求中包含第一查询数据和第二查询数据。在此种情况下,执行主体可以基于图结构查找第一查询数据对应的第一节点和第二查询数据对应的第二节点之间的连通路径,其中,图结构中的节点包括冠状病毒名称和冠状病毒关联数据,图结构中的边具有预设的权值,权值表示相应两个节点建立关联所需的步长。执行主体可以将连通路径作为查询结果,发送至终端设备。通过上述方式,有利于全面完整地挖掘不同数据之间的关联关系,从冠状病毒、病毒分类、毒株等层面实现专题性信息挖掘与知识发现。
在一个例子中,查询请求中包含第一查询数据和第二查询数据。在此种情况下,执行主体可以基于图结构查找第一查询数据对应的第一节点和第二查询数据对应的第二节点之间的连通路径,其中,图结构中的节点包括冠状病毒名称、冠状病毒关联数据和冠状病毒毒株数据,图结构中的边具有预设的权值,权值表示相应两个节点建立关联所需的步长,连通路径经过至少一个冠状病毒毒株数据类型的节点。执行主体可以将连通路径作为查询结果,发送至终端设备。通过上述方式,能够在提供关联数据之间关联关系的同时输出相关的毒株信息,有利于实现从毒株角度的冠状病毒关联数据的知识挖掘。
图2B是根据本公开的冠状病毒关联数据的处理方法的一个例子的示意图。如图2B所示,可以分别通过冠状病毒生物信息数据处理、冠状病毒文献数据处理和冠状病毒专利数据处理,实现冠状病毒关联数据的收集整理,并对冠状病毒关联数据进行数据颗粒化处理,得到颗粒数据集。在此基础上,生成颗粒数据集对应的图结构,实现知识图谱化处理。最后,基于图结构对用户的查询请求进行响应,实现关联数据的查询分析与可视化展示。
本实施例中的冠状病毒关联数据的处理方法、装置及电子设备,通过对冠状病毒关联数据进行颗粒化处理得到颗粒数据集,进而生成相应的图结构,在此基础上对查询请求进行响应,实现了不同冠状病毒关联数据的整合,有利于进行关联数据的全面查询和科学知识的深度挖掘,从而为冠状病毒的研究工作提供有力支持。
进一步参考图3,作为对上述各图所示方法的实现,本公开提供了一种冠状病毒关联数据的处理装置的一个实施例,该装置实施例与图2A所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例的冠状病毒关联数据的处理装置300可以包括:获取单元301、颗粒化处理单元302、图结构生成单元303和查询单元304。其中,获取单元301,可用于获取冠状病毒关联数据,其中,冠状病毒关联数据包括冠状病毒生物信息数据、冠状病毒文献数据和冠状病毒专利数据中的至少一种;颗粒化处理单元302,可用于对冠状病毒关联数据进行颗粒化处理,得到颗粒数据集;图结构生成单元303,可用于根据颗粒数据集,生成相应的图结构;查询单元304,可用于根据图结构,对查询请求进行响应。
在本实施例中,冠状病毒关联数据的处理装置300的获取单元301、颗粒化处理单元302、图结构生成单元303和查询单元304的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201、步骤202、步骤203和204的相关说明,在此不再赘述。
在一些可选的实施方式中,冠状病毒关联数据可以包括冠状病毒生物信息数据;以及颗粒化处理单元302可以进一步用于:提取冠状病毒生物信息数据对应的冠状病毒科学数据和冠状病毒元数据,以得到颗粒数据集,其中,冠状病毒科学数据包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种,冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一种。
在一些可选的实施方式中,图结构生成单元303可以进一步用于:在冠状病毒科学数据和对应的冠状病毒元数据之间建立第一关联关系;在对应于同一冠状病毒元数据的至少两个冠状病毒科学数据之间建立第二关联关系;根据第一关联关系和第二关联关系,得到图结构。
在一些可选的实施方式中,冠状病毒关联数据可以包括冠状病毒文献数据;以及颗粒化处理单元302可以进一步用于:提取冠状病毒文献数据对应的冠状病毒文献元数据,以得到颗粒数据集,其中,冠状病毒文献元数据包括文献编号、文献类型、文献标题、文献作者姓名、文献发表刊物名称、文献发表时间、标准国际刊号、文献数字对象标识符以及文献摘要中的至少一种。
在一些可选的实施方式中,图结构生成单元303可以进一步用于:在对应于同一文献的至少两个冠状病毒文献元数据之间建立第三关联关系;在对应于同一冠状病毒的至少两个冠状病毒文献元数据之间建立第四关联关系;根据第三关联关系和第四关联关系,得到图结构。
在一些可选的实施方式中,查询单元304可以进一步用于:接收终端设备发送的查询请求;响应于查询请求,根据图结构执行数据检索、生物信息分析和数据挖掘分析中的至少一项操作,得到相应的查询结果;将查询结果发送至终端设备。
在一些可选的实施方式中,查询单元304可以进一步用于:获取查询请求中包含的目标科学数据;基于预设的生物信息分析算法,将目标科学数据与图结构中的冠状病毒科学数据进行对比,得到查询结果。
需要说明的是,本公开提供的冠状病毒关联数据的处理装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明,在此不再赘述。
下面参考图4,其示出了适于用来实现本公开的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本公开的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU,Central Processing Unit)401,其可以根据存储在只读存储器(ROM,Read Only Memory)402中的程序或者从存储部分408加载到随机访问存储器(RAM,Random Access Memory)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有系统400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O,Input/Output)接口405也连接至总线404。
以下部件连接至I/O接口405:包括触控屏、手写板、键盘或鼠标等的输入部分406;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid CrystalDisplay)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本公开的方法中限定的上述功能。需要说明的是,本公开的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,该单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、颗粒化处理单元、图结构生成单元和查询单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“用于获取冠状病毒关联数据的单元”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的,也可以是单独存在而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取冠状病毒信息数据,其中,冠状病毒信息数据包括冠状病毒生物信息数据和相应的冠状病毒元数据;冠状病毒生物信息数据用于描述冠状病毒的生物信息,冠状病毒生物信息数据包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种;冠状病毒元数据用于描述相应的冠状病毒生物信息数据的属性;根据预设的标准化词库,对冠状病毒元数据进行标准化处理,得到相应的冠状病毒标准化元数据;根据冠状病毒标准化元数据,确定不同的冠状病毒生物信息数据之间的关联关系,以形成冠状病毒信息整合数据集。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种冠状病毒关联数据的处理方法,包括:
获取冠状病毒关联数据,其中,所述冠状病毒关联数据包括冠状病毒生物信息数据、冠状病毒文献数据和冠状病毒专利数据中的至少一种;
对所述冠状病毒关联数据进行颗粒化处理,得到颗粒数据集;
根据所述颗粒数据集,生成相应的图结构;
根据所述图结构,对查询请求进行响应。
2.根据权利要求1所述的方法,其中,所述冠状病毒关联数据包括冠状病毒生物信息数据;以及
所述对所述冠状病毒关联数据进行颗粒化处理,得到颗粒数据集,包括:
提取所述冠状病毒生物信息数据对应的冠状病毒科学数据和冠状病毒元数据,以得到所述颗粒数据集,其中,所述冠状病毒科学数据包括冠状病毒核酸数据、冠状病毒蛋白数据、冠状病毒晶体结构数据和冠状病毒抗体数据中的至少一种,所述冠状病毒元数据包括宿主名称、国家名称、病毒名称、物种分类名称和分离物名称中的至少一种。
3.根据权利要求2所述的方法,其中,所述根据所述颗粒数据集,生成相应的图结构,包括:
在所述冠状病毒科学数据和对应的冠状病毒元数据之间建立第一关联关系;
在对应于同一冠状病毒元数据的至少两个冠状病毒科学数据之间建立第二关联关系;
根据所述第一关联关系和所述第二关联关系,得到所述图结构。
4.根据权利要求1所述的方法,其中,所述冠状病毒关联数据包括冠状病毒文献数据;以及
所述对所述冠状病毒关联数据进行颗粒化处理,得到颗粒数据集,包括:
提取所述冠状病毒文献数据对应的冠状病毒文献元数据,以得到所述颗粒数据集,其中,所述冠状病毒文献元数据包括文献编号、文献类型、文献标题、文献作者姓名、文献发表刊物名称、文献发表时间、标准国际刊号、文献数字对象标识符以及文献摘要中的至少一种。
5.根据权利要求4所述的方法,其中,所述根据所述颗粒数据集,生成相应的图结构,包括:
在对应于同一文献的至少两个冠状病毒文献元数据之间建立第三关联关系;
在对应于同一冠状病毒的至少两个冠状病毒文献元数据之间建立第四关联关系;
根据所述第三关联关系和所述第四关联关系,得到所述图结构。
6.根据权利要求1所述的方法,其中,所述根据所述图结构,对查询请求进行响应,包括:
接收终端设备发送的查询请求;
响应于所述查询请求,根据所述图结构执行数据检索、生物信息分析和数据挖掘分析中的至少一项操作,得到相应的查询结果;
将所述查询结果发送至所述终端设备。
7.根据权利要求6所述的方法,其中,所述生物信息分析通过以下方式实施:
获取所述查询请求中包含的目标科学数据;
基于预设的生物信息分析算法,将所述目标科学数据与所述图结构中的冠状病毒科学数据进行对比,得到所述查询结果。
8.一种冠状病毒关联数据的处理方法,包括:
获取单元,用于获取冠状病毒关联数据,其中,所述冠状病毒关联数据包括冠状病毒生物信息数据、冠状病毒文献数据和冠状病毒专利数据中的至少一种;
颗粒化处理单元,用于对所述冠状病毒关联数据进行颗粒化处理,得到颗粒数据集;
图结构生成单元,用于根据所述颗粒数据集,生成相应的图结构;
查询单元,用于根据所述图结构,对查询请求进行响应。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202110726428.4A 2021-06-29 2021-06-29 冠状病毒关联数据的处理方法及装置 Pending CN113609251A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110726428.4A CN113609251A (zh) 2021-06-29 2021-06-29 冠状病毒关联数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110726428.4A CN113609251A (zh) 2021-06-29 2021-06-29 冠状病毒关联数据的处理方法及装置

Publications (1)

Publication Number Publication Date
CN113609251A true CN113609251A (zh) 2021-11-05

Family

ID=78303855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110726428.4A Pending CN113609251A (zh) 2021-06-29 2021-06-29 冠状病毒关联数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN113609251A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325329A1 (en) * 2018-04-23 2019-10-24 Qliktech International Ab Knowledge graph data structures and uses thereof
CN110609910A (zh) * 2019-09-18 2019-12-24 金色熊猫有限公司 医学知识图谱构建方法及装置、存储介质和电子设备
CN112380345A (zh) * 2020-11-20 2021-02-19 山东省计算中心(国家超级计算济南中心) 一种基于gnn的covid-19科学文献细粒度分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325329A1 (en) * 2018-04-23 2019-10-24 Qliktech International Ab Knowledge graph data structures and uses thereof
CN110609910A (zh) * 2019-09-18 2019-12-24 金色熊猫有限公司 医学知识图谱构建方法及装置、存储介质和电子设备
CN112380345A (zh) * 2020-11-20 2021-02-19 山东省计算中心(国家超级计算济南中心) 一种基于gnn的covid-19科学文献细粒度分类方法

Similar Documents

Publication Publication Date Title
Wilke et al. A RESTful API for accessing microbial community data for MG-RAST
US20130304391A1 (en) Transmission and compression of genetic data
Oliver et al. Using the iPlant collaborative discovery environment
CN112181936A (zh) 一种数据库检测方法和装置
CN112885412A (zh) 基因组注释方法、装置、可视化平台和存储介质
Neumann et al. BLASTGrabber: a bioinformatic tool for visualization, analysis and sequence selection of massive BLAST data
Perez‐Riverol et al. OLS client and OLS dialog: open source tools to annotate public omics datasets
CN112818026A (zh) 数据整合方法和装置
CN112037865B (zh) 物种科学名称确定方法、装置、电子设备及存储介质
CN113590756A (zh) 信息序列生成方法、装置、终端设备和计算机可读介质
CN112148841B (zh) 一种对象分类以及分类模型构建方法和装置
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
Chen et al. Using Ontology Fingerprints to disambiguate gene name entities in the biomedical literature
CN111126034B (zh) 医学变量关系的处理方法及装置、计算机介质和电子设备
CN109086438B (zh) 用于查询信息的方法和装置
CN112100168A (zh) 一种确定数据关联关系的方法和装置
CN111488386A (zh) 数据查询方法和装置
CN112037864B (zh) 微生物菌株信息的标准化处理方法、装置及电子设备
CN113609251A (zh) 冠状病毒关联数据的处理方法及装置
CN112579673A (zh) 一种多源数据处理方法及装置
CN111063447B (zh) 查询和文本处理方法及装置、电子设备和存储介质
Vera Alvarez et al. Workflow and web application for annotating NCBI BioProject transcriptome data
CN110647623B (zh) 用于更新信息的方法及装置
CN109308299B (zh) 用于搜索信息的方法和装置
CN113611365B (zh) 冠状病毒信息数据的处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination