CN111739585A - 一种基于ncbi数据库的信息提取方法及其相关设备 - Google Patents

一种基于ncbi数据库的信息提取方法及其相关设备 Download PDF

Info

Publication number
CN111739585A
CN111739585A CN202010591884.8A CN202010591884A CN111739585A CN 111739585 A CN111739585 A CN 111739585A CN 202010591884 A CN202010591884 A CN 202010591884A CN 111739585 A CN111739585 A CN 111739585A
Authority
CN
China
Prior art keywords
information
species
ncbi
database
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010591884.8A
Other languages
English (en)
Other versions
CN111739585B (zh
Inventor
胡嘉欣
董学超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010591884.8A priority Critical patent/CN111739585B/zh
Publication of CN111739585A publication Critical patent/CN111739585A/zh
Application granted granted Critical
Publication of CN111739585B publication Critical patent/CN111739585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于NCBI数据库的信息提取方法及其相关设备,包括:获取种属信息文件,形成信息数据库;获取用户输入的关键词;从信息数据库中获取与关键词对应的物种信息;从物种信息中提取NCBI序列号,得到NCBI序列号文件;根据NCBI序列号文件从NCBI数据库中获取与NCBI序列号对应的物种完备信息;从物种完备信息中提取与目标数据类别对应的信息。本方案装置能够自动批量提取和筛选出NCBI序列号,并根据该序列号从NCBI数据库中获取所需的物种完备信息,根据目标数据类别从物种完备信息中获取与目标数据类别对应的信息,该方案自动从NCBI数据库中提取所需的数据,可以提高信息提取的效率。

Description

一种基于NCBI数据库的信息提取方法及其相关设备
技术领域
本申请涉及生物信息技术领域,具体涉及一种基于NCBI数据库的信息提取方法及其相关设备。
背景技术
生物信息数据库是分子生物信息数据库的重要组成部分。生物信息数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心,以及和医学、生物学、农业等有关的研究机构和大学。从1992年开始,美国国家生物技术信息中心(National Centerfor Biotechnology Information,NCBI)数据库承担起对于基因库(GeneBank)数据库的责任,并且与国际核酸序列数据库交换数据建立起更为完善的数据库。到目前为止,囊括全世界生物数据的NCBI数据库已经成为分子生物学家使用最为频繁的生物信息数据库。
随着人们对基因遗传信息的了解和掌握,DNA测序已从人工操作发展到用自动测序仪进行全自动测序,测序的准确度、样品序列判读长度和速度有了极大的提高,测序的成本也大大降低。基因测序成本的降低的同时,生物数据库的数据量成指数增长。对于生物数据库的这些数据,研究者需要进行筛选和鉴别,以提取所需要的信息。
目前对于NCBI数据库的数据基本处理多依赖于人手工完成,对于这样庞大的数据量,依靠人力进行信息提取的方法提取效率很低。
发明内容
本申请实施例提供一种基于NCBI数据库的信息提取方法及其相关设备,可以提高信息提取的效率。
第一方面,本申请实施例提供了一种基于NCBI数据库的信息提取方法,包括:
获取种属信息文件;
对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;
获取用户输入的关键词;
从所述信息数据库中获取与所述关键词对应的物种信息;
从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;
根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;
获取目标数据类别;
从所述物种完备信息中提取与所述目标数据类别对应的信息。
在一些实施方式中,所述获取种属信息文件,包括:
获取用户输入的物种名称;
根据所述物种名称从所述NCBI数据库中获取所述种属信息文件。
在一些实施方式中,所述获取种属信息文件之后,所述方法还包括:
确定所述种属信息文件的信息格式是否正确;
所述对所述种属信息文件中相同物种的信息进行整合,形成信息数据库,包括:
若所述种属信息文件的信息格式正确,则对所述种属信息文件中相同物种的信息进行整合,形成所述信息数据库。
在一些实施方式中,所述从所述信息数据库中获取与所述关键词对应的物种信息,包括:
根据所述关键词从所述信息数据库中进行比对,从所述信息数据库中获取包含所述关键词的物种信息。
在一些实施方式中,所述从所述物种信息中提取NCBI序列号,得到NCBI序列号文件,包括:
从所述物种信息中提取所述NCBI序列号;
根据所述NCBI序列号的提取顺序将所述NCBI序列号输入所述NCBI序列号文件。
在一些实施方式中,所述对所述种属信息文件中相同物种的信息进行整合,形成信息数据库之后,所述方法还包括:
接收用户的信息数据库修改指令;
根据所述信息数据库修改指令对所述信息数据库的内容进行修改。
在一些实施方式中,所述获取目标数据类别之前,所述方法还包括:确定所述物种完备信息中信息的数据类别。
第二方面,本申请实施例还提供了一种基于NCBI数据库的信息提取装置,包括:
第一获取单元,用于获取种属信息文件;
整合单元,用于对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;
第二获取单元,用于获取用户输入的关键词;
第三获取单元,用于从所述信息数据库中获取与所述关键词对应的物种信息;
第一提取单元,用于从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;
第四获取单元,用于根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;
第五获取单元,用于获取目标数据类别;
第二提取单元,用于从所述物种完备信息中提取与所述目标数据类别对应的信息。
在一些实施方式中,所述第一获取单元具体用于:
获取用户输入的物种名称;
根据所述物种名称从所述NCBI数据库中获取所述种属信息文件。
在一些实施方式中,所述装置还包括:
第一确定单元,用于确定所述种属信息文件的信息格式是否正确;
此时,所述整合单元具体用于:
若所述种属信息文件的信息格式正确,则对所述种属信息文件中相同物种的信息进行整合,形成所述信息数据库。
在一些实施方式中,所述第三获取单元具体用于:
根据所述关键词从所述信息数据库中进行比对,从所述信息数据库中获取包含所述关键词的物种信息。
在一些实施方式中,所述第一提取单元具体用于:
从所述物种信息中提取所述NCBI序列号;
根据所述NCBI序列号的提取顺序将所述NCBI序列号输入所述NCBI序列号文件。
在一些实施方式中,所述装置还包括:
接收单元,用于接收用户的信息数据库修改指令;
修改单元,用于根据所述信息数据库修改指令对所述信息数据库的内容进行修改。
在一些实施方式中,所述装置还包括:
第二确定单元,用于确定所述物种完备信息中信息的数据类别。
第三方面,本申请实施例还提供了一种移动终端,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种基于NCBI数据库的信息提取方法中的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种基于NCBI数据库的信息提取方法中的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本方案中,装置获取种属信息文件;对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;获取用户输入的关键词;从所述信息数据库中获取与所述关键词对应的物种信息;从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;获取目标数据类别;从所述物种完备信息中提取与所述目标数据类别对应的信息。本方案装置能够自动批量提取和筛选出NCBI序列号,并根据该序列号从NCBI数据库中获取所需的物种完备信息,最后根据目标数据类别从物种完备信息中获取与目标数据类别对应的信息,该方案自动从NCBI数据库中提取所需的数据,可以提高信息提取的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于NCBI数据库的信息提取方法的流程示意图;
图2是本申请实施例提供的信息提取系统的结构示意图;
图3是本申请实施例提供的基于NCBI数据库的信息提取方法的另一流程示意图;
图4是本申请实施例提供的基于NCBI数据库的信息提取装置的结构示意图;
图5是本申请实施例提供的基于NCBI数据库的信息提取装置的另一结构示意图;
图6为本发明实施例提供的一种基于NCBI数据库的信息提取装置的硬件结构示意图;
图7为本发明实施例提供的一种电子设备的实施例示意图;
图8为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境,其中包括了任何的上述系统或装置。
本发明中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
在一些实施例中,在实现本申请实施例提供的基于NCBI数据库的信息提取方法之前,首先进行环境搭建,搭建python环境,安装好程序需要的python模块。具体的,根据所用计算机系统下载相应的python安装包;配置环境变量;安装python GUI编程模块;在功能实现时,利用python GUI开发编制系统功能的程序脚本和界面;将编制的程序封装成系统的可执行文件格式(exe格式)。
请参阅图1,图1是本申请一实施例提供的基于NCBI数据库的信息提取方法的流程示意图。该基于NCBI数据库的信息提取方法的执行主体可以是本申请实施例提供的基于NCBI数据库的信息提取装置,或者集成了该基于NCBI数据库的信息提取装置的终端,该基于NCBI数据库的信息提取装置可以采用硬件或者软件的方式实现,以下实施例以基于NCBI数据库的信息提取装置为信息提取系统为例对本申请中的基于NCBI数据库的信息提取方法进行说明,其中,如图2所示,信息提取系统可以由信息数据库组建模块、基因信息筛选模块、物种基本信息获取模块以及物种基本信息提取模块组成。该基于NCBI数据库的信息提取方法可以包括:
101、获取种属信息文件。
具体地,用户利用NCBI数据库官网地址或根据搜索引擎进入NCBI数据库官网;在搜索框输入用户所需种属名称;搜索种属名称对应的信息文件;下载信息文件,以获取种属信息文件,即,通过用户输入或者文件读入的方式读取用户提供的种属名称,批量从NCBI数据库下载用户所需的种属信息文件。
在一些实施例中,种属信息文件获取也可借助系统的信息数据库组建模块,在该模块GUI界面,用户输入种属名称或将种属名称按格式保存在文本文件中读入系统,系统获取种属名称后批量从NCBI数据库下载用户所需的种属信息文件。
102、确定种属信息文件的信息格式是否正确,若正确,则执行步骤103,若不正确,则返回获取该种属信息文件。
获取种属信息文件之后,需要对种属信息文件中的信息格式正误进行判断,信息格式有误时提示用户格式有误的文件名以及格式错误具体发生在该文件哪一位置。
103、对种属信息文件中相同物种的信息进行整合,形成信息数据库。
当确定种属信息文件的信息格式正确之后,处理种属信息文件中的信息数据,将同一物种的信息数据合并为一条数据,然后将单一物种合并后的信息数据进行整合,形成读入的种属文件涉及的所有物种的信息数据库。
在一些实施例中,物种信息整合完成之后,还需要剔除重复数据。
在一些实施例中,种属信息文件中相同物种的信息进行整合,形成信息数据库之后,还包括:接收用户的信息数据库修改指令;根据信息数据库修改指令对信息数据库的内容进行修改。
具体地,用户以文本文件格式查看信息数据库的内容并进行修改。
其中,步骤101至步骤103可以通过系统信息数据库组建模块执行。
104、获取用户输入的关键词。
具体地,用户可以通过基因信息筛选模块向系统键入该关键词,或者键入包含关键词的文本文件。
105、从信息数据库中获取与关键词对应的物种信息。
具体地,在一些实施例中,系统通过用户键入物种名或是读入用户提供的物种名称文件,从信息数据库中搜索复制相应的物种信息;和/或,通过用户键入的其他关键词或是读入用户提供的其他关键词文件,从信息数据库中进行比对,输出所有包含用户指定关键词的物种信息。
具体地,系统根据用户选定的筛选方式,按物种名顺序或其它关键词顺序依次从信息数据库中筛选对应的物种信息。
106、从物种信息中提取NCBI序列号。
本实施例中,从筛选得到的物种信息中提取物种对应的NCBI序列号。
107、根据NCBI序列号的提取顺序将NCBI序列号输入NCBI序列号文件。
本实施例中,将提取的NCBI序列号按提取的顺序输入NCBI序列号文件中进行保存。
可选的,本实施例还可以以文本文件格式查看NCBI序列号文件并对其中的信息进行修改。
其中,步骤104至步骤107可以通过基因信息筛选模块实现。
108、根据NCBI序列号文件从NCBI数据库中获取与NCBI序列号对应的物种完备信息。
本实施例中,以NCBI序列号文件的形式,向NCBI数据库批量发送物种对应的NCBI序列号,然后从NCBI数据库中获取每个物种NCBI序列号分别对应的物种完备信息,其中,该物种完备信息包括该物种信息对应的论文题目、作者以及期刊名称等。
其中,步骤108可以由物种基本信息获取模块实现。
109、确定物种完备信息中信息的数据类别。
本申请中的格式类别即数据格式类型,NCBI数据库是一个文献物种信息数据库,虽然从物种基本信息获取模块得到的物种完备信息均为xml格式,但同一种数据类别也存在不同的xml格式标签,例如,不同期刊的物种信息xml格式标签不同。
其中,数据类别包括论文、作者个人以及期刊等。
在一些实施例中,系统需要对数据格式类别进行判断,找到各种数据类别的xml格式标签名称(如物种信息对应的论文题目、作者、期刊名称等),然后根据xml格式标签名称确定物种完备信息中各个信息的数据类别。
本实施例中,对xml格式的物种完备信息文件进行细化处理,获取各种信息关键词的对应内容,其中,本实施例中的数据类别即信息关键词,即获取各种数据类别所对应的内容。
110、获取目标数据类别。
具体地,获取用户输入的目标数据类别,其中,目标数据类别包括论文题目、作者和/或期刊名称等。
111、从物种完备信息中提取与目标数据类别对应的信息。
在一些实施例中,系统根据需求进行信息显示,本实施例要根据用户需求显示用户所需数据类别的对应内容,即显示目标数据类别所对应的信息,例如,显示论文所对应的信息。具体地,在GUI界面显示与目标数据类别对应的信息。
具体地,确定目标数据类别的目标xml格式标签名称,然后在提取目标xml格式标签名称这个标题文件下的信息。
可选的,本方法还包括,信息显示时,根据用户指定的信息关键词(即目标数据类别)对相关需要输出的内容升序或降序排列显示,信息显示有关内容可以保存至文件。
其中,步骤109至步骤111由物种基本信息提取模块实现。
本方案中,装置获取种属信息文件;对种属信息文件中相同物种的信息进行整合,形成信息数据库;获取用户输入的关键词;从信息数据库中获取与关键词对应的物种信息;从物种信息中提取NCBI序列号,得到NCBI序列号文件;根据NCBI序列号文件从NCBI数据库中获取与NCBI序列号对应的物种完备信息;获取目标数据类别;从物种完备信息中提取与目标数据类别对应的信息。本方案装置能够自动批量提取和筛选出NCBI序列号,并根据该序列号从NCBI数据库中获取所需的物种完备信息,最后根据目标数据类别从物种完备信息中获取与目标数据类别对应的信息,该方案自动从NCBI数据库中提取所需的数据,可以提高信息提取的效率。
请参阅图3,为了便于理解,下面再简述一下本方案,首先搭建python环境,安装好程序需要的python模块,然后再到本方案功能的实现步骤,首先获取种属信息文件,然后再根据该种属信息文件组建信息数据库,然后再进行基因信息筛选,即根据关键词从信息数据库获取对应的物种信息,然后提取物种信息中的NCBI序列号,得到NCBI序列号文件,然后再根据NCBI序列号文件从NCBI数据库中获取物种基本信息,即获取物种完备信息,最后再进行物种基本信息提取,即在物种完备信息中提取所需数据类别的信息。
为便于更好的实施本申请实施例提供的基于NCBI数据库的信息提取方法,本申请实施例还提供一种基于上述基于NCBI数据库的信息提取方法的装置。其中名词的含义与上述基于NCBI数据库的信息提取方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图4,图4为本申请实施例提供的基于NCBI数据库的信息提取装置的结构示意图,其中该基于NCBI数据库的信息提取装置400可以包括第一获取单元401、整合单元402、第二获取单元403、第三获取单元404、第一提取单元405、第四获取单元406、第五获取单元407以及第二提取单元408等,其中:
第一获取单元401,用于获取种属信息文件;
整合单元402,用于对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;
第二获取单元403,用于获取用户输入的关键词;
第三获取单元404,用于从所述信息数据库中获取与所述关键词对应的物种信息;
第一提取单元405,用于从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;
第四获取单元406,用于根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;
第五获取单元407,用于获取目标数据类别;
第二提取单元408,用于从所述物种完备信息中提取与所述目标数据类别对应的信息。
在一些实施方式中,所述第一获取单元401具体用于:
获取用户输入的物种名称;
根据所述物种名称从所述NCBI数据库中获取所述种属信息文件。
请参阅图5,在一些实施方式中,所述装置400还包括:
第一确定单元409,用于确定所述种属信息文件的信息格式是否正确;
此时,所述整合单元402具体用于:
若所述种属信息文件的信息格式正确,则对所述种属信息文件中相同物种的信息进行整合,形成所述信息数据库。
在一些实施方式中,所述第三获取单元404具体用于:
根据所述关键词从所述信息数据库中进行比对,从所述信息数据库中获取包含所述关键词的物种信息。
在一些实施方式中,所述第一提取单元405具体用于:
从所述物种信息中提取所述NCBI序列号;
根据所述NCBI序列号的提取顺序将所述NCBI序列号输入所述NCBI序列号文件。
在一些实施方式中,所述装置400还包括:
接收单元410,用于接收用户的信息数据库修改指令;
修改单元411,用于根据所述信息数据库修改指令对所述信息数据库的内容进行修改。
在一些实施方式中,所述装置400还包括:
第二确定单元412,用于确定所述物种完备信息中信息的数据类别。
本方案中,第一获取单元401获取种属信息文件;整合单元402对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;第二获取单元403获取用户输入的关键词;第三获取单元404从所述信息数据库中获取与所述关键词对应的物种信息;第一提取单元405从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;第四获取单元406根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;第五获取单元407获取目标数据类别;第二提取单元408从所述物种完备信息中提取与所述目标数据类别对应的信息。本方案装置能够自动批量提取和筛选出NCBI序列号,并根据该序列号从NCBI数据库中获取所需的物种完备信息,最后根据目标数据类别从物种完备信息中获取与目标数据类别对应的信息,该方案自动从NCBI数据库中提取所需的数据,可以提高信息提取的效率。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
上面图4和图5从模块化功能实体的角度对本发明实施例中的基于NCBI数据库的信息提取装置进行了描述,下面从硬件处理的角度对本发明实施例中的基于NCBI数据库的信息提取装置进行详细描述,请参阅图6,本发明实施例中的基于NCBI数据库的信息提取装置600一个实施例,包括:
输入装置601、输出装置602、处理器603和存储器604(其中处理器603的数量可以一个或多个,图4中以一个处理器603为例)。在本发明的一些实施例中,输入装置601、输出装置602、处理器603和存储器604可通过总线或其它方式连接,其中,图4中以通过总线连接为例。
其中,通过调用存储器604存储的操作指令,处理器603,用于执行如下步骤:
获取种属信息文件;
对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;
获取用户输入的关键词;
从所述信息数据库中获取与所述关键词对应的物种信息;
从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;
根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;
获取目标数据类别;
从所述物种完备信息中提取与所述目标数据类别对应的信息。
请参阅图7,图7为本发明实施例提供的电子设备的实施例示意图。
如图7所示,本发明实施例提供了一种电子设备,包括存储器710、处理器720及存储在存储器720上并可在处理器720上运行的计算机程序711,处理器720执行计算机程序711时实现以下步骤:
获取种属信息文件;
对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;
获取用户输入的关键词;
从所述信息数据库中获取与所述关键词对应的物种信息;
从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;
根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;
获取目标数据类别;
从所述物种完备信息中提取与所述目标数据类别对应的信息。
请参阅图8,图8为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图8所示,本实施例提供了一种计算机可读存储介质800,其上存储有计算机程序811,该计算机程序811被处理器执行时实现如下步骤:
获取种属信息文件;
对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;
获取用户输入的关键词;
从所述信息数据库中获取与所述关键词对应的物种信息;
从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;
根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;
获取目标数据类别;
从所述物种完备信息中提取与所述目标数据类别对应的信息。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,当计算机软件指令在处理设备上运行时,使得处理设备执行如图1对应实施例中的风电场数字化平台设计的方法中的流程。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修该,或者对其中部分技术特征进行等同替换;而这些修该或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于NCBI数据库的信息提取方法,其特征在于,包括:
获取种属信息文件;
对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;
获取用户输入的关键词;
从所述信息数据库中获取与所述关键词对应的物种信息;
从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;
根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;
获取目标数据类别;
从所述物种完备信息中提取与所述目标数据类别对应的信息。
2.根据权利要求1所述的方法,其特征在于,所述获取种属信息文件,包括:
获取用户输入的物种名称;
根据所述物种名称从所述NCBI数据库中获取所述种属信息文件。
3.根据权利要求1所述的方法,其特征在于,所述获取种属信息文件之后,所述方法还包括:
确定所述种属信息文件的信息格式是否正确;
所述对所述种属信息文件中相同物种的信息进行整合,形成信息数据库,包括:
若所述种属信息文件的信息格式正确,则对所述种属信息文件中相同物种的信息进行整合,形成所述信息数据库。
4.根据权利要求1所述的方法,其特征在于,所述从所述信息数据库中获取与所述关键词对应的物种信息,包括:
根据所述关键词从所述信息数据库中进行比对,从所述信息数据库中获取包含所述关键词的物种信息。
5.根据权利要求1所述的方法,其特征在于,所述从所述物种信息中提取NCBI序列号,得到NCBI序列号文件,包括:
从所述物种信息中提取所述NCBI序列号;
根据所述NCBI序列号的提取顺序将所述NCBI序列号输入所述NCBI序列号文件。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述对所述种属信息文件中相同物种的信息进行整合,形成信息数据库之后,所述方法还包括:
接收用户的信息数据库修改指令;
根据所述信息数据库修改指令对所述信息数据库的内容进行修改。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取目标数据类别之前,所述方法还包括:
确定所述物种完备信息中信息的数据类别。
8.一种基于NCBI数据库的信息提取装置,其特征在于,包括:
第一获取单元,用于获取种属信息文件;
整合单元,用于对所述种属信息文件中相同物种的信息进行整合,形成信息数据库;
第二获取单元,用于获取用户输入的关键词;
第三获取单元,用于从所述信息数据库中获取与所述关键词对应的物种信息;
第一提取单元,用于从所述物种信息中提取NCBI序列号,得到NCBI序列号文件;
第四获取单元,用于根据所述NCBI序列号文件从NCBI数据库中获取与所述NCBI序列号对应的物种完备信息;
第五获取单元,用于获取目标数据类别;
第二提取单元,用于从所述物种完备信息中提取与所述目标数据类别对应的信息。
9.一种电子设备,包括存储器、处理器,其特征在于,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1至7中任意一项所述的基于NCBI数据库的信息提取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机管理类程序,其特征在于:所述计算机管理类程序被处理器执行时实现如权利要求1至7中任意一项所述的基于NCBI数据库的信息提取方法的步骤。
CN202010591884.8A 2020-06-24 2020-06-24 一种基于ncbi数据库的信息提取方法及其相关设备 Active CN111739585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010591884.8A CN111739585B (zh) 2020-06-24 2020-06-24 一种基于ncbi数据库的信息提取方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010591884.8A CN111739585B (zh) 2020-06-24 2020-06-24 一种基于ncbi数据库的信息提取方法及其相关设备

Publications (2)

Publication Number Publication Date
CN111739585A true CN111739585A (zh) 2020-10-02
CN111739585B CN111739585B (zh) 2022-10-18

Family

ID=72651096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010591884.8A Active CN111739585B (zh) 2020-06-24 2020-06-24 一种基于ncbi数据库的信息提取方法及其相关设备

Country Status (1)

Country Link
CN (1) CN111739585B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040177082A1 (en) * 2001-06-22 2004-09-09 Kiyoshi Nitta Structured data processing apparatus
CN102419763A (zh) * 2010-10-07 2012-04-18 刘扬亮 基于因特网的植物信息电子查询方法及其系统
CN105512142A (zh) * 2014-09-26 2016-04-20 深圳华大基因股份有限公司 基因变异与药物关系数据库和数据库系统
CN106295252A (zh) * 2016-08-18 2017-01-04 杭州布理岚柏科技有限公司 用于基因产品的检索方法
CN107291949A (zh) * 2017-07-17 2017-10-24 小草数语(北京)科技有限公司 信息搜索方法及装置
CN109825563A (zh) * 2019-03-21 2019-05-31 浙江省淡水水产研究所 一种基于环境dna技术检测鱼类物种多样性的方法
CN110111847A (zh) * 2019-04-24 2019-08-09 华中科技大学鄂州工业技术研究院 基于its2鉴定植物物种的方法及设备
CN110349632A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献筛选基因关键词的方法
EP3656874A1 (en) * 2018-11-26 2020-05-27 Uniwersytet Warszawski A method of selecting pcr primers, preferably for detection of antibiotic resistance genes

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040177082A1 (en) * 2001-06-22 2004-09-09 Kiyoshi Nitta Structured data processing apparatus
CN102419763A (zh) * 2010-10-07 2012-04-18 刘扬亮 基于因特网的植物信息电子查询方法及其系统
CN105512142A (zh) * 2014-09-26 2016-04-20 深圳华大基因股份有限公司 基因变异与药物关系数据库和数据库系统
CN106295252A (zh) * 2016-08-18 2017-01-04 杭州布理岚柏科技有限公司 用于基因产品的检索方法
CN107291949A (zh) * 2017-07-17 2017-10-24 小草数语(北京)科技有限公司 信息搜索方法及装置
EP3656874A1 (en) * 2018-11-26 2020-05-27 Uniwersytet Warszawski A method of selecting pcr primers, preferably for detection of antibiotic resistance genes
CN109825563A (zh) * 2019-03-21 2019-05-31 浙江省淡水水产研究所 一种基于环境dna技术检测鱼类物种多样性的方法
CN110111847A (zh) * 2019-04-24 2019-08-09 华中科技大学鄂州工业技术研究院 基于its2鉴定植物物种的方法及设备
CN110349632A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献筛选基因关键词的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WANG DAN等: "Development of Fifteen EST-SSRs Markers in Yellow Perch Perca Flavescens by Data Mining from Public EST Sequences", 《ACTA HYDROBIOLOGICA SINICA》 *
WEN XIONG等: "Factors influencing tropical Island freshwater fishes: species,status, threats and conservation in Hainan Island", 《KNOWLEDGE & MANAGEMENT OF AQUATIC ECOSYSTEMS》 *
程鹏等: "植物激素相关核酸和蛋白质二级数据库的构建与应用", 《植物学报》 *

Also Published As

Publication number Publication date
CN111739585B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
Stirling et al. CellProfiler Analyst 3.0: accessible data exploration and machine learning for image analysis
Vences et al. iTaxoTools 0.1: Kickstarting a specimen-based software toolkit for taxonomists
Blankenberg et al. Analysis of next-generation sequencing data using Galaxy
CN107545023B (zh) 文本型指标的提取方法和装置
CN110852079A (zh) 文档目录自动生成方法、装置及计算机可读存储介质
CN107679208A (zh) 一种图片的搜索方法、终端设备及存储介质
Chen et al. miRToolsGallery: a tag-based and rankable microRNA bioinformatics resources database portal
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN111797594A (zh) 基于人工智能的字符串处理方法及相关设备
Gruenstaeudl annonex2embl: automatic preparation of annotated DNA sequences for bulk submissions to ENA
Bailey et al. GAIA: framework annotation of genomic sequence
Borges et al. Well Plate Maker: a user-friendly randomized block design application to limit batch effects in large-scale biomedical studies
Leaman et al. Mining chemical patents with an ensemble of open systems
Ameur et al. The LCB data warehouse
Churakov et al. A 4-lineage statistical suite to evaluate the support of large-scale retrotransposon insertion data to reconstruct evolutionary trees
Li et al. Building an efficient curation workflow for the Arabidopsis literature corpus
Xie et al. Getting started with LINCS datasets and tools
Kozhenkov et al. Mining and integration of pathway diagrams from imaging data
CN111739585B (zh) 一种基于ncbi数据库的信息提取方法及其相关设备
Wei et al. GNorm2: an improved gene name recognition and normalization system
CN110188106B (zh) 一种数据管理方法和装置
Kwon et al. INTERSPIA: a web application for exploring the dynamics of protein-protein interactions among multiple species
Duck et al. Extracting patterns of database and software usage from the bioinformatics literature
CN108520012B (zh) 基于机器学习的移动互联网用户评论挖掘方法
CN110442858A (zh) 一种问句实体识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant