CN113921082B

CN113921082B - 基因搜索权重调整方法、计算机存储介质及电子设备

Info

Publication number: CN113921082B
Application number: CN202111256000.4A
Authority: CN
Inventors: 岑文杰; 沈丽婷
Original assignee: Yunzhou Biotechnology Guangzhou Co ltd
Current assignee: Yunzhou Biotechnology Guangzhou Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-04-07
Anticipated expiration: 2041-10-27
Also published as: CN113921082A

Abstract

本发明提供了一种基于生物研究热点的基因搜索权重调整方法、计算机存储介质及电子设备，方法包括以下步骤：S1、建立文献数据库，文献数据库包含期刊出版的文献；S2、获取用户输入的开放阅读框；S3、筛选出与所述开放阅读框同名的多个物种，每个物种的基因ID不同；S4、检索每个物种的基因ID在所述文献数据库中出现的次数，得到与开放阅读框同名的多个物种的热度；S5、将与开放阅读框同名的多个物种进行热度排序。根据本发明的方法，通过筛选出与用户输入的开放阅读框同名的多个物种，并将各个物种的热度进行排序，可以帮助用户更快速的找到需求的开放阅读框，减少构建载体过程中选择开放阅读框的时间，提高用户体验。

Description

基因搜索权重调整方法、计算机存储介质及电子设备

技术领域

本发明涉及基因编辑领域，更具体地，涉及一种基于生物研究热点的基因搜索权重调整方法、计算机存储介质及电子设备。

背景技术

随着生物技术的不断发展，人们对生物实验所需的基础材料——载体的需求愈来愈大。

在载体构建过程中，需选择添加ORF(开放阅读框)元件，而同名ORF有很多物种。用户在构建载体时，面对具有同名开放阅读框的物种，通常需要花费较大的时间和精力来确定哪一个物种是实际所需要的物种，增加了用户构建载体的时间，影响了用户的使用体验。

发明内容

为解决上述技术问题，一方面，本发明提供一种基于生物研究热点的基因搜索权重调整方法。

根据本发明实施例的基于生物研究热点的基因搜索权重调整方法，包括以下步骤：S1、建立文献数据库，所述文献数据库包含期刊出版的文献；S2、获取用户输入的开放阅读框；S3、筛选出与所述开放阅读框同名的多个物种，每个所述物种的基因ID不同；S4、检索每个所述物种的基因ID在所述文献数据库中出现的次数，得到与所述开放阅读框同名的多个所述物种的热度；S5、将与所述开放阅读框同名的多个所述物种进行热度排序。

根据本发明实施例的基于生物研究热点的基因搜索权重调整方法，通过筛选出与用户输入的开放阅读框同名的多个物种，并将各个物种的热度进行排序，可以帮助用户更快速的找到需求的开放阅读框，减少构建载体过程中选择开放阅读框的时间，提高用户体验。

根据本发明的一些实施例，每个所述物种的基因ID为NCBI基因ID。

根据本发明的一些实施例，步骤S3包括：S31、获取所述开放阅读框中用于编码蛋白的碱基序列；S32、筛选出所述碱基序列中包含以启动子和终止子为界限，且内部不包含启动子或者密码子的基因序列，每个所述基因序列对应一个物种；S33、筛选出所述物种。

根据本发明的一些实施例，步骤S4包括：S41、统计每个所述物种的基因ID在第一预定时间内被搜索的次数，记为初始热度H初始；S42、统计每个所述物种的基因ID在第二预定时间内被搜索的次数，记为参照热度H参照；S43、统计所述开放阅读框在已构建载体中出现的次数，记为互动热度H互动；S44、统计出现了相应的所述物种的基因ID的文献总数，作为第一参考值；S45、统计步骤S44得到的每个文献中出现了相应的所述物种的基因ID的次数，作为第二参考值；S46、根据所述第一参考值和所述第二参考值的设定赋值，按照以下公式计算所述物种的热度H：

H＝H初始+H互动-(H参照-H初始)+P

其中，P表示相应的所述物种的基因ID的权重，

P＝基因符号*0.4+全名*0.3+别名*0.2+其他名称*0.1。

根据本发明的一些实施例，在步骤S5中，根据时间或热度排名对所述物种进行热度排序。

根据本发明的一些实施例，对所述物种进行热度排序时，显示所述物种的种类、每个所述物种每年的所述第一参考值和所述第二参考值。

根据本发明的一些实施例，所述文献为包含医学、护理、兽医、健康系统以及临床科学的公开文献。

根据本发明的一些实施例，所述文献数据库中的数据在设定时间与NCBI数据库同步。

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

根据本发明第三方面实施例的电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令；所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如上述任一实施例所述的方法。

附图说明

图1为本发明实施例的基于生物研究热点的基因搜索权重调整方法的流程图；

图2为本发明实施例的电子设备的示意图。

附图标记：

电子设备100；

存储器110；操作系统111；应用程序112；

处理器120；网络接口130；输入设备140；硬盘150；显示设备160。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

下面首先对本申请中涉及的相关名词进行解释说明。

载体：载体(Vector)，指在基因工程重组DNA技术中将DNA片段(目的基因)转移至受体细胞的一种能自我复制的DNA分子。三种最常用的载体是细菌质粒、噬菌体和动植物病毒。在实际生活中，胰岛素就可以通过使用载体将已插入胰岛素基因片段的质粒放入大肠杆菌内。经过插入基因片段的质粒就称作载体。该质粒在细菌内可以进行自我复制，并且不会影响到生物原来的活动。

Entrez ID：Entrez ID实际上是指的Entrez gene ID，是对应于染色体上一个gene location的。每一个发现的基因都会被编制一个统一的编号，而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。在实际应用中，通常用NCBI Gene ID来称呼Entrez ID。

构建载体：载体构建是分子生物学研究常用的手段之一。主要包括已有载体多克隆位点MCS的改造和已有载体启动子、增强子、筛选标记等功能元件的改造。通过计算机构建载体是指，在已有的载体框架需要改造的功能元件处，插入或修改核酸序列，构建出新的载体。

开放阅读框(ORF)：是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。当一个新基因被识别，其DNA序列被解读，人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息的前提下，DNA序列可以按六种框架阅读和翻译(每条链三种，对应三种不同的起始密码子)。

下面首先结合附图具体描述根据本发明实施例的基于生物研究热点的基因搜索权重调整方法。

如图1所示，根据本发明实施例的基于生物研究热点的基因搜索权重调整方法包括以下步骤：

S1、建立文献数据库，所述文献数据库包含期刊出版的文献。

S2、获取用户输入的开放阅读框。

S3、筛选出与所述开放阅读框同名的多个物种，每个所述物种的基因ID不同。

S4、检索每个所述物种的基因ID在所述文献数据库中出现的次数，得到与所述开放阅读框同名的多个所述物种的热度。

S5、将与所述开放阅读框同名的多个所述物种进行热度排序。

换句话说，根据本发明实施例的基于生物研究热点的基因搜索权重调整方法在使用时，首先需要建立包含期刊出版的文献的文献数据库，该文献数据库可以为包含医学、护理、兽医、健康系统以及临床科学的公开文献，其中涵盖生物医学方面的最新科技论文。主要来源于pubmed，其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的资源，像是生化学与细胞生物学。PubMed医学文献检索服务系统，收录了1966年以来的包含医学、护理、兽医、健康保健系统及前临床科学的文献1600万余条书目数据(2005年数据)，数据来源于70多个国家和地区的4800多种生物医学期刊。根据设定，该文献数据库中的数据可以每天与美国的NCBI数据中心同步一次。

在构建完文献数据库之后，用户可以在操作界面输入需要构建载体的开放阅读框，接着，由系统获取用户输入的开放阅读框。

在获取到用户输入的开放阅读框之后，由系统筛选出与该开放阅读框同名的多个物种。由于每个物种的基因ID不同，因此，可以检索每个物种的基因ID在文献数据库中出现的次数，进而根据检索结果，确定与开放阅读框同名的多个物种的热度，最终，再将与开放阅读框同名的多个物种按照热度进行排序，更加直观的让用户找到所需的开放阅读框。

由此，根据本发明实施例的基于生物研究热点的基因搜索权重调整方法，通过筛选出与用户输入的开放阅读框同名的多个物种，并将各个物种的热度进行排序，可以帮助用户更快速的找到需求的开放阅读框，减少构建载体过程中选择开放阅读框的时间，提高用户体验。

根据本发明的一个实施例，每个所述物种的基因ID为NCBI基因ID。也就是说，在检索每个物种的基因ID在文献数据库中出现的次数时，检索的是每个物种的NCBI基因ID在文献数据库中出现的次数。

在本发明的一些具体实施方式中，步骤S3包括：

S31、获取所述开放阅读框中用于编码蛋白的碱基序列；

S32、筛选出所述碱基序列中包含以启动子和终止子为界限，且内部不包含启动子或者密码子的基因序列，每个所述基因序列对应一个物种；

S33、筛选出所述物种。

换句话说，在本发明中，筛选出与用户输入的开放阅读框同名的多个物种的方法是由上述方法来实现的，因为在没有其它信息的前提下，DNA序列可以按六种框架阅读和翻译(每条链三种，对应三种不同的起始密码子)。而开放阅读框识别则是通过检测这六个阅读框架，并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或密码子，符合这些条件的序列有可能对应一个真正的单一的基因产物。

由此，通过上述方法，可以快速筛选出与用户输入的开放阅读框同名的物种，提高用户的使用体验。

根据本发明的一个实施例，步骤S4包括：

S41、统计每个所述物种的基因ID在第一预定时间内被搜索的次数，记为初始热度H初始；

S42、统计每个所述物种的基因ID在第二预定时间内被搜索的次数，记为参照热度H参照；

S43、统计所述开放阅读框在已构建载体中出现的次数，记为互动热度H互动；

S44、统计出现了相应的所述物种的基因ID的文献总数，作为第一参考值；

S45、统计步骤S44得到的每个文献中出现了相应的所述物种的基因ID的次数，作为第二参考值；

S46、根据所述第一参考值和所述第二参考值的设定赋值，按照以下公式计算所述物种的热度H：

H＝H初始+H互动-(H参照-H初始)+P

其中，P表示相应的所述物种的基因ID的权重，

P＝基因符号*0.4+全名*0.3+别名*0.2+其他名称*0.1。

其中，第一预定时间可以是当月，即在搜索该物种之日的前30天之内每个物种的基因ID被搜索的次数，第二预定时间则可以是上月，即在搜索该物种之日的前30-60天之内每个物种的基因ID被搜索的次数，从而获得该物种的基因ID被搜索的衰减程度。

另外需要说明的是，基因符号和全名是指由各数据库普遍认同和认证的开放阅读框的基因符号和全名，别名是指除了上述各数据库普遍认同和认证的基因符合和全名之外的通用名称，其他名称则是排除了上述基因符号、全名和别名之外的所有其他与开放阅读框相匹配的名称，基因符号、全名、别名和其他名称虽然都可以用于表示同一种开放阅读框，但是其严格程度以及被认可的程度是逐渐降低的，因此各名称所占的权重也逐渐降低。

由此，通过上述方法，可以精确获得与用户输入的开放阅读框同名的各个物种的热度。

在本发明的一些具体实施方式中，在步骤S5中，根据时间或热度排名对所述物种进行热度排序。进一步地，对所述物种进行热度排序时，显示所述物种的种类、每个所述物种每年的所述第一参考值和所述第二参考值。

由此，可以更加直观的显示各个物种的热度情况，可以帮助用户更快速的找到需求的开放阅读框，减少构建载体过程中选择开放阅读框的时间，提高用户体验。

另外，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现上述任一所述的方法。

也就是说，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述任一所述的方法。

如图2所示，本发明实施例提供了一种电子设备100，包括存储器110和处理器120，所述存储器110用于存储一条或多条计算机指令，所述处理器120用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备100包括：处理器120和存储器110，在所述存储器110中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器120执行上述任一所述的方法。

进一步地，如图2所示，电子设备100还包括网络接口130、输入设备140、硬盘150、和显示设备160。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器120代表的一个或者多个中央处理器(CPU)，以及由存储器110代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口130，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘150中。

所述输入设备140，可以接收操作人员输入的各种指令，并发送给处理器120以供执行。所述输入设备140可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备160，可以将处理器120执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器120计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器110可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器110旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器110存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统111和应用程序112。

其中，操作系统111，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序112，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序112中。

上述处理器120，当调用并执行所述存储器110中所存储的应用程序和数据，具体的，可以是应用程序112中存储的程序或指令时，将第一集合和第二集合中的一者分散发送至所述第一集合和第二集合中的另一者所分布的节点，其中，所述另一者分散存储于至少两个节点；并根据所述第一集合的节点分布和所述第二集合的节点分布，分节点地进行交集处理。

本发明上述实施例揭示的方法可以应用于处理器120中，或者由处理器120实现。处理器120可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器120中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器120可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器110，处理器120读取存储器110中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器120还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基因搜索权重调整方法，其特征在于，包括以下步骤：

S1、建立文献数据库，所述文献数据库包含期刊出版的文献；

S2、获取用户输入的开放阅读框；

S3、筛选出与所述开放阅读框同名的多个物种，每个所述物种的基因ID不同；

S4、检索每个所述物种的基因ID在所述文献数据库中出现的次数，得到与所述开放阅读框同名的多个所述物种的热度；

S5、将与所述开放阅读框同名的多个所述物种进行热度排序；

其中，步骤S4包括：

S46、根据所述第一参考值和所述第二参考值的设定赋值，且所述物种的热度H：

H＝H初始+H互动-(H参照-H初始)+P

其中，P表示相应的所述物种的基因ID的权重，

P＝基因符号出现的次数*0.4+全名出现的次数*0.3+别名出现的次数*0.2+其他名称出现的次数*0.1。

2.根据权利要求1所述的方法，其特征在于，每个所述物种的基因ID为NCBI基因ID。

3.根据权利要求1所述的方法，其特征在于，步骤S3包括：

S31、获取所述开放阅读框中用于编码蛋白的碱基序列；

S33、筛选出所述物种。

4.根据权利要求1所述的方法，其特征在于，在步骤S5中，根据时间或热度排名对所述物种进行热度排序。

5.根据权利要求1所述的方法，其特征在于，对所述物种进行热度排序时，显示所述物种的种类、每个所述物种每年的所述第一参考值和所述第二参考值。

6.根据权利要求1所述的方法，其特征在于，所述文献为包含医学、护理、兽医、健康系统以及临床科学的公开文献。

7.根据权利要求1所述的方法，其特征在于，所述文献数据库中的数据在设定时间与NCBI数据库同步。

8.一种计算机存储介质，其特征在于，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如权利要求1-7中任一项所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，

所述存储器用于存储一条或多条计算机指令；

所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如权利要求1-7中任一项所述的方法。