CN115732036B

CN115732036B - 调整转录本基础库存的方法、计算机存储介质及电子设备

Info

Publication number: CN115732036B
Application number: CN202211578359.8A
Authority: CN
Inventors: 沈丽婷; 阮好姬; 岑文杰
Original assignee: Yunzhou Biotechnology Guangzhou Co ltd
Current assignee: Yunzhou Biotechnology Guangzhou Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-11-28
Anticipated expiration: 2042-12-06
Also published as: CN115732036A

Abstract

本发明提供了一种基于研究热度建立转录本基础库存的方法、计算机存储介质及电子设备，方法包括以下步骤：S1、建立文献数据库，文献数据库包含期刊出版的文献；S2、获取不同基因序列在文献数据库中出现的次数；S3、筛选出在文献数据库中出现的次数大于第一设定值的基因序列，作为初筛序列；S4、获取初筛序列中的基因序列的热度；S5、根据热度，对初筛序列进行热度排序，得到热度序列；S6、根据热度排序，筛选出热度序列中热度大于第二设定值的基因序列，作为热门基因；S7、将热门基因与现有库存进行比较，判断库存中是否存在热门基因；S8、根据步骤S7的判断结果，调整库存。该方法可以有针对性的扩大库存的范围，节省了用户的等待时间。

Description

调整转录本基础库存的方法、计算机存储介质及电子设备

技术领域

本发明涉及基因存储领域，更具体地，涉及一种基于研究热度调整转录本基础库存的方法、计算机存储介质及电子设备。

背景技术

目前，人们对于基因的研究越来越多。而基因的种类和数量太过于庞大，单单人类，就有约一万九千至两万两千个基因。

大多数研究机构对于基因的采购流程通常有两种：

1、首先获取客户需求，然后根据客户需求，对试验所需基因进行采购。这种方式不仅作业时间长，等待时间久，还让整体的采购处于被动状态。

2、预先构建转录本基础库存，当需要某种基因时，直接从库存中调取需要的基因。但是由于基因种类太多，不可能做到将所有基因全部入库存，若需要的基因没有库存，同样需要进行采购流程，增加作业时间。

发明内容

为解决上述技术问题，一方面，本发明提供一种基于研究热度调整转录本基础库存的方法。

根据本发明实施例的基于研究热度建立转录本基础库存的方法，包括以下步骤：S1、建立文献数据库，所述文献数据库包含期刊出版的文献；S2、获取不同基因序列在所述文献数据库中出现的次数；S3、筛选出在所述文献数据库中出现的次数大于第一设定值的基因序列，作为初筛序列；S4、获取所述初筛序列中的基因序列的热度；S5、根据所述热度，对所述初筛序列进行热度排序，得到热度序列；S6、根据所述热度排序，筛选出所述热度序列中热度大于第二设定值的基因序列，作为热门基因；S7、将所述热门基因与现有库存进行比较，判断所述库存中是否存在所述热门基因；S8、根据步骤S7的判断结果，调整库存。

根据本发明实施例的基于研究热度建立转录本基础库存的方法，通过在现有库存的基础上，根据特定的方法，筛选出研究热度较高的热门基因，再将热门基因与库存进行比对，判断库存中是否含有热门基因，并根据判断结果，调整和完善库存，从而使得库存可以保持存储有研究热度较高的热门基因，扩大了库存的范围，减少了采购工作量，节省了用户的等待时间，避免用户因为等待时间过长而造成的流失，并且有针对性的扩大库存，可以节省准备时间，控制增大库存所增加的成本。

根据本发明的一些实施例，根据不同基因序列的NCBI基因ID获取不同基因序列在所述文献数据库中出现的次数。

根据本发明的一些实施例，所述第一设定值为80-100次，所述第二设定值为所述热度排序中排名第十的热度。

根据本发明的一些实施例，步骤S4包括：S41、统计每个所述基因序列在第一预定时间内被搜索的次数，记为初始热度H初始；S42、统计每个所述基因序列在第二预定时间内被搜索的次数，记为参照热度H参照；S43、统计所述基因序列在所述文献数据库中出现的次数，记为互动热度H互动；S44、统计出现了相应的所述基因序列的文献的总数，作为第一参考值；S45、统计步骤S44得到的每个文献中出现了相应的所述近序列的次数，作为第二参考值；

S46、根据所述第一参考值和所述第二参考值的设定赋值，按照以下公式计算所述物种的热度H：

H＝H初始+H互动-(H参照-H初始)。

根据本发明的一些实施例，所述第一预定时间为30天，所述第二预定时间为30天-60天。

根据本发明的一些实施例，步骤S8包括：S81、当所述库存中不存在所述热门基因时，采购所述热门基因；S82、当所述库存中存在所述热门基因时，对所述库存中所述热门基因的含量以及所述热门基因的热度进行分析，在所述库存中所述热门基因的含量小于第三设定值，且所述热门基因的热度大于所述第二设定值时，采购所述热门基因。

根据本发明的一些实施例，所述第三设定值为15-25。

根据本发明的一些实施例，所述文献为包含医学、护理、兽医、健康系统以及临床科学的公开文献，所述文献数据库中的数据在设定时间与NCBI数据库同步。

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

根据本发明第三方面实施例的电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令；所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如上述任一实施例所述的方法。

附图说明

图1为本发明实施例的基于研究热度调整转录本基础库存的方法的流程图；

图2为本发明实施例的电子设备的示意图。

附图标记：

电子设备100；

存储器110；操作系统111；应用程序112；

处理器120；网络接口130；输入设备140；硬盘150；显示设备160。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

下面首先对本申请中涉及的相关名词进行解释说明。

基因：基因(英语：gene)在生物学中指DNA或RNA内编码基因产物(RNA或蛋白质)的合成的核苷酸序列。基因也可视作基本遗传单位，亦即一段具有功能性的DNA或RNA序列。弄清其序列本身的过程叫基因测序。基因的结构由增强子、启动子及蛋白编码序列等组成，即基因产物可以是蛋白质(蛋白质编码基因)及RNA，从而控制生物个体的性状(差异)表现。在一个个体当中所有的基因总和叫基因组。在一个物种中所有等位基因的总合叫基因库。在大多数真核生物中，基因分为细胞核基因及线粒体基因，绿色植物的叶绿体也含有独立于细胞核的叶绿体基因组。人类约有一万九千至两万两千个基因。

Entrez ID：Entrez ID实际上是指的Entrez gene ID，是对应于染色体上一个gene location的。每一个发现的基因都会被编制一个统一的编号，而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。实际上我们说去NCBI上检索一下时所称呼的NCBI往往就是指的Entrez。在实际应用中，我们用NCBI Gene ID来称呼Entrez ID。

载体：载体(Vector)，指在基因工程重组DNA技术中将DNA片段(目的基因)转移至受体细胞的一种能自我复制的DNA分子。三种最常用的载体是细菌质粒、噬菌体和动植物病毒。在实际生活中，胰岛素就可以通过使用载体将已插入胰岛素基因片段的质粒放入大肠杆菌内。经过插入基因片段的质粒就称作载体。该质粒在细菌内可以进行自我复制，并且不会影响到生物原来的活动。

下面具体描述根据本发明实施例的基于研究热度调整转录本基础库存的方法。

如图1所示，根据本发明实施例的基于研究热度调整转录本基础库存的方法，包括以下步骤：

S1、建立文献数据库，所述文献数据库包含期刊出版的文献。

S2、获取不同基因序列在所述文献数据库中出现的次数。

S3、筛选出在所述文献数据库中出现的次数大于第一设定值的基因序列，作为初筛序列。

S4、获取所述初筛序列中的基因序列的热度。

S5、根据所述热度，对所述初筛序列进行热度排序，得到热度序列。

S6、根据所述热度排序，筛选出所述热度序列中热度大于第二设定值的基因序列，作为热门基因。

S7、将所述热门基因与现有库存进行比较，判断所述库存中是否存在所述热门基因。

S8、根据步骤S7的判断结果，调整库存。

换言之，根据本发明实施例的基于研究热度调整转录本基础库存的方法是在现有库存的基础上，结合特定的方法对库存进行补充和调整。其中，特定的方法是指筛选出热门基因的方法，然后将热门基因与现有的库存进行比较，判断现有的库存中是否含有筛选出的热门基因，最后根据判断结果调整库存，扩大库存的范围。

筛选热门基因的方法可以是从文献中筛选出出现频率符合设定值的基因序列，具体可以包括以下步骤：

首先建立包含期刊出版的文献的文献数据库，该文献数据库可以为包含医学、护理、兽医、健康系统以及临床科学的公开文献，其中涵盖生物医学方面的最新科技论文。主要来源于pubmed，其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的资源，像是生化学与细胞生物学。PubMed医学文献检索服务系统，收录了1966年以来的包含医学、护理、兽医、健康保健系统及前临床科学的文献1600万余条书目数据(2005年数据)，数据来源于70多个国家和地区的4800多种生物医学期刊。根据设定，该文献数据库中的数据可以每天与美国的NCBI数据中心同步一次。

接着，选择某一个基因序列，将该基因序列放入文献数据库中进行检索，获取该基因序列在文献数据库中出现的次数。其中某一个基因序列可以是系统设定的，或者人工输入的可能符合热门基因的条件的基因序列。

将不同的基因序列分别在文献数据库中进行检索之后，可以得到每个基因序列在文献数据库中出现的次数，从每个基因序列出现的次数中选择出现次数大于第一设定值的基因序列，以此作为初筛序列。

将初筛序列中的基因序列出现的次数转化成热度，并对热度进行排序，可以得到基因序列的热度序列。从热度序列中筛选出热度大于第二设定值的基因序列，这些序列即可以作为热门基因。

由此，根据本发明实施例的基于研究热度建立转录本基础库存的方法，通过在现有库存的基础上，根据特定的方法，筛选出研究热度较高的热门基因，再将热门基因与库存进行比对，判断库存中是否含有热门基因，并根据判断结果，调整和完善库存，从而使得库存可以保持存储有研究热度较高的热门基因，扩大了库存的范围，减少了采购工作量，节省了用户的等待时间，避免用户因为等待时间过长而造成的流失，并且有针对性的扩大库存，可以节省准备时间，控制增大库存所增加的成本。

根据本发明的一个实施例，在步骤S2中，根据不同基因序列的NCBI基因ID获取不同基因序列在所述文献数据库中出现的次数。也就是说，在获取不同基因序列在文献数据库中出现的次数时，获取的是不同基因序列的NCBI基因ID在文献数据库中出现的次数。

可选地，在本发明的一些具体实施方式中，所述第一设定值为80-100次，所述第二设定值为所述热度排序中排名第十的热度。

由此，通过第一设定值的设定，可以初步筛除掉不符合预期的基因序列，减少后续数据处理量，通过第二设定值的设定，可以精确筛选出符合预期的热门基因。

根据本发明的一个实施例，步骤S4包括：

S41、统计每个所述基因序列在第一预定时间内被搜索的次数，记为初始热度H初始；

S42、统计每个所述基因序列在第二预定时间内被搜索的次数，记为参照热度H参照；

S43、统计所述基因序列在所述文献数据库中出现的次数，记为互动热度H互动；

S44、统计出现了相应的所述基因序列的文献的总数，作为第一参考值；

S45、统计步骤S44得到的每个文献中出现了相应的所述近序列的次数，作为第二参考值；

H＝H初始+H互动-(H参照-H初始)。

其中，所述第一预定时间为30天，所述第二预定时间为30天-60天。具体地，第一预定时间可以是指当月，即在搜索该物种之日的前30天之内每个物种的基因ID被搜索的次数，第二预定时间可以是指上月，即在搜索该物种之日的前30-60天之内每个物种的基因ID被搜索的次数，从而获得该物种的基因ID被搜索的衰减程度。另外，第一参考值可以是是指文献在数据库中出现的次数(标题检索)，第二参考值可以是指文献中基因出现的次数(内容检索)。

由此，通过上述方法，可以精确获得基因序列在文献数据库中的热度，从而提高在库存中增加热门基因的准确性。

在本发明的一些具体实施方式中，步骤S8包括：

S81、当所述库存中不存在所述热门基因时，采购所述热门基因；

S82、当所述库存中存在所述热门基因时，对所述库存中所述热门基因的含量以及所述热门基因的热度进行分析，在所述库存中所述热门基因的含量小于第三设定值，且所述热门基因的热度大于第二设定值时，采购所述热门基因。

其中，所述第三设定值为15-25。具体地，在获得热门基因之后，将库存与热门基因进行比对，若库存中不含有该热门基因，则加入采购清单，对该热门基因或者对应的载体进行生产，扩大库存种类，当客户需求此类型基因序列或载体时，可直接投入使用，省去采购流程，缩短客户等待时间，提高效率。

若库存中含有该基因序列，但是库存量与基因序列的热度不成正比，即热门基因的库存量较少，但是热门基因的热度较高，则可增加库存，避免出现库存不足的问题。

总而言之，根据本发明实施例的基于研究热度调整转录本基础库存的方法，通过建立数据库，以计算机程序为媒介筛选出热门基因序列或者载体，与已有库存进行对比，进行查漏补缺，可以扩大基因序列或者载体库存范围与储量，使得生产过程中减少客户等待时间，提高效率。

另外，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现上述任一所述的方法。

也就是说，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述任一所述的方法。

如图2所示，本发明实施例提供了一种电子设备100，包括存储器110和处理器120，所述存储器110用于存储一条或多条计算机指令，所述处理器120用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备100包括：处理器120和存储器110，在所述存储器110中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器120执行上述任一所述的方法。

进一步地，如图2所示，电子设备100还包括网络接口130、输入设备140、硬盘150、和显示设备160。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器120代表的一个或者多个中央处理器(CPU)，以及由存储器110代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口130，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘150中。

所述输入设备140，可以接收操作人员输入的各种指令，并发送给处理器120以供执行。所述输入设备140可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备160，可以将处理器120执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器120计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器110可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器110旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器110存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统111和应用程序112。

其中，操作系统111，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序112，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序112中。

上述处理器120，当调用并执行所述存储器110中所存储的应用程序和数据，具体的，可以是应用程序112中存储的程序或指令时，将第一集合和第二集合中的一者分散发送至所述第一集合和第二集合中的另一者所分布的节点，其中，所述另一者分散存储于至少两个节点；并根据所述第一集合的节点分布和所述第二集合的节点分布，分节点地进行交集处理。

本发明上述实施例揭示的方法可以应用于处理器120中，或者由处理器120实现。处理器120可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器120中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器120可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器110，处理器120读取存储器110中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器120还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于研究热度调整转录本基础库存的方法，其特征在于，包括以下步骤：

S1、建立文献数据库，所述文献数据库包含期刊出版的文献；

S2、获取不同基因序列在所述文献数据库中出现的次数；

S3、筛选出在所述文献数据库中出现的次数大于第一设定值的基因序列，作为初筛序列；

S4、获取所述初筛序列中的基因序列的热度；

S5、根据所述热度，对所述初筛序列进行热度排序，得到热度序列；

S6、根据所述热度排序，筛选出所述热度序列中热度大于第二设定值的基因序列，作为热门基因；

S7、将所述热门基因与现有库存进行比较，判断所述库存中是否存在所述热门基因；

S8、根据步骤S7的判断结果，调整库存；

步骤S8包括：

S82、当所述库存中存在所述热门基因时，对所述库存中所述热门基因的含量以及所述热门基因的热度进行分析，在所述库存中所述热门基因的含量小于第三设定值，且所述热门基因的热度大于所述第二设定值时，采购所述热门基因。

2.根据权利要求1所述的方法，其特征在于，在步骤S2中，根据不同基因序列的NCBI基因ID获取不同基因序列在所述文献数据库中出现的次数。

3.根据权利要求1所述的方法，其特征在于，所述第一设定值为80-100次，所述第二设定值为所述热度排序中排名第十的热度。

4.根据权利要求1所述的方法，其特征在于，步骤S4包括：

S45、统计步骤S44得到的每个文献中出现了相应的所述基因序列的次数，作为第二参考值；

S46、根据所述第一参考值和所述第二参考值的设定赋值，按照以下公式计算物种的热度H：

H=H初始+H互动-（H参照-H初始）。

5.根据权利要求4所述的方法，其特征在于，所述第一预定时间为30天，所述第二预定时间为30天-60天。

6.根据权利要求1所述的方法，其特征在于，所述第三设定值为15-25。

7.根据权利要求1所述的方法，其特征在于，所述文献为包含医学、护理、兽医、健康系统以及临床科学的公开文献，所述文献数据库中的数据在设定时间与NCBI数据库同步。

8.一种计算机存储介质，其特征在于，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如权利要求1-7中任一项所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，

所述存储器用于存储一条或多条计算机指令；

所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如权利要求1-7中任一项所述的方法。