CN112530523A - 数据库构建方法、文件检索方法以及装置 - Google Patents

数据库构建方法、文件检索方法以及装置 Download PDF

Info

Publication number
CN112530523A
CN112530523A CN201910881925.4A CN201910881925A CN112530523A CN 112530523 A CN112530523 A CN 112530523A CN 201910881925 A CN201910881925 A CN 201910881925A CN 112530523 A CN112530523 A CN 112530523A
Authority
CN
China
Prior art keywords
sequence
biological
file
attribute information
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910881925.4A
Other languages
English (en)
Inventor
希夫尚卡尔·乌玛尚卡尔
庞卡·库玛
黑马
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Bud Information Technology Suzhou Co ltd
Original Assignee
Smart Bud Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Bud Information Technology Suzhou Co ltd filed Critical Smart Bud Information Technology Suzhou Co ltd
Priority to CN201910881925.4A priority Critical patent/CN112530523A/zh
Priority to PCT/CN2020/113214 priority patent/WO2021052184A1/zh
Priority to EP20865284.2A priority patent/EP4033492A4/en
Publication of CN112530523A publication Critical patent/CN112530523A/zh
Priority to US17/696,737 priority patent/US20220229820A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据库的构建方法、装置、基因序列关联度的标注、装置、文件检索方法、装置、计算机设备以及计算机可读存储介质,该申请的方案从目标文件中提取生物序列以及属性信息,基于提取的生物序列与属性信息构建数据库中词条,用户在基于该数据库进行检索时,由于服务器即可以通过词条中生物序列、属性信息或者二者结合的方式为用户匹配词条,因此,本申请的数据库在被应用于检索平台时,可以为用户提供生物序列检索、生物序列属性检索以及综合生物序列和生物序列属性等多样的检索支持。

Description

数据库构建方法、文件检索方法以及装置
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种数据库构建方法、装置、一种生物序列关联度的标注方法、系统、一种文件检索方法、装置、计算机设备和存储介质。
背景技术
在专利文件中生物序列一般以字母串或者序列号的形式表示。这些生物序列一般用于描述DNA、RNA,其他核苷酸和蛋白质的主要分子结构以及表达携带的遗传信息。
在大多数情况下,权利要求中的生物序列一般可以通过三种方式主张保护:
1、基于生物序列本身结构主张保护。通过这种方式主张保护,若可以基于具体实施方式提供相关的证据,则权利要求主张保护的范围可以扩展为与主张保护的序列达到一定的相似性百分率(同源性)。
2、基于生物序列的来源、功能和内含物主张保护。
3、基于生物序列起作用的产品(尤其是药物)。
由于专利文件中生物序列的表达方式的特殊性,这使得用户在对该领域的技术进行检索时极其困难。尤其在可专利性或新颖性检索、防止侵权检索或自由使用权检索(FTO)、预归档可专利性检索以及有效性或无效性检索上,传统的检索检索方法表现难以达到用户的期望。
发明内容
基于此,有必要针对上述技术问题,提供一种数据库构建方法、装置、一种生物序列关联度的标注方法、系统、一种文件检索方法、装置、计算机设备和存储介质。
第一方面,本申请提出一种生物序列数据库构建方法,所述方法包括:
获取目标文件;
提取目标文件中的生物序列与属性信息;
将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
使用所述词条构建数据库。
第二方面,本申请提出一种基因序列关联度的标注方法,所述方法包括:
根据所述数据库与属性信息输出具有至少一种属性的相关基因序列;
根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度
第三方面,本申请提出一种文件检索方法,所述方法包括:
接收检索信息;
从本申请任一实施例数据库构建方法构建的数据库中为所述检索信息匹配出至少一个候选词条;
根据所述候选词条得到检索结果。
第四方面,本申请提出一种数据库构建装置,包括:
特征提取模块,获取目标文件,提取目标文件中的生物序列与属性信;
关联模块,将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
存储模块,使用所述词条构建生物序列数据库。
第五方面,本申请提出一种生物序列关联度的标注系统,所述系统包括:
基因序列输出单元,用于根据所述数据库与属性信息输出包含至少一种属性的相关生物序列;
生物序列关联度确定单元,用于根据每个所述相关生物序列与属性信息的相关联数量标注对应的各个所述相关生物序列的相关维度。
第六方面,本申请提出一种文件检索装置,所述装置包括:
获取模块,用于接收检索信息;
词条匹配模块,用于从本申请任一实施例数据库构建方法构建的数据库中为所述检索信息匹配出至少一个候选词条;
检索结果生成模块,用于根据所述候选词条得到检索结果。
第七方面,本申请提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请任一实施例中方法的步骤。
第八方面,本申请提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一实施例中方法的步骤。
上述数据库的构建方法、装置、基因序列关联度的标注、装置、文件检索方法、装置、计算机设备以及计算机可读存储介质,该申请的方案从目标文件中提取生物序列以及属性信息,基于提取的生物序列与属性信息构建数据库中词条,用户在基于该数据库进行检索时,由于服务器即可以通过词条中生物序列、属性信息或者二者结合的方式为用户匹配词条,因此,本申请的数据库在被应用于检索平台时,可以为用户提供生物序列检索、生物序列属性检索以及综合生物序列和生物序列属性等多样的检索支持。
附图说明
图1为一个实施例中数据库构建方法的应用环境图;
图2为一个实施例中数据库构建方法的流程示意图;
图3为一个实施例中文件检索方法的流程示意图;
图4为一个实施例中步骤S330的细化步骤的流程示意图;
图5为一个实施例中的检索结果图;
图6为另一个实施例中步骤S330的细化步骤的流程示意图;
图7为一个实施例中的生物序列地图;
图8为另一个实施例中步骤S330的细化步骤的流程示意图;
图9为一个实施例中的相似性新领域视图;
图10为一个实施例中的一种属性查询模式的基本视图;
图11为一个实施例中步骤S310的细化步骤的流程示意图;
图12为另一个实施例中步骤S330的细化步骤的流程示意图;
图13为一个实施例中的基因组视图;
图14为另一个实施例中步骤S330的细化步骤的流程示意图;
图15为一个实施例中内含物视图;
图16为另一个实施例中步骤S330的细化步骤的流程示意图;
图17为一个实施例中的功能相似性视图;
图18为另一个实施例中步骤S330的细化步骤的流程示意图;
图19为一个实施例中数据库构建装置的结构框图;
图20为一个实施例中文件检索装置的结构框图;
图21为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的生物序列数据库构建方法可以应用于如图1所示的应用环境中。其中,终端100通过网络与服务器200通过网络进行通信。服务器200可以用独立的服务器或者是多个服务器组成的服务器集群来实现。该服务器的处理器可以执行预设的算法,识别专利文件中的专用名词(例如生物领域)、生物序列。该终端100可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。用户可以通过终端100进行文件检索,该文件检索基于生物序列数据库得到检索结果。可选地,该服务器200可以包含数据库,该数据库被用于生物序列的相关检索。在用户需要进行相关的生物序列检索时,可以通过终端100上相应的界面与服务器200进行交互。服务器200在接收到用户通过终端100输入的检索请求后,会在数据库匹配出词条,并根据词条为用户反馈检索结果。
在一个实施例中,如图2所示,提供数据库构建方法,以该方法构建的数据库可以被部署于应用环境中的服务器200上,应用到搜索引擎进行相关搜索。包括以下步骤:
步骤S210,获取目标文件,提取目标文件中的生物序列与属性信息。
具体地,该目标文件一般情形下为生物学领域的文件,例如论文、期刊杂志、专利文件等等。具体地,处理器提取目标文件中的生物序列与属性信息。
可选地,处理器首先从数据源中获取文件,形成文件集;之后根据预设条件,从所述文件集中获取目标文件。可选地,该数据源可以是专业的文件库、平台、网站等等。
可选地,预设条件可以包括:确定文件集中文件的文件类型;根据所述文件类型的不同确定对应目标文件的筛选规则,其中,不同文件类型对应的筛选规则不相同;其中,所述筛选规则用于对相应的文件类型的文件进行筛选得出目标文件。
可选地,处理器可以通过训练好的深度学习模型提取目标文件中的生物序列与属性信息。可选地,该深度学习模型可以为自然语言处理模型。例如,Biobert、Scispacy、Variational Autoencoders等自然语言处理模型。
在使用该深度学习模型之前一般需要先构建模型以及训练模型。该模型的训练过程具体如下:
首先构建训练样本,该训练样本一般情况先是被标记了生物序列以及该生物序列的属性信息的文件。之后,使用这些构建的训练样本训练初始的深度学习模型,直至初始的深度学习模型的神经网络收敛,即得到了训练好的深度学习模型。该深度学习模型可以识别输入的文件中记载的生物序列以及对应的属性信息。
步骤S220,将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条。
其中,所述属性信息可以包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病等等与生物序列相关的属性中的一种或几种。具体地,处理器将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条。
进一步地,可以使用搜索应用服务器solr将所述文件标识、对应的生物序列的生物序列标识以及属性信息进行关联映射得到所述词条。
步骤S230,使用所述词条构建数据库。
具体地,处理器将得到的词条添加至数据库,进行数据库的构建。
可选地,为了应对用户可以有针对的选择文库进行检索,在进行数据库构建时,可以将不同文件类别的文件得到的词条分别存储。例如,可以将论文、期刊以及专利文件的词条分别存储至数据库的对应存储空间。基于此,若用户希望检索生物序列a的专利申请状况,服务器200在接收到该请求后,从专利文件的词条对应的存储空间中为生物序列a匹配词条,之后再根据该词条生成检索结果。同理,在进行数据库构建时,处理器还可以使用所述文件的文件类别标注对应的词条。
进一步地,处理器可以根据文件的特征识别文件的文件类型。该特征可以为不同类型的文件有不同排版的差异。例如,期刊杂志中附图与专利文件中附图的不同排版。可选地,处理器在确定文件集中文件的文件类型时,还可以首先对所述文件集中的文件进行文字识别,得出所述文件中包含的文字信息;之后根据所述文字信息中包含的预设关键词确定所述文件集中文件的文件类型。该方式对于有特定表达的文件类别识别迅速且准确,例如在识别专利文件时,可以将“其特征在于”设为文件类型识别的关键词。
本实施例中的数据库构建方法,基于提取的生物序列与属性信息构建数据库中词条,用户在基于该数据库进行检索时,由于服务器即可以通过词条中生物序列、属性信息或者二者结合的方式为用户匹配词条,因此,该数据库在被应用于检索平台时,可以为用户提供生物序列检索、生物序列属性检索以及综合生物序列和生物序列属性等多样的检索支持。
在其中一个实施例中,上述数据库构建方法还可以包括:处理器对生物学领域的专业名词和/或属性信息进行分析,得到关联信息;根据所述关联信息对词条进行关联处理,得到生物序列数据库。
本实施例通过对生物学领域的专业名词和/或属性信息进行分析,得到关联信息,该关联信息可以是将生物学领域表达相同或相近含义的不同词汇的词条进行关联,例如DNA,脱氧核糖核酸,基因,以及遗传物质在生物学领域表达相同或相近含义,处理器可以将词条中这些信息做等同处理。进一步地,还可以将词条中包含部分或全部属性信息的词条进行关联处理。例如,生物序列a与生物序列b均可以被应用于非小细胞肺癌的治疗,处理器可以将生物序列a与生物序列b的词条进行相关处理。可选地,处理器在对词条进行关联处理时,可以根据关联信息的不同设置关联等级。例如,生物学领域表达相同或相近含义的不同词汇的词条进行关联为等级较高的关联,而词条中包含部分或全部属性信息的词条的关联为等级较低的关联。进一步地,在将词条中包含部分或全部属性信息的词条进行关联处理也可以根据两个生物序列的属性信息的重合程度设置关联等级。
本实施例的方法,对词条进行关联处理,这使得在基于该生物序列数据库提供检索结果时,可以为用户提供更加多元化(例如关联检索)的检索结果。例如,若生物序列数据库为生物序列a精确匹配的词条为包含生物序列a和包含生物序列a序列号的词条,该生物序列中包含生物序列a的词条过少(例如少于预设数量10条)时,可以将与生物序列a关联的词条也作为候选词条,该候选词条用于生成检索结果。可选地,可以根据关联等级选择与生物序列a关联的词条作为候选词条。因此,该基于生物序列数据库的检索,可以为用户提供更加完善的检索结果。
在其中一个实施例中,该目标文件为专利文件时,步骤S210可以包括:处理器提取专利文件的权利要求书和/或其他部分中的生物序列与属性信息,其中,所述其他部分为专利文件出权利要求书以外的部分。可选地,由于在专利文件中描述生物序列在在很多情况下是使用序列号(seq ID No)来表示的,一般具体的序列记载在对应的序列表中,每一序列号均对应一个确定的生物序列,因此,在对专利文件中记载的生物序列时,还需要注意识别生物序列的序列号。因此,在进行专利文件的生物序列提取时,可以将专利文件中的生物序列号(seq ID No)与生物序列进行等同处理。
可选地,在提取专利文件的权利要求书和/或其他部分中的生物序列与属性信息时,可以首先根据每篇专利文件的权利要求结构得到对应的权利要求树;之后通过所述权利要求树以及生物学专业词汇识别对应的专利文件中各个权利要求中的相同序列。最后,基于这些相同的序列识别权利要求书中的生物序列和属性信息。
本实施例的方法提取专利文件的权利要求书和/或其他部分中的生物序列与属性信息,并基于提取的生物序列与属性信息构建生物序列数据库中词条,基于该生物序列数据库进行检索时,可以满足专利查新,自由使用权等不同类型的检索需求。
在其中一个实施例中,为了满足用户特定的检索需求,在进行生物序列数据库构建时,还可以使用位置标识标注所述词条中属性信息的提取位置;或者,根据所述属性信息的提取位置将对应的词条分别存储。该特定的检索需求可以为查新检索,自由使用权检索等检索。
本实施例中的方案根据生物序列的提取位置将词条加以区分,在用户进行侵权分析时,可以选择根据权利要求对应的词条进行检索,得到检索结果。这样可以为用户提供更精确的数据进行反馈。
基于同样的发明构思,在本申请的其中一个实施例中,如图3所示,还提出了一种文件检索方法,以该方法应用于图1中的应用场景为例进行说明,在该应用场景中,用户可以通过终端100上检索平台提供的检索界面输入检索信息,获取检索结果。终端100在通过检索界面输入检索信息后,会根据用户输入的检索信息生成检索请求,并将该请求发送至服务器200。服务器200会基于该检索请求在其生物序列数据库中为检索信息匹配词条,并根据匹配的词条生成检索结果。该检索结果可以被发送至终端100的检索界面进行显示。该方法具体包括以下步骤:
步骤310,接收检索信息。
其中,所述检索信息为生物序列、生物序列的属性信息中的一种或几种的组合。
在本申请实施例提出的检索方法中用户可以选择两种模式进行相关的检索。在用户希望通过生物序列进行检索时,可以选择序列查询模式;在用户希望通过生物序列的属性进行检索时,可选择属性查询模式。在属性查询模式下,用户可以输入至少一种属性信息作为检索信息。可选地,用户也可以选择综合序列查询模式与属性查询模式的混合检索模式。例如,用户在输入查询序列后,还可以进一步输入属性信息对该生物序列进行限定。当然,用户在输入查询序列时,也可以输入预设的模糊检索符代替查询序列中某一特定碱基来扩大检索范围。
步骤320,从数据库中为所述检索信息匹配出至少一个候选词条。
其中,该数据库为使用上述实施例的方法构建的。所述数据库中包含至少一个词条,所述每一词条包含一个文件标识(例如专利申请号、专利公开/公布号、杂志期刊号等等)、生物序列信息以及所述目标文件中生物序列的属性信息。可选地,生物序列信息可以为生物序列或者生物序列的身份信息,例如seq ID No等。具体地,服务器200在获取检索信息后,从本申请中的数据库为所述检索信息匹配出至少一个候选词条。可选地,可以首先使用solr处理检索信息,得到索引,之后使用该索引在生物序列数据库中为所述检索信息匹配出至少一个候选词条。
步骤330,根据所述候选词条得到检索结果。
具体地,服务器200在得到候选词条后,可以根据候选词条包含的信息得到检索结果。可选地,可以按照用户选择的检索结果类型,对候选词条中包含的信息进行相应处理,得到检索结果。可选地,检索结果的类型可以包括:基本视图、序列相似性新领域视图、基因组视图、内含物视图、功能相似性视图等等。这些检索结果类型分别对应不同的显示信息,该显示信息为用户期望得到的相关信息。可选地,服务器200将每一候选词条中的文件标识(例如专利申请号)以及属性信息作为检索结果显示。
上述件的检索方法,适用于与生物序列相关的检索情景。该方法可以适用于多种检索模式,其包含但不限于直接使用序列检索,直接使用属性信息检索,使用多种属性信息结合的检索以及使用序列结合属性的检索。这可以使用户不必切换多种平台即可实现多样的检索需求。
在其中一个实施例中,服务器200在接收原始的检索信息后,可以首先根据原始的检索信息获取相关序列,之后将相关序列作为步骤S310中的检索信息使用。其中,相关序列为基于检索信息得到的生物序列。可选地,用户可以通过终端100的用户界面输入检索信息。服务器200接收检索信息,并根据检索信息获取相关序列。
在其中一个实施例中,若用户选择序列查询模式,用户输入的原始的检索信息为查询序列。服务器200可以首先基于blast程序和FASTA程序在生物信息数据库对查询序列进行检索处理,得到与所述查询序列匹配的相关序列。之后将该相关序列作为步骤S310中的检索信息。可选地,该生物信息数据库可以为美国国家生物技术信息中心NCBI、日本DNA数据库DDBJ或者欧洲分子生物学实验室核苷酸数据库EMBL。一般情况下,在用户输入查询序列后,服务器200可以根据生物序列与查询序列(生物序列)之间的相似百分率确定相关序列。
在其中一个实施例中,如图4所示,步骤S330包括:
步骤S331,根据所述候选词条中的文件标识确定候选文件。
步骤S332,标注所述候选文件的预设部分的生物序列和/或属性信息。例如,在该候选文件为专利文件时,可以将预设部分设置为权利要求书、说明书摘要或者独立权利要求等的。在候选文件为杂志文章时,该预设部分可以为摘要。
步骤S333,将标记的候选文件的预设部分以及对应的序列属性列表作为检索结果显示。
其中,所述序列属性列表根据所述候选词条中的生物序列和属性信息获得。可选地,该序列属性列表可以包含对应的生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病等等与生物序列相关的属性中的一种或几种。具体可参见图5。
本实施例的方法,可以将候选文件中涉及的生物序列以及该生物序列的相关属性综合简洁的呈现给用户。例如,得到的候选文件为专利文件时,用户可以根据本实施例的方法的检索结果快捷的综合获取专利要求保护的生物序列的属性信息。
在其中一个实施例中,如图6所示,若用户选择序列查询模式,所述检索信息包括查询序列,步骤S330包括:
步骤S335,根据目标生物序列与所述查询序列的相似百分率生成每一所述目标生物序列的地图标签。
其中,所述目标生物序列为各个所述候选词条对应生物序列。地图标签为生物序列地图的组成元素。可选地,该地图标签可以为柱状图形。可选地,该柱状图形的高度可以随着对应的相似百分率增大而增高。可选地,还可以使用不同的颜色区分不同范围内的相似百分率对应的柱状图形。
步骤S336,按照所述相似百分率确定各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置关系。可选地,可以按照相似百分率从大到小的顺序设置对应的目标生物序列的地图标签与查询序列的地图标签之间的距离。
步骤S337,根据每一所述目标生物序列的地图标签、所述查询序列的地图标签以及各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置关系生成生物序列地图,并将所述生物序列地图作为检索结果显示。
可选地,在生成生物序列地图时,可以首先确定查询序列的地图标签在生物序列地图中的位置,之后再根据查询序列的地图标签以及各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置,确定各个目标生物序列的地图标签在生物序列图形中的位置。该生物序列地图的具体形式可以参见图7。可选地,还可以将目标生物序列对应的专利文件或者期刊杂志使用超链接的形式连接与该生物地图上的地图标签,以使用户可以通过简单的交互操作(例如鼠标点击预设图标)即可获取对应的文件的原文。
本实施例的方法可以使用户快速的获知查询序列以及目标生物序列之间的相似性百分比。
在其中一个实施例中,如图8所示,若用户选择序列查询模式,所述检索信息包括查询序列,用户选择的检索结果类型为序列相似性新领域视图,步骤S330包括:
S338,根据候选词条生成散点图。
请参阅图9的相似性新领域视图,该散点图中的圆点为根据所述候选词条的属性信息得到的相关物种,所述散点图的X轴为相关物种涉及的生物序列的数量,所述散点图的Y轴为相关物种涉及的专利数量。可选地,该散点图中圆点可以表征物种包含的生物序列与查询序列的平均相似百分率。具体地,服务器200首先计算每一所述相关物种涉及的生物序列的相似百分率的平均值;之后根据所述相似百分率的平均值设置所述散点图中各个原点的颜色和/或形状。
S339,将所述散点图作为检索结果显示。
本实施例的方法可以为用户直观的反映物种、生物序列以及查询序列之间的关系,便于在做创新研究或者市场调查时选择合适的物种。
在其中一个实施例中,若用户选择属性查询模式,所述检索信息包括查询序列,服务器200可以根据将候选词条中的专利文件标识号以及属性信息作为检索结果显示。例如,图10是本申请实施例提供的一种属性查询模式的基本视图。
在其一个实施例中,若用户选择属性查询模式,用户输入的原始的检索信息包括属性信息。服务器200可以首先对这些属性信息进行前序处理,得到与所述属性信息匹配的相关序列。之后将该相关序列作为步骤S310中的检索信息。
具体地,如图11所示,此时S310包括:
步骤S311,使用领域分类目录中生物领域的分类号确定搜索空间。可选地,该分类号可以为IPC分类号或者CPC分类号等的。
步骤S312,根据所述属性信息从所述搜索空间中得到相关文件。
步骤S313,从所述相关文件中获取相关序列。该相关序列可以被作为检索信息执行上述任一实施例中的文件检索方法中的步骤S320-S330,及其步骤S320-S330的子步骤。
本实施例将相关序列的获取空间通过与生物领域关联的分类号进行限定,缩小了搜索范围,这可以提高服务器的响应效率。
在其中一个实施例中,如图12所示,若用户选择属性查询模式,用户选择的检索结果类型为基因组视图,步骤S330包括:
步骤S340,根据所述候选词条的属性信息确定相关基因序列。
步骤S341,统计所述相关基因组中每个片段的专利数量,所述相关基因组中每个片段对应一个序列。
步骤S342,使用所述相关基因序列以及所述相关基因组中每个片段的专利数量生成条状图。
步骤S343,将所述条状图作为检索结果显示。具体请参见图13的基因组视图。
本实施例的方案可以为用户直观的展示各个的基因片段的专利申请状况,便于用户开展研发工作。
在其中一个实施例中,如图14所示,若用户选择属性查询模式,用户选择的检索结果类型为内含物视图,步骤S330包括:
步骤S344,根据所述候选词条的属性信息确定多个相关内含物。
步骤S345,根据各个所述相关内含物的在对应的目标文件的第一预设位置中出现的数量,以及所述相关内含物在目标物种的基因组中的位置得到第一面积曲线图。可选地,若目标文件为专利文件时,该第一预设位置可以为权利要求。
步骤S346,根据各个所述相关内含物的在对应的目标文件的第二预设位置中出现的数量,以及所述相关内含物在目标物种的基因组中的位置得到第二面积曲线图。可选地,若目标文件为专利文件时,该第二预设位置可以为专利文件除权利要求以外的其他位置,例如说明书等。
步骤S347,将所述第一面积曲线图与第二面积曲线图进行叠加,得到检索结果。具体可参见图15的内含物视图。
本实施例的方法,可以为用户直观的展示用户相关的生物序列的提取位置,利于用户实现彻底的FTO检索。
在其中一个实施例中,如图16所示,若用户选择属性查询模式,所述检索信息包括查询序列,用户选择的检索结果类型为功能相似性视图,步骤S330包括:
步骤S348,根据所述候选词条的属性信息确定目标生物序列的功能。其中,所述目标生物序列为各个所述候选词条对应生物序列。
步骤S349,计算各个目标生物序列之间的相似性百分率。
步骤S350,根据各个目标生物序列相似性百分率生成各个目标生物序列的关系图。
其中,所述关系图中每个节点对应一个目标生物序列,所述关系图中每个节点的颜色和/或形状根据对应的目标生物序列的功能设置。
步骤S351,将所述关系图作为检索结果显示。具体可参见图17的功能相似性视图。
本实施例中方法可以为用户直观的展示各个目标生物序列之间的关系,以及相似序列的功能,利于用户发现目标生物序列在新领域中的应用,有助于推动创新。例如,图17中属性查询使用关键词“肺癌”和“突变”。图17的关系图像中存在大量序列(粉红色节点)被标记为BRCA,基于此,可以推论靶向肺癌的序列很可能可以用于靶向乳腺癌。
在其中一个实施例中,如图18所示,步骤S330包括:
步骤S352,根据用户输入的属性筛选项筛选候选词条得到目标词条,其中,属性筛选项包括相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种。
步骤S353,根据所述目标词条得到检索结果。
本实施例的方法可以按照用户的需求将检索结果进行展示,利于用户筛选有效信息。
在其中一个实施例中,本申请还提出了一种生物序列关联度的标注方法,该方法可以应用于图1所示的应用环境中,所述方法包括:根据所述数据库与属性信息输出包含至少一种属性的相关生物序列;根据每个所述相关生物序列与属性信息的相关联数量标注对应的各个所述相关生物序列的相关维度。
其中,所述数据库根据上述实施例的数据库构建方法中任一项所述方法构建。可选地,该生物序列可以为基因序列,蛋白序列等等。具体地,服务器200将接收的输入信息首先在本申请实施例的方法构建的数据库中匹配,得到包含至少一种属性的相关生物序列,之后根据每个所述相关生物序列与属性信息的相关联数量标注对应的各个所述相关生物序列的相关维度。
例如,用户输入“非小细胞肺癌”,服务器200将“非小细胞肺癌”在数据库中匹配于寻找到“EGFR基因序列”、“ALK基因序列”(这些基因序列与“非小细胞肺癌”相关)这些相关的神物序列,之后再从包含“EGFR基因序列”、“ALK基因序列”的词条中获取除“非小细胞肺癌”以外的属性的数量。若某一词条包含“EGFR基因序列”,该基因序列与“非小细胞肺癌”相关,与药物“盐酸埃克替尼”、疾病“银屑病”也相关,此时,可以将该EGFR基因序列的相关维度标注为3。
本实施例的方法,可以获知相关生物序列的相关维度,一般情况下,相关维度越高,对应的相关生物序列的可研究价值越高。因此,该方法可以为用户提供研发立项前的数据分析支持,从某种程度上评估生物序列的研究价值。
应该理解的是,虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图19所示,提供了一种生物序列数据库构建装置,包括:
特征提取模块810,用于获取目标文件,提取目标文件中的生物序列与属性信息;
关联模块820,用于将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
存储模块830,用于使用所述词条构建数据库。
在其中一个实施例中,特征提取模块810具体用于从数据源中获取文件,形成文件集;根据预设条件,从所述文件集中获取目标文件。
在其中一个实施例中,特征提取模块810具体用于对所述文件集中的文件进行文字识别,得出所述文件中包含的文字信息;根据所述文字信息中包含的预设关键词确定所述文件集中文件的文件类型。可选地,所述文件集中文件的文件类型包括专利文件和非专利文件中的至少一种。
在其中一个实施例中,关联模块820还用于对生物学领域的专业名词和/或属性信息进行分析,得到关联信息,其中,所述属性信息包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;根据所述关联信息对词条进行关联处理,得到数据库。
在其中一个实施例中,特征提取模块820具体用于提取专利文件的权利要求书和/或其他部分中的生物序列与属性信息,其中,所述其他部分为专利文件出权利要求书以外的部分。
在其中一个实施例中,特征提取模块820具体用于根据每篇专利文件的权利要求结构得到对应的权利要求树;通过所述权利要求树以及生物学专业词汇识别对应的专利文件中各个权利要求中的相同序列。
在其中一个实施例中,关联模块820具体用于使用搜索应用服务器solr将所述目标文件的文件标识、对应的生物序列的生物序列标识以及属性信息进行索引得到所述词条;其中,所述属性信息包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种。
在其中一个实施例中,关联模块820,还用于使用位置标识标注所述词条中属性信息的提取位置;或者,根据所述属性信息的提取位置将对应的词条分别存储。
在其中一个实施例中,特征提取模块810,具体用于根据每篇专利文件的权利要求结构得到对应的权利要求树;通过所述权利要求树以及生物学专业词汇识别对应的专利文件中各个权利要求中的相同序列。
在一个实施例中,提供一种生物序列关联度的标注系统,该装置包括:
基因序列输出单元,用于根据所述数据库与属性信息输出具有至少一种属性的相关基因序列,其中,所述数据库根据上述实施例的数据库构建方法构建;
生物序列关联度确定单元,用于根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度。
在一个实施例中,如图20所示,提供了一种文件检索装置,包括:
获取模块910,用于接收检索信息,其中,所述检索信息为生物序列、生物序列的属性信息中的一种或几种的组合。
词条匹配模块920,用于在根据上述任一实施例的数据库构建方法构建的数据库中为所述检索信息匹配出至少一个候选词条;
检索结果生成模块930,用于根据所述候选词条得到检索结果。
在其中一个实施例中,检索结果生成模块930,具体用于将每一候选词条中的文件标识以及属性信息作为检索结果显示。
在其中一个实施例中,检索结果生成模块930,具体用于根据所述候选词条中的文件标识确定候选文件;标注所述候选文件的预设部分的生物序列和/或属性信息;将标记的候选文件的预设部分以及对应的序列属性列表作为检索结果显示,其中,所述序列属性列表根据所述候选词条中的生物序列和属性信息获得。
在其中一个实施例中,检索结果生成模块930,具体用于根据所述候选词条得到检索结果包括:根据目标生物序列与所述查询序列的相似百分率生成每一所述目标生物序列的地图标签,其中,所述目标生物序列为各个所述候选词条对应生物序列;按照所述相似百分率确定各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置关系;根据每一所述目标生物序列的地图标签、所述查询序列的地图标签以及各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置关系生成生物序列地图,并将所述生物序列地图作为检索结果显示。
在其中一个实施例中,检索结果生成模块930,具体用于若用户选择的检索结果类型为序列相似性新领域视图,则根据所述候选词条得到检索结果包括:根据候选词条生成散点图,其中,散点图中的原点为根据所述候选词条的属性信息得到的相关物种,所述散点图的X轴为相关物种涉及的生物序列的数量,所述散点图的Y轴为相关物种涉及的专利数量;将所述散点图作为检索结果显示。
在其中一个实施例中,检索结果生成模块930,具体用于计算每一所述相关物种涉及的生物序列的相似百分率的平均值;根据所述相似百分率的平均值设置所述散点图中各个原点的颜色和/或形状。
在其中一个实施例中,若用户选择的检索结果类型为基因组视图,检索结果生成模块930,具体用于根据所述候选词条的属性信息确定相关基因序列;统计所述相关基因组中每个片段的专利数量,所述相关基因组中每个片段对应一个序列;使用所述相关基因序列以及所述相关基因组中每个片段的专利数量生成条状图;将所述条状图作为检索结果显示。
在其中一个实施例中,若用户选择的检索结果类型为内含物视图,检索结果生成模块930,具体用于根据所述候选词条的属性信息确定多个相关内含物;根据各个所述相关内含物的在对应的目标文件的第一预设位置中出现的数量,以及所述相关内含物在目标物种的基因组中的位置得到第一面积曲线图;根据各个所述相关内含物的在对应的目标文件的第二预设位置中出现的数量,以及所述相关内含物在目标物种的基因组中的位置得到第二面积曲线图;将所述第一面积曲线图与第二面积曲线图进行叠加,得到检索结果。
在其中一个实施例中,若用户选择的检索结果类型为功能相似性视图,检索结果生成模块930,具体用于根据所述候选词条的属性信息确定目标生物序列的功能;计算各个目标生物序列之间的相似性百分率;根据各个目标生物序列相似性百分率生成各个目标生物序列的关系图,其中,所述关系图中每个节点对应一个目标生物序列,所述关系图中每个节点的颜色和/或形状根据对应的目标生物序列的功能设置;将所述关系图作为检索结果显示。在其中一个实施例中,检索结果生成模块930,具体用于根据用户输入的属性筛选项筛选候选词条得到目标词条,其中,属性筛选项包括相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;根据所述目标词条得到检索结果。
关于数据库构建装置、生物序列关联度的标注系统、文件检索装置的具体限定可以参见上文中对于数据库构建方法、生物序列关联度的标注方法、文件检索方法的限定,在此不再赘述。上述数据库构建装置、生物序列关联度的标注系统、文件检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图21所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储词条。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种针对包含生物序列的专利文件检索方法。
本领域技术人员可以理解,图21中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取目标文件;提取目标文件中的生物序列与属性信息;将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;使用所述词条构建数据库。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:从数据源中获取文件,形成文件集;根据预设条件,从所述文件集中获取目标文件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述文件集中的文件进行文字识别,得出所述文件中包含的文字信息;根据所述文字信息中包含的预设关键词确定所述文件集中文件的文件类型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对生物学领域的专业名词和/或属性信息进行分析,得到关联信息,其中,所述属性信息包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;根据所述关联信息对词条进行关联处理,得到生物序列数据库。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:提取专利文件的权利要求书和/或其他部分中的生物序列与属性信息,其中,所述其他部分为专利文件出权利要求书以外的部分。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据每篇专利文件的权利要求结构得到对应的权利要求树;通过所述权利要求树以及生物学专业词汇识别对应的专利文件中各个权利要求中的相同序列。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:使用搜索应用服务器solr将所述目标文件的文件标识、对应的生物序列的生物序列标识以及属性信息进行索引得到所述词条。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:使用位置标识标注所述词条中属性信息的提取位置;或者,根据所述属性信息的提取位置将对应的词条分别存储。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:根据所述数据库与属性信息输出具有至少一种属性的相关基因序列;根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:接收检索信息;从所述数据库中为所述检索信息匹配出至少一个候选词条;根据所述候选词条得到检索结果。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:将每一候选词条中的文件标识以及属性信息作为检索结果显示。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据所述候选词条中的文件标识确定候选文件;标注所述候选文件的预设部分的生物序列和/或属性信息;将标记的候选文件的预设部分以及对应的序列属性列表作为检索结果显示,其中,所述序列属性列表根据所述候选词条中的生物序列和属性信息获得。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据目标生物序列与所述查询序列的相似百分率生成每一所述目标生物序列的地图标签,所述目标生物序列为各个所述候选词条对应生物序列;按照所述相似百分率确定各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置关系;根据每一所述目标生物序列的地图标签、所述查询序列的地图标签以及各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置关系生成生物序列地图,并将所述生物序列地图作为检索结果显示。
在一个实施例中,若用户选择的检索结果类型为序列相似性新领域视图,处理器执行计算机程序时具体实现以下步骤:根据候选词条生成散点图,其中,散点图中的原点为根据所述候选词条的属性信息得到的相关物种,所述散点图的X轴为相关物种涉及的生物序列的数量,所述散点图的Y轴为相关物种涉及的专利数量;将所述散点图作为检索结果显示。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算每一所述相关物种涉及的生物序列的相似百分率的平均值;根据所述相似百分率的平均值设置所述散点图中各个原点的颜色和/或形状。
在一个实施例中,若用户选择的检索结果类型为基因组视图,处理器执行计算机程序时具体实现以下步骤:根据所述候选词条的属性信息确定相关基因序列;统计所述相关基因组中每个片段的专利数量,所述相关基因组中每个片段对应一个序列;使用所述相关基因序列以及所述相关基因组中每个片段的专利数量生成条状图;将所述条状图作为检索结果显示。
在一个实施例中,若用户选择的检索结果类型为内含物视图,处理器执行计算机程序时具体实现以下步骤:根据所述候选词条的属性信息确定多个相关内含物;根据各个所述相关内含物的在对应的目标文件的第一预设位置中出现的数量,以及所述相关内含物在目标物种的基因组中的位置得到第一面积曲线图;根据各个所述相关内含物的在对应的目标文件的第二预设位置中出现的数量,以及所述相关内含物在目标物种的基因组中的位置得到第二面积曲线图;将所述第一面积曲线图与第二面积曲线图进行叠加,得到检索结果。
在一个实施例中,若用户选择的检索结果类型为功能相似性视图,处理器执行计算机程序时具体实现以下步骤:根据所述候选词条的属性信息确定目标生物序列的功能,其中,所述目标生物序列为各个所述候选词条对应生物序列;计算各个目标生物序列之间的相似性百分率;根据各个目标生物序列相似性百分率生成各个目标生物序列的关系图,其中,所述关系图中每个节点对应一个目标生物序列,所述关系图中每个节点的颜色和/或形状根据对应的目标生物序列的功能设置;将所述关系图作为检索结果显示。
在一个实施例中,处理器执行计算机程序时具体实现以下步骤:根据用户输入的属性筛选项筛选候选词条得到目标词条,其中,属性筛选项包括相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;根据所述目标词条得到检索结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取目标文件;提取目标文件中的生物序列与属性信息;将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;使用所述词条构建数据库。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:从数据源中获取文件,形成文件集;根据预设条件,从所述文件集中获取目标文件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述文件集中的文件进行文字识别,得出所述文件中包含的文字信息;根据所述文字信息中包含的预设关键词确定所述文件集中文件的文件类型。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:对生物学领域的专业名词和/或属性信息进行分析,得到关联信息,其中,所述属性信息包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;根据所述关联信息对词条进行关联处理,得到生物序列数据库。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:使用搜索应用服务器solr将所述文件标识、对应的生物序列的生物序列标识以及属性信息进行索引得到所述词条。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:提取专利文件的权利要求书和/或其他部分中的生物序列与属性信息,其中,所述其他部分为专利文件出权利要求书以外的部分。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据每篇专利文件的权利要求结构得到对应的权利要求树;通过所述权利要求树以及生物学专业词汇识别对应的专利文件中各个权利要求中的相同序列。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:使用搜索应用服务器solr将所述目标文件的文件标识、对应的生物序列的生物序列标识以及属性信息进行索引得到所述词条。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:使用位置标识标注所述词条中属性信息的提取位置;或者,根据所述属性信息的提取位置将对应的词条分别存储。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:根据所述数据库与属性信息输出具有至少一种属性的相关基因序列;根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收检索信息;从数据库中为所述检索信息匹配出至少一个候选词条;根据所述候选词条得到检索结果。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:将每一候选词条中的文件标识以及属性信息作为检索结果显示。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据所述候选词条中的文件标识确定候选文件;标注所述候选文件的预设部分的生物序列和/或属性信息;将标记的候选文件的预设部分以及对应的序列属性列表作为检索结果显示,其中,所述序列属性列表根据所述候选词条中的生物序列和属性信息获得。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据目标生物序列与所述查询序列的相似百分率生成每一所述目标生物序列的地图标签,其中,所述目标生物序列为各个所述候选词条对应生物序列;按照所述相似百分率确定各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置关系;根据每一所述目标生物序列的地图标签、所述查询序列的地图标签以及各个所述目标生物序列的地图标签与所述查询序列的地图标签之间的相对位置关系生成生物序列地图,并将所述生物序列地图作为检索结果显示。
在一个实施例中,若用户选择的检索结果类型为序列相似性新领域视图,计算机程序被处理器执行时还实现以下步骤:根据候选词条生成散点图,其中,散点图中的原点为根据所述候选词条的属性信息得到的相关物种,所述散点图的X轴为相关物种涉及的生物序列的数量,所述散点图的Y轴为相关物种涉及的专利数量;将所述散点图作为检索结果显示。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算每一所述相关物种涉及的生物序列的相似百分率的平均值;根据所述相似百分率的平均值设置所述散点图中各个原点的颜色和/或形状。
在一个实施例中,若用户选择的检索结果类型为基因组视图,计算机程序被处理器执行时还实现以下步骤:根据所述候选词条的属性信息确定相关基因序列;统计所述相关基因组中每个片段的专利数量,所述相关基因组中每个片段对应一个序列;使用所述相关基因序列以及所述相关基因组中每个片段的专利数量生成条状图;将所述条状图作为检索结果显示。
在一个实施例中,若用户选择的检索结果类型为内含物视图,计算机程序被处理器执行时还实现以下步骤:根据所述候选词条的属性信息确定多个相关内含物;根据各个所述相关内含物的在对应的目标文件的第一预设位置中出现的数量,以及所述相关内含物在目标物种的基因组中的位置得到第一面积曲线图;根据各个所述相关内含物的在对应的目标文件的第二预设位置中出现的数量,以及所述相关内含物在目标物种的基因组中的位置得到第二面积曲线图;将所述第一面积曲线图与第二面积曲线图进行叠加,得到检索结果。
在一个实施例中,若用户选择的检索结果类型为功能相似性视图,计算机程序被处理器执行时具体实现以下步骤:根据所述候选词条的属性信息确定目标生物序列的功能,其中,所述目标生物序列为各个所述候选词条对应生物序列;计算各个目标生物序列之间的相似性百分率;根据各个目标生物序列相似性百分率生成各个目标生物序列的关系图,其中,所述关系图中每个节点对应一个目标生物序列,所述关系图中每个节点的颜色和/或形状根据对应的目标生物序列的功能设置;将所述关系图作为检索结果显示。
在一个实施例中,计算机程序被处理器执行时具体实现以下步骤:根据用户输入的属性筛选项筛选候选词条得到目标词条,其中,属性筛选项包括相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;根据所述目标词条得到检索结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据库的构建方法,其特征在于,所述数据库应用于搜索引擎,所述方法包括:
获取目标文件;
提取目标文件中的生物序列与属性信息;
将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
使用所述词条构建数据库。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文件包括:
从数据源中获取文件,形成文件集;
根据预设条件,从所述文件集中获取目标文件。
3.根据权利要求1所述的方法,其特征在于,所述使用所述词条构建数据库包括:
对生物学领域的专业名词和/或属性信息进行分析,得到关联信息,其中,所述属性信息包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;
根据所述关联信息对词条进行关联处理,得到生物序列数据库。
4.一种基因序列关联度的标注方法,其特征在于,所述方法包括:
根据所述数据库与属性信息输出具有至少一种属性的相关基因序列,其中,所述数据库根据权利要求1-3任一项所述方法构建;
根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度。
5.一种文件检索方法,所述方法包括:
接收检索信息,其中,所述检索信息为生物序列、生物序列的属性信息中的一种或几种的组合;
从如权利要求1-3任一项所述的方法得到的数据库中为所述检索信息匹配出至少一个候选词条;
根据所述候选词条得到检索结果。
6.根据权利要求5所述的方法,其特征在于,根据所述候选词条得到检索结果,包括:
根据所述候选词条中的文件标识确定候选文件;
标注所述候选文件的预设部分的生物序列和/或属性信息;
将标记的候选文件的预设部分以及对应的序列属性列表作为检索结果显示,其中,所述序列属性列表根据所述候选词条中的生物序列和属性信息获得。
7.根据权利要求5所述的方法,其特征在于,若用户选择的检索结果类型为功能相似性视图,根据所述候选词条得到检索结果包括:
根据所述候选词条的属性信息确定目标生物序列的功能;
计算各个目标生物序列之间的相似性百分率;
根据各个目标生物序列相似性百分率生成各个目标生物序列的关系图,其中,所述关系图中每个节点对应一个目标生物序列,所述关系图中每个节点的颜色和/或形状根据对应的目标生物序列的功能设置;
将所述关系图作为检索结果显示。
8.一种数据库构建装置,其特征在于,包括:
特征提取模块,获取目标文件,提取目标文件中的生物序列与属性信;
关联模块,将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
存储模块,使用所述词条构建生物序列数据库。
9.一种文件检索装置,其特征在于,所述装置包括:
获取模块,用于接收检索信息,其中,所述检索信息为生物序列、生物序列的属性信息中的一种或几种的组合;
词条匹配模块,用于从根据权利要求1-3任一项所述的方法构建的数据库中为所述检索信息匹配出至少一个候选词条;
检索结果生成模块,用于根据所述候选词条得到检索结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910881925.4A 2019-09-18 2019-09-18 数据库构建方法、文件检索方法以及装置 Pending CN112530523A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910881925.4A CN112530523A (zh) 2019-09-18 2019-09-18 数据库构建方法、文件检索方法以及装置
PCT/CN2020/113214 WO2021052184A1 (zh) 2019-09-18 2020-09-03 数据库构建方法、文件检索方法以及装置
EP20865284.2A EP4033492A4 (en) 2019-09-18 2020-09-03 DATABASE CONSTRUCTION METHOD AND APPARATUS AND FILE RECOVERY METHOD AND APPARATUS
US17/696,737 US20220229820A1 (en) 2019-09-18 2022-03-16 Method for Constructing Database, Method for Retrieving Document and Computer Device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910881925.4A CN112530523A (zh) 2019-09-18 2019-09-18 数据库构建方法、文件检索方法以及装置

Publications (1)

Publication Number Publication Date
CN112530523A true CN112530523A (zh) 2021-03-19

Family

ID=74883874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910881925.4A Pending CN112530523A (zh) 2019-09-18 2019-09-18 数据库构建方法、文件检索方法以及装置

Country Status (4)

Country Link
US (1) US20220229820A1 (zh)
EP (1) EP4033492A4 (zh)
CN (1) CN112530523A (zh)
WO (1) WO2021052184A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012755A (zh) * 2021-04-12 2021-06-22 聊城大学 基因组atcg的检索方法
CN113111869A (zh) * 2021-04-06 2021-07-13 上海交通大学 提取文字图片及其描述的方法和系统
CN115050478A (zh) * 2022-03-31 2022-09-13 数魔方(北京)医药科技有限公司 药品信息挖掘方法、预警方法、装置和存储介质
CN117077004A (zh) * 2023-08-18 2023-11-17 中国科学院华南植物园 物种鉴定方法、系统、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238081B (zh) * 2022-06-14 2024-04-30 杭州原数科技有限公司 一种文物智能识别方法、系统及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050004900A1 (en) * 2003-05-12 2005-01-06 Yoshihiro Ohta Information search method
CN1851704A (zh) * 2006-05-17 2006-10-25 杨仑 对专利基因或基因专利进行检索、注释和数据挖掘的方法
US20070027630A1 (en) * 2002-10-22 2007-02-01 University Of Utah Research Foundation Managing biological databases
CN107168966A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种搜索引擎索引构建方法及装置
CN110246590A (zh) * 2019-06-17 2019-09-17 上海米帝信息技术有限公司 一种血液病知识图谱数据库的构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547756B (zh) * 2015-09-17 2021-02-12 北京国双科技有限公司 数据库的创建方法及装置
US10037365B2 (en) * 2016-01-29 2018-07-31 Integral Search International Ltd. Computer-implemented patent searching method in connection to matching degree

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027630A1 (en) * 2002-10-22 2007-02-01 University Of Utah Research Foundation Managing biological databases
US20050004900A1 (en) * 2003-05-12 2005-01-06 Yoshihiro Ohta Information search method
CN1851704A (zh) * 2006-05-17 2006-10-25 杨仑 对专利基因或基因专利进行检索、注释和数据挖掘的方法
CN107168966A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种搜索引擎索引构建方法及装置
CN110246590A (zh) * 2019-06-17 2019-09-17 上海米帝信息技术有限公司 一种血液病知识图谱数据库的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张艺群等: "昆虫基因数据库平台的构建及其关键技术的研究", 《中国优秀硕士学位论文全文数据库基础科学辑》, no. 1, pages 006 - 143 *
蔡伟珊等: "基于数据仓库的病毒序列集成数据库系统研究", 《鄂州大学学报》, vol. 22, no. 5, pages 104 - 106 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111869A (zh) * 2021-04-06 2021-07-13 上海交通大学 提取文字图片及其描述的方法和系统
CN113111869B (zh) * 2021-04-06 2022-12-09 上海交通大学 提取文字图片及其描述的方法和系统
CN113012755A (zh) * 2021-04-12 2021-06-22 聊城大学 基因组atcg的检索方法
CN113012755B (zh) * 2021-04-12 2023-10-27 聊城大学 基因组atcg的检索方法
CN115050478A (zh) * 2022-03-31 2022-09-13 数魔方(北京)医药科技有限公司 药品信息挖掘方法、预警方法、装置和存储介质
CN117077004A (zh) * 2023-08-18 2023-11-17 中国科学院华南植物园 物种鉴定方法、系统、设备及存储介质
CN117077004B (zh) * 2023-08-18 2024-02-23 中国科学院华南植物园 物种鉴定方法、系统、设备及存储介质

Also Published As

Publication number Publication date
WO2021052184A1 (zh) 2021-03-25
EP4033492A1 (en) 2022-07-27
US20220229820A1 (en) 2022-07-21
EP4033492A4 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
CN112530523A (zh) 数据库构建方法、文件检索方法以及装置
Gront et al. Generalized fragment picking in Rosetta: design, protocols and applications
Alves et al. Gene association analysis: a survey of frequent pattern mining from gene expression data
JP6751157B2 (ja) 疾患を治療するために標的へ向けられた薬物の効力を予測するためのシステム
US10198478B2 (en) Methods and systems for technology analysis and mapping
Agapito et al. Extracting cross-ontology weighted association rules from gene ontology annotations
KR101117603B1 (ko) 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법
Neves et al. Moara: a Java library for extracting and normalizing gene and protein mentions
Youngs et al. Parametric Bayesian priors and better choice of negative examples improve protein function prediction
AU2004273509A1 (en) Method and system for interpreting multiple-term queries
Offord et al. LRRfinder2. 0: a webserver for the prediction of leucine-rich repeats
Birgmeier et al. AVADA: toward automated pathogenic variant evidence retrieval directly from the full-text literature
US20220285037A1 (en) Drug discovery platform
Saini et al. Meta-DP: domain prediction meta-server
Liu et al. HPOLabeler: improving prediction of human protein–phenotype associations by learning to rank
KR20090034264A (ko) 특허검색결과의 검토방법
Naresh et al. Impact of machine learning in bioinformatics research
Gáspári et al. Efficient recognition of folds in protein 3D structures by the improved PRIDE algorithm
JP2004318321A (ja) 生物情報検索システム及び検索方法
Van Driel et al. Bioinformatics methods for identifying candidate disease genes
Pasha et al. Revisiting myosin families through large-scale sequence searches leads to the discovery of new myosins
Kirkness et al. The TIGR human cDNA database
Samuel et al. Mining online full-text literature for novel protein interaction discovery
Yüksektepe et al. Prediction of secondary structures of proteins using a two-stage method
JP4298101B2 (ja) 類似発現パターン抽出方法及び関連生体高分子抽出方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination