CN107273713A - 一种基于TM‑align的多域蛋白模板搜索方法 - Google Patents

一种基于TM‑align的多域蛋白模板搜索方法 Download PDF

Info

Publication number
CN107273713A
CN107273713A CN201710382371.4A CN201710382371A CN107273713A CN 107273713 A CN107273713 A CN 107273713A CN 201710382371 A CN201710382371 A CN 201710382371A CN 107273713 A CN107273713 A CN 107273713A
Authority
CN
China
Prior art keywords
template
score
albumen
protein
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710382371.4A
Other languages
English (en)
Other versions
CN107273713B (zh
Inventor
张贵军
周晓根
王柳静
郝小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710382371.4A priority Critical patent/CN107273713B/zh
Publication of CN107273713A publication Critical patent/CN107273713A/zh
Application granted granted Critical
Publication of CN107273713B publication Critical patent/CN107273713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于TM‑align的多域蛋白模板搜索方法,首先,从蛋白质库中提取多域蛋白建立多域蛋白质库;然后,基于蛋白质结构比对工具TM‑align计算模板蛋白对于每个单域蛋白的局部比对得分,并取最高值为模板的局部得分;其次,选出局部得分最高的前500个模板进行全局评价,按照单域蛋白的比对顺序分多种情况进行评价,在评价过程中,模板中的各残基禁止重复比对,并且遵循查询蛋白中的各域的实际顺序比对,选出各种比对情况中全局比对得分最高值为模板的最终得分;最后,根据最终得分对进行排名,选择最终得分最高的模板为最终模板。本发明可以较快得到最佳模板,且可以获取域之间方向信息,模板质量较高。

Description

一种基于TM-align的多域蛋白模板搜索方法
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于TM-align的多域蛋白模板搜索方法。
背景技术
大规模蛋白通常由多个结构和功能不同的单域蛋白组成,据统计,现有蛋白质库(Protein Data Bank,PDB)中有32.7%的蛋白至少包含两个单域蛋白,超过5 个单域的蛋白数量较少,并且最大的蛋白包含20个单域。另外,一个蛋白是多域蛋白的概率随着其序列长度的增长而变大,统计显示,超过50%的序列长度大于 275的蛋白至少包含两个单域蛋白,大部分多域蛋白包含150个左右的残基,很少有超过600个残基的,最大的多域蛋白序列长度为1317。从而可以看出,对于这些大规模的多域蛋白,通过实验测定的方法来预测其三维结构极其困难和费时。
现有单域蛋白结构预测方法(如QUARK、I-TASSER和ROSETTA等)对于单域蛋白的结构预测精度已经达到了一定的高度,但是对于多域蛋白的结构预测确显得力不从心;而且,在这些单域蛋白结构预测方法中,能量函数的设计中考虑了单域蛋白内的因素,在多域蛋白结构预测中无法使用。目前,常用的多域蛋白预测方法有两类,即利用单域蛋白预测方法预测出个单域蛋白的结构,然后对单域和单域之间的连接区域进行采样或对多个域进行对接。
在单域和单域对接过程中,通过模板的引导会提高预测精度。大部分模板搜索方法基于穿线方法,即从氨基酸序列出发利用溶剂可及性和二级结构信息等进行搜索。然而,多域蛋白的组装过程仅仅利用信息而不根据单域的三维结构信息搜索模板,导致无法获取域和域之间的方向信息,从而导致预测精度较低。
因此,现有的多域蛋白模板搜索方法在获取域之间的方向信息方面存在着缺陷,需要改进。
发明内容
为了克服现有的多域蛋白模板搜索方法无法获取域和域之间的方向信息、模板质量较低的不足,本发明提供一种可以获取域之间的方向信息、模板质量较高的基于TM-align的多域蛋白模板搜索方法。
本发明解决其技术问题所采用的技术方案是:
一种基于TM-align的多域蛋白模板搜索方法,所述方法包括以下步骤:
1)多域蛋白质库构建,过程如下:
1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割;
1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;
2)输入待预测的多域蛋白的各单域的三维结构;
3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;
4)对筛选出的每一个模板蛋白进行局部评价,过程如下:
4.1)采用蛋白质结构比对工具TM-align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM-score1,TM-score2,…,TM-scoren,其中 TM-scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;
4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM-score1,TM-score2,…,TM-scoren),其中max表示取最大值;
5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N个的模板蛋白;
6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:
6.1)计算单域蛋白比对顺序的种数n!;
6.2)根据每种比对顺序进行如下操作:
6.2.1)采用TM-align计算排序第一的单域蛋白与模板蛋白之间的全局比对得分GTM-score1
6.2.2)将模板蛋白中第一个比对点和最后一个比对点之间的部分删除,计算剩余部分的序列长度,若大于其他没有比对的单域蛋白的序列长度之和,则继续6.2.3)
6.2.3)若排序第二的单域蛋白在实际多域蛋白中的顺序在排序第一的蛋白之前,则执行6.2.4),否则执行6.2.5);
6.2.4)采用TM-align计算排序第二的单域蛋白与第一个比对点之前的模板蛋白的全局比对得分GTM-score2
6.2.5)采用TM-align计算排序第二的单域蛋白与最后一个比对点之后的模板蛋白的全局比对得分GTM-score2
6.2.6)根据步骤6.2.1)-6.2.5)依次计算排序第三到第n的单域蛋白与模板的全局比对得分GTM-score3,GTM-score4,…,GTM-scoren
6.2.7)计算按照该顺序进行模板全局评价的全局比对得分其中wi为排序为第i的单域蛋白的权重, Li为排序为第i的单域蛋白的序列长度;
6.3)取按照n!种顺序进行模板全局评价中全局比对得分最高值为该模板的最终得分;
7)根据每个模板的最终得分从高到低进行排名,则排名第一的模板则为最优模板。
本发明的技术构思为:首先,从蛋白质库中提取多域蛋白建立多域蛋白质库;然后,基于蛋白质结构比对工具TM-align计算模板蛋白对于每个单域蛋白的局部比对得分,并取最高值为模板的局部得分;其次,选出局部得分最高的前N(N 取500)个模板进行全局评价,按照单域蛋白的比对顺序分多种情况进行评价,在评价过程中,模板中的各残基禁止重复比对,并且遵循查询蛋白中的各域的实际顺序比对,选出各种比对情况中全局比对得分最高值为模板的最终得分;最后,根据最终得分对进行排名,选择最终得分最高的模板为最终模板。
本发明的有益效果表现在:一方面,基于TM-align,从单域蛋白的三维结构出发搜索模板,从而可以获取域之间的方向信息;另一方面,从局部到全局对模板进行评价,提高搜索效率。
附图说明
图1是基于TM-align的多域蛋白模板搜索方法的基本流程图。
图2是基于TM-align的多域蛋白模板搜索方法对模板进行局部评价的示意图。
图3是基于TM-align的多域蛋白模板搜索方法对模板进行全局评价的示意图。
图4为序列长度为254的包含两个域的多域蛋白质2i53A的三维结构图。
图5是多域蛋白质2i53A的最佳模板3rgfB的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于TM-align的多域蛋白模板搜索方法,包括以下步骤: 1)多域蛋白质库构建,过程如下:
1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割;
1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;
2)输入待预测的多域蛋白的各单域的三维结构;
3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;
4)对筛选出的每一个模板蛋白进行局部评价,过程如下:
4.1)采用蛋白质结构比对工具TM-align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM-score1,TM-score2,…,TM-scoren,其中 TM-scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;
4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM-score1,TM-score2,…,TM-scoren),其中max表示取最大值,如图2所示;
5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N(N取500) 个的模板蛋白;
6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:
6.1)计算单域蛋白比对顺序的种数n!;
6.2)根据每种比对顺序进行如下操作:
6.2.1)采用TM-align计算排序第一的单域蛋白与模板蛋白之间的全局比对得分GTM-score1
6.2.2)将模板蛋白中第一个比对点和最后一个比对点之间的部分删除,计算剩余部分的序列长度,若大于其他没有比对的单域蛋白的序列长度之和,则继续6.2.3)
6.2.3)若排序第二的单域蛋白在实际多域蛋白中的顺序在排序第一的蛋白之前,则执行6.2.4),否则执行6.2.5);
6.2.4)采用TM-align计算排序第二的单域蛋白与第一个比对点之前的模板蛋白的全局比对得分GTM-score2
6.2.5)采用TM-align计算排序第二的单域蛋白与最后一个比对点之后的模板蛋白的全局比对得分GTM-score2
6.2.6)根据步骤6.2.1)-6.2.5)依次计算排序第三到第n的单域蛋白与模板的全局比对得分GTM-score3,GTM-score4,…,GTM-scoren如图3所示;
6.2.7)计算按照该顺序进行模板全局评价的全局比对得分其中wi为排序为第i的单域蛋白的权重, Li为排序为第i的单域蛋白的序列长度;
6.3)取按照n!种顺序进行模板全局评价中全局比对得分最高值为该模板的最终得分;
7)根据每个模板的最终得分从高到低进行排名,则排名第一的模板则为最优模板。
本实施例序列长度为254的多域蛋白质2i53A为实施例,一种基于TM-align 的多域蛋白模板搜索方法,包括以下步骤:
1)多域蛋白质库构建,过程如下:
1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割;
1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;
2)输入待预测的多域蛋白的各单域的三维结构;
3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;
4)对筛选出的每一个模板蛋白进行局部评价:
4.1)采用蛋白质结构比对工具TM-align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM-score1,TM-score2,其中TM-scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数,该蛋白n=2;
4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM-score1,TM-score2,…,TM-scoren),其中max表示取最大值;
5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前500的模板蛋白;
6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:
6.1)计算单域蛋白比对顺序的种数n!;
6.2)根据每种比对顺序进行如下操作:
6.2.1)采用TM-align计算排序第一的单域蛋白与模板蛋白之间的全局比对得分GTM-score1
6.2.2)将模板蛋白中第一个比对点和最后一个比对点之间的部分删除,计算剩余部分的序列长度,若大于其他没有比对的单域蛋白的序列长度之和,则继续6.2.3)
6.2.3)若排序第二的单域蛋白在实际多域蛋白中的顺序在排序第一的蛋白之前,则执行6.2.4),否则执行6.2.5);
6.2.4)采用TM-align计算排序第二的单域蛋白与第一个比对点之前的模板蛋白的全局比对得分GTM-score2
6.2.5)采用TM-align计算排序第二的单域蛋白与最后一个比对点之后的模板蛋白的全局比对得分GTM-score2
6.2.6)根据步骤6.2.1)-6.2.5)依次计算排序第三到第n的单域蛋白与模板的全局比对得分GTM-score3,GTM-score4,…,GTM-scoren
6.2.7)计算按照该顺序进行模板全局评价的全局比对得分其中wi为排序为第i的单域蛋白的权重,Li为排序为第i的单域蛋白的序列长度, w1=w2=…=wn=1.0;
6.3)取按照n!种顺序进行模板全局评价中全局比对得分最高值为该模板的最终得分;
7)根据每个模板的最终得分从高到低进行排名,则排名第一的模板则为最优模板。
以序列长度为254的包含两个域的多域蛋白质2i53A为实施例,运用以上方法组装得到了该多域蛋白质最佳模板为3rgfB,2i53A和3rgfB之间的全局比对得分为0.80,两者的三维结构图分别如图4和图5所示。
以上说明是本发明以2i53A蛋白质为实例所得出的模板搜索效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于TM-align的多域蛋白模板搜索方法,其特征在于:所述模板搜索方法包括以下步骤:
1)多域蛋白质库构建,过程如下:
1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割;
1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;
2)输入待预测的多域蛋白的各单域的三维结构;
3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;
4)对筛选出的每一个模板蛋白进行局部评价,过程如下:
4.1)采用蛋白质结构比对工具TM-align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM-score1,TM-score2,…,TM-scoren,其中TM-scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;
4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM-score1,TM-score2,…,TM-scoren),其中max表示取最大值;
5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N个的模板蛋白;
6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:
6.1)计算单域蛋白比对顺序的种数n!;
6.2)根据每种比对顺序进行如下操作:
6.2.1)采用TM-align计算排序第一的单域蛋白与模板蛋白之间的全局比对得分GTM-score1
6.2.2)将模板蛋白中第一个比对点和最后一个比对点之间的部分删除,计算剩余部分的序列长度,若大于其他没有比对的单域蛋白的序列长度之和,则继续6.2.3)
6.2.3)若排序第二的单域蛋白在实际多域蛋白中的顺序在排序第一的蛋白之前,则执行6.2.4),否则执行6.2.5);
6.2.4)采用TM-align计算排序第二的单域蛋白与第一个比对点之前的模板蛋白的全局比对得分GTM-score2
6.2.5)采用TM-align计算排序第二的单域蛋白与最后一个比对点之后的模板蛋白的全局比对得分GTM-score2
6.2.6)根据步骤6.2.1)-6.2.5)依次计算排序第三到第n的单域蛋白与模板的全局比对得分GTM-score3,GTM-score4,…,GTM-scoren
6.2.7)计算按照该顺序进行模板全局评价的全局比对得分其中wi为排序为第i的单域蛋白的权重,Li为排序为第i的单域蛋白的序列长度;
6.3)取按照n!种顺序进行模板全局评价中全局比对得分最高值为该模板的最终得分;
7)根据每个模板的最终得分从高到低进行排名,则排名第一的模板则为最优模板。
CN201710382371.4A 2017-05-26 2017-05-26 一种基于TM-align的多域蛋白模板搜索方法 Active CN107273713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710382371.4A CN107273713B (zh) 2017-05-26 2017-05-26 一种基于TM-align的多域蛋白模板搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710382371.4A CN107273713B (zh) 2017-05-26 2017-05-26 一种基于TM-align的多域蛋白模板搜索方法

Publications (2)

Publication Number Publication Date
CN107273713A true CN107273713A (zh) 2017-10-20
CN107273713B CN107273713B (zh) 2020-06-02

Family

ID=60065598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710382371.4A Active CN107273713B (zh) 2017-05-26 2017-05-26 一种基于TM-align的多域蛋白模板搜索方法

Country Status (1)

Country Link
CN (1) CN107273713B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164506A (zh) * 2019-04-19 2019-08-23 浙江工业大学 一种基于域间残基接触的多域蛋白结构组装方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001037147A2 (en) * 1999-11-03 2001-05-25 Algonomics Nv Apparatus and method for structure-based prediction of amino acid sequences
US20090043512A1 (en) * 2007-08-07 2009-02-12 Zemla Adam T Structure-sequence based analysis for identification of conserved regions in proteins
CN101930502A (zh) * 2010-09-03 2010-12-29 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及系统
CN105354441A (zh) * 2015-10-23 2016-02-24 上海交通大学 构建植物蛋白质互作网络的方法
CN105808972A (zh) * 2016-03-11 2016-07-27 浙江工业大学 一种基于谱知识从局部到全局的蛋白质结构预测方法
WO2017081687A1 (en) * 2015-11-10 2017-05-18 Ofek - Eshkolot Research And Development Ltd Protein design method and system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001037147A2 (en) * 1999-11-03 2001-05-25 Algonomics Nv Apparatus and method for structure-based prediction of amino acid sequences
US20090043512A1 (en) * 2007-08-07 2009-02-12 Zemla Adam T Structure-sequence based analysis for identification of conserved regions in proteins
CN101930502A (zh) * 2010-09-03 2010-12-29 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及系统
CN105354441A (zh) * 2015-10-23 2016-02-24 上海交通大学 构建植物蛋白质互作网络的方法
WO2017081687A1 (en) * 2015-11-10 2017-05-18 Ofek - Eshkolot Research And Development Ltd Protein design method and system
CN105808972A (zh) * 2016-03-11 2016-07-27 浙江工业大学 一种基于谱知识从局部到全局的蛋白质结构预测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DONG XU等: ""AIDA: ab initio domain assembly for automated multi-domain protein structure prediction and domain–domain interaction prediction"", 《BIOINFORMATICS》 *
JIANYI YANG等: ""Protein Structure and Function Prediction Using I-TASSER"", 《CURRENT PROTOCOLS IN BIOINFORMATICS》 *
YANG ZHANG等: ""TM-align: a protein structure alignment algorithm based on the TM-score"", 《NUCLEIC ACIDS RESEARCH》 *
YING XU等: ""Protein domain decomposition using a graph-theoretic approach"", 《BIOINFORMATICS》 *
任菲: ""基于蛋白质聚类的同源建模结构预测研究"", 《中国博士学位论文全文数据库 基础科学辑》 *
谷俊峰: ""蛋白质结构预测中几个关键问题的研究"", 《中国博士学位论文全文数据库 基础科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164506A (zh) * 2019-04-19 2019-08-23 浙江工业大学 一种基于域间残基接触的多域蛋白结构组装方法

Also Published As

Publication number Publication date
CN107273713B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111444247B (zh) 一种基于kpi指标的根因定位方法、装置及存储介质
CN103530321B (zh) 一种基于机器学习的排序系统
CN103377237B (zh) 高维数据的近邻搜索方法以及快速近似图像搜索方法
CN103150369A (zh) 作弊网页识别方法及装置
CN108875795A (zh) 一种基于Relief和互信息的特征选择算法
CN110378206A (zh) 一种智能审图系统及方法
WO2023168812A1 (zh) 一种搜索系统的优化方法、装置、存储介质及计算机设备
CN110674326A (zh) 一种基于多项式分布学习的神经网络结构检索方法
CN109492081A (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN112463763B (zh) 基于RF算法的MySQL数据库参数筛选方法
CN110457706B (zh) 兴趣点名称选择模型训练方法、使用方法、装置及存储介质
CN104615621B (zh) 搜索中的相关性处理方法和系统
KR20110039900A (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
CN107273713A (zh) 一种基于TM‑align的多域蛋白模板搜索方法
CN103605092B (zh) Wat测试系统及测试方法
CN115438141B (zh) 一种基于知识图谱模型的信息检索方法
CN115984559A (zh) 智能样本精选方法及相关装置
JP4883719B2 (ja) 類似画像検索方法および装置
CN116467286A (zh) 一种建筑工程造价咨询数据库的建立方法及系统
CN110348397A (zh) 一种电子表格的分割方法及利用该分割方法的ocr识别方法
Li et al. A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection
CN112749268B (zh) 基于混合策略的faq系统排序方法、装置及系统
CN113495963B (zh) 网络安全知识图谱的嵌入表示方法及装置
CN114334171A (zh) 基于病例登记和搜索引擎的罕见病流行病学数据库构建方法及系统
CN109741731A (zh) 一种语种训练数据获得方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant