CN104424399B - 一种基于病毒蛋白质本体的知识导航的方法、装置 - Google Patents

一种基于病毒蛋白质本体的知识导航的方法、装置 Download PDF

Info

Publication number
CN104424399B
CN104424399B CN201310391096.4A CN201310391096A CN104424399B CN 104424399 B CN104424399 B CN 104424399B CN 201310391096 A CN201310391096 A CN 201310391096A CN 104424399 B CN104424399 B CN 104424399B
Authority
CN
China
Prior art keywords
knowledge
protein
virus protein
virus
excavation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310391096.4A
Other languages
English (en)
Other versions
CN104424399A (zh
Inventor
陈恒
张珅
赵�衍
张永娟
陈成材
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Nutrition and Health of CAS
Original Assignee
Shanghai Institutes for Biological Sciences SIBS of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institutes for Biological Sciences SIBS of CAS filed Critical Shanghai Institutes for Biological Sciences SIBS of CAS
Priority to CN201310391096.4A priority Critical patent/CN104424399B/zh
Publication of CN104424399A publication Critical patent/CN104424399A/zh
Application granted granted Critical
Publication of CN104424399B publication Critical patent/CN104424399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于病毒蛋白质本体的知识导航的方法、装置和系统,在实现知识挖掘的基础上,创立了一种基于病毒蛋白质本体的知识导航的方法,并较好地完成了知识挖掘与知识导航功能的整合。其技术方案为:本发明将知识挖掘型乙肝专题文献数据库的文本挖掘字典同乙肝病毒蛋白本体进行关联整合,并通过该关联整合,构建出一个应用于乙肝蛋白质挖掘模块的知识组织与分类导航系统,并完成基于乙肝病毒蛋白本体的知识导航功能。

Description

一种基于病毒蛋白质本体的知识导航的方法、装置
技术领域
本发明涉及知识导航技术,尤其涉及能够提供基于病毒蛋白本体的知识导航服务的技术。
背景技术
本体的一个普遍公认的概念定义为:共享概念模型的、明确的、形式化的规范说明[Studer R,Benjamins VR,Fensel D.Knowledge engineering,principles andmethods.Data and Knowledge engineering[J],1998,25],从该定义可以看出本体主要包含了4重含义:共享、概念模型、明确和形式化。简单的讲,就是用了描述一个领域内甚至更广的范围内的概念以及概念之间的关系,从而形成大家公认的,明确的概念以及关系的定义,进而实现人机以及计算机之间的交流[杜小勇,李曼,王珊.本体学习研究综述.软件学报[J],2006,(9):1837-1847]。
随着各学科领域对本体的深入研究,各领域本体的研究构建也正在迅速的趋于成熟。本体作为能在语义和知识层次上描述系统的概念模型,其目的是在于以一种通用的方式来获取领域中的知识,提供对领域概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重复利用,本体是某一领域中的术语及术语之间关系的规范说明,目前基于本体的应用目的主要是针对知识组织管理,语义网络和人工智能等方面[刘耀,穗志方.领域ontology概念描述体系构建方法探析.大学图书馆学报[J],2006,(5):28-33]。在生命科学领域,生物学不同研究领域的本体在不断被研发、构建和相继出现,如基因本体(Gene Ontology)[Gene ontology tool for the unification of biology.GeneOntology Consortium]、蛋白本体(Protein Ontology)[Darren A Natale,Cecilia NArighi,Winona C Barker,Judith Blake,Ti-Cheng Chang,Zhangzhi Hu,Hongfang Liu,Barry Smith and Cathy H Wu.Framework for a Protein Ontology.BMCBioinformatics[J]2007,8(Suppl 9):S1]、序列本体(Sequence Ontology)[KarenEilbeck and Suzanna E.Lewis.Sequence Ontology Annotation Guide.Comparativeand Functional GenomicsVolume[J],2004,5,(8):642-647]以及疾病本体(DiseaseOntology)[Pan Du,Gang Feng,Jared Flatow,Jie Song,Michelle Holko,WarrenA.Kibbe and Simon M.Lin.From disease ontology to disease-ontology lite:statistical methods to adapt a general-purpose ontology for the test of gene-ontology associations.BioInformatics[J],2009,25(12)]等等,这些都推动了生物学领域本体的发展。将本体应用到信息整合与知识挖掘过程中,不仅能够很好的对知识进行组织分类和导航,而且能够更好地引导用户进行信息的检索分析[陈霞,魏玲玲,邱桃荣,刘萍.基于本体论的关联规则的挖掘.计算机与数字工程,2007,(2):32-34]。此外,本体为专业领域提供了一套共享的规范说明,使其术语达到了领域共识,因而能够更好地实现知识的组织、管理、导航、发现与抽取,提高知识的挖掘质量与效率[邢平平,施鹏飞,赵奕.基于本体论的数据挖掘方法.计算机工程,2001,(5)]。就目前研究现状而言,在生命科学领域,将本体应用到知识组织管理与导航的技术在国外已有过一些报道,而在国内几乎还是个空白。一个比较有名的例子是,由德国Transinsight公司和德累斯顿技术大学的生物信息集团合作,将本体同信息整合和数据挖掘相整合,联合开发了一个比较新的信息检索技术:GOPubMed[Heiko Dietze,Dimitra Alexopoulou,Michael R.Alvers,Liliana Barrio-Alvers,Bill Andreopoulos,Andreas Doms,Jo¨rg Hakenberg,Jan Mo¨nnich,ConradPlake,Andreas Reischuck,Lo1¨c Royer,Thomas Wa¨chter,Matthias Zschunke,andMichael Schroeder.GoPubMed:Exploring PubMed with Ontological BackgroundKnowledge.Bioinformatics for Systems Biology[J],2009,Part V,385-399]。它是一种基于GO(基因本体)和MeSH(医学主题词表)的检索技术,其将PubMed的检索结果返回到GOPubMed中,通过语义智能检索,将结果按GO和MeSH进行分类,形成临时GO和临时MeSH,最终将用户检索结果形成可视化的知识分类导航,从而提高了用户的检索效率[张士靖,杜建.GOPubMed:基于GO和MeSH的信息检索与分析研究.医学信息学杂志[J],2009,30,(7):6-11;李健康.专业化的语义智能搜索引擎GoPubMed.图书馆论坛[J],2009,(6):152-154]。
从以往本体相关技术的了解中可知,现有的基于本体的知识导航技术一个缺陷就是,知识挖掘与知识导航没有很好整合。
发明内容
本发明的目的在于解决上述问题,提供了一种基于病毒蛋白质本体的知识导航的方法、装置和系统,在实现知识挖掘的基础上,创立了一种基于病毒蛋白质本体的知识导航的方法,并较好地完成了知识挖掘与知识导航功能的整合。
本发明的技术方案为:本发明揭示了一种基于病毒蛋白质本体的知识导航的方法,包括病毒知识挖掘的流程以及专题文献数据库中的病毒蛋白质本体构建及知识导航流程,其中:
病毒知识挖掘的流程进一步包括:
构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰;
根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库;
专题文献数据库中的病毒蛋白质本体构建及知识导航流程包括:
提取病毒相关术语;
确立病毒相关术语间的关系;
构建病毒蛋白本体,将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,在生成专题文献知识数据仓库的步骤之后还包括:
去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,提取病毒相关术语的步骤包括:
通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,确立病毒相关术语间的关系的步骤包括:
通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,构建病毒蛋白本体的步骤包括:
将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝蛋白本体。
本发明还揭示了一种基于病毒蛋白质本体的知识导航的装置,包括病毒知识挖掘模块以及专题文献数据库中的蛋白质挖掘和发现模块,其中:
病毒知识挖掘模块包括:
数据库构建单元,构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
翻译编撰单元,以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰;
数据仓库生成单元,根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库;
专题文献数据库中的病毒蛋白质本体构建及知识导航模块包括:
术语提取单元,提取病毒相关术语;
关系确立单元,确立病毒相关术语间的关系;
本体构建单元,构建病毒蛋白本体,将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,病毒知识挖掘模块还包括:
非法信息去除单元,去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,翻译编撰单元进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,术语提取单元通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,关系确立单元通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,本体构建单元将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝蛋白本体。
本发明还揭示了一种基于病毒蛋白质本体的知识导航的系统,包括专题文献服务器、病毒本体库服务器、web服务器和查询请求解释器、以及查询请求终端,其中:
查询请求终端,接收用户请求;
web服务器和查询请求解释器,接收用户请求,通过查询请求解释器将用户请求进行规范化处理;
病毒本体库服务器,存放病毒本体构建和管理程序以及构建好的病毒本体库;
专题文献服务器,存放专题文献数据库及文献处理程序和管理程序。
根据本发明的基于病毒蛋白质本体的知识导航的系统的一实施例,查询请求终端的查询方式有关键词请求和本体库知识导航目录查询。
根据本发明的基于病毒蛋白质本体的知识导航的系统的一实施例,病毒是乙肝病毒,专题文献数据库是乙肝专题文献数据库。
本发明对比现有技术有如下的有益效果:本发明将知识挖掘型乙肝专题文献数据库的文本挖掘字典同乙肝病毒蛋白本体进行关联整合,并通过该关联整合,构建出一个应用于乙肝蛋白质挖掘模块的知识组织与分类导航系统,并完成基于乙肝病毒蛋白本体的知识导航功能。与现有技术相比,本发明具有如下的优点:
①通过基于病毒蛋白本体的知识导航服务,读者可较为迅速及准确地获得所需信息及文献。
②本发明与知识挖掘技术相结合,通过病毒蛋白本体中的术语,能在数据库的检索服务中,为用户提供更加准确的检索结果,以方便用户的知识获取与检索效率。
③将病毒蛋白本体的概念应用到文献情报数据库的信息整合与知识挖掘中,可在一定程度上减少在进行知识挖掘时产生的“假阳性”问题,提高知识挖掘的质量与效率。
④通过将病毒蛋白本体引入到文献检索中,使得检索结果不再单一化,而具有其内在的知识结构。
⑤基于病毒蛋白本体的知识导航系统的设计,可避免该研究领域在术语词汇定义中的混乱问题。
⑥使知识挖掘与知识导航功能整合得更为完美。
附图说明
图1示出了本发明的基于病毒蛋白质本体的知识导航的方法的较佳实施例的流程图。
图2示出了本发明的基于病毒蛋白质本体的知识导航的方法的流程示意图。
图3示出了本发明的基于病毒蛋白质本体的知识导航的装置的较佳实施例的原理图。
图4示出了本发明的基于病毒蛋白质本体的知识导航的系统的较佳实施例的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
基于病毒蛋白质本体的知识导航的方法的实施例
图1和图2示出了本发明的基于病毒蛋白质本体的知识导航的方法的较佳实施例的流程,请同时参见图1和图2,本实施例的知识导航方法包括病毒知识挖掘的流程(步骤S1-S4)以及专题文献数据库中的病毒蛋白本体构建及知识导航的流程(步骤S5-S7),其实施步骤详述如下。
步骤S1:构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库(来源于国外的全英文数据库)。
步骤S2:以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰。
进行病毒蛋白质相关文本挖掘字典的翻译和编撰的目的是使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
步骤S3:根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库。
步骤S4:去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。这是一个可选步骤。
步骤S5:提取病毒相关术语。
通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
步骤S6:确立病毒相关术语间的关系。
通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
步骤S7:构建病毒蛋白本体,将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
在本发明中,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝蛋白本体。
基于病毒蛋白质本体的知识导航的装置的实施例
图3示出了本发明的基于病毒蛋白质本体的知识导航的装置的较佳实施例的原理,请参见图3,本实施例的知识导航装置包括病毒知识挖掘模块1以及专题文献数据库中的病毒蛋白本体构建及知识导航模块2。
病毒知识挖掘模块1包括数据库构建单元11、翻译编撰单元12、数据仓库生成单元13、以及非法信息去除单元14(可选单元)。
数据库构建单元11构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库。
翻译编撰单元12以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰,目的是使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
数据仓库生成单元13根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库。
非法信息去除单元14去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
专题文献数据库中的病毒蛋白本体构建及知识导航模块2包括术语提取单元21、关系确立单元22、本体构建单元23。
术语提取单元21提取病毒相关术语,通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
关系确立单元22确立病毒相关术语间的关系,通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
本体构建单元23构建病毒蛋白本体,将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
在本实施例中,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝蛋白本体。
基于病毒蛋白质本体的知识导航的系统的实施例
图4示出了本发明的基于病毒蛋白质本体的知识导航的系统的较佳实施例的结构,请参见图4,本实施例的系统包括专题文献服务器3、病毒本体库服务器4、web服务器和查询请求解释器5、以及查询请求终端6。
查询请求终端6接收用户请求。查询请求终端6的查询方式有关键词请求和本体库知识导航目录查询。
web服务器和查询请求解释器5接收用户请求,通过查询请求解释器将用户请求进行规范化处理(如通过同义词典将用户请求转化为标准化的本体名称,自动更正错别字,自动将用空格分隔的关键词连接为组合的查询条件等)。
病毒本体库服务器4存放病毒本体构建和管理程序以及构建好的病毒本体库。
专题文献服务器3存放专题文献数据库及文献处理(知识挖掘)程序和管理程序。
在本实施例中,病毒是乙肝病毒,专题文献数据库是乙肝专题文献数据库。
上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书所提到的创新性特征的最大范围。

Claims (14)

1.一种基于病毒蛋白质本体的知识导航的方法,包括病毒知识挖掘的流程以及专题文献数据库中的蛋白质挖掘和发现的流程,其中:
病毒知识挖掘的流程进一步包括:
构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰;
根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库;
专题文献数据库中的病毒蛋白质本体的构建及知识导航流程包括:
提取病毒相关术语;
确立病毒相关术语间的关系;
构建病毒蛋白本体,将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航功能。
2.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,在生成专题文献知识数据仓库的步骤之后还包括:
去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
3.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本的挖掘和标注。
4.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,提取病毒相关术语的步骤包括:
通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
5.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,确立病毒相关术语间的关系的步骤包括:
通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
6.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,构建病毒蛋白本体的步骤包括:
将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
7.根据权利要求1-6中任一项所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝病毒蛋白本体。
8.一种基于病毒蛋白质本体的知识导航的装置,包括病毒知识挖掘模块以及专题文献数据库中的蛋白质挖掘和发现模块,其中:
病毒知识挖掘模块包括:
数据库构建单元,构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
翻译编撰单元,以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰;
数据仓库生成单元,根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库;
专题文献数据库中的病毒蛋白质本体构建及知识导航模块包括:
术语提取单元,提取病毒相关术语;
关系确立单元,确立病毒相关术语间的关系;
本体构建单元,构建病毒蛋白本体,将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
9.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,病毒知识挖掘模块还包括:
非法信息去除单元,去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
10.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,翻译编撰单元进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
11.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,术语提取单元通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
12.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,关系确立单元通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
13.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,本体构建单元将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
14.根据权利要求8-13中任一项所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝病毒蛋白本体。
CN201310391096.4A 2013-08-30 2013-08-30 一种基于病毒蛋白质本体的知识导航的方法、装置 Active CN104424399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310391096.4A CN104424399B (zh) 2013-08-30 2013-08-30 一种基于病毒蛋白质本体的知识导航的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310391096.4A CN104424399B (zh) 2013-08-30 2013-08-30 一种基于病毒蛋白质本体的知识导航的方法、装置

Publications (2)

Publication Number Publication Date
CN104424399A CN104424399A (zh) 2015-03-18
CN104424399B true CN104424399B (zh) 2018-02-23

Family

ID=52973343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310391096.4A Active CN104424399B (zh) 2013-08-30 2013-08-30 一种基于病毒蛋白质本体的知识导航的方法、装置

Country Status (1)

Country Link
CN (1) CN104424399B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933846A (zh) * 2015-12-30 2017-07-07 中国医学科学院医学信息研究所 肿瘤相关科学文献和科学数据的非结构化整合分析方法
CN107247863A (zh) * 2017-04-18 2017-10-13 北京水母科技有限公司 整合高通量基因分型与临床医学信息的生物医学本体集成方法
CN108804461A (zh) * 2017-05-03 2018-11-13 中国科学院上海生命科学研究院 一种基因序列与专利整合关联的方法与系统
CN111710365B (zh) * 2020-06-10 2022-04-08 山东省计算中心(国家超级计算济南中心) 一种基于本体的蛋白质/基因同义词表构建方法
CN113611365B (zh) * 2021-06-29 2024-03-26 中国科学院微生物研究所 冠状病毒信息数据的处理方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847181A (zh) * 2010-04-30 2010-09-29 天津大学 一种组织特异性基因及调控因子数据存储方法
CN101930502A (zh) * 2010-09-03 2010-12-29 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及系统
CN102622346A (zh) * 2011-01-26 2012-08-01 中国科学院上海生命科学研究院 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847181A (zh) * 2010-04-30 2010-09-29 天津大学 一种组织特异性基因及调控因子数据存储方法
CN101930502A (zh) * 2010-09-03 2010-12-29 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及系统
CN102622346A (zh) * 2011-01-26 2012-08-01 中国科学院上海生命科学研究院 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
生命科学文献信息挖掘初探;张永娟,等.;《图书情报工作网刊》;20100831;第1-5页 *

Also Published As

Publication number Publication date
CN104424399A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
CN110717049B (zh) 一种面向文本数据的威胁情报知识图谱构建方法
CN108874878A (zh) 一种知识图谱的构建系统及方法
EP3671526B1 (en) Dependency graph based natural language processing
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN104424399B (zh) 一种基于病毒蛋白质本体的知识导航的方法、装置
CN111538844B (zh) 目标领域知识库的生成、问题解答方法及装置
US10803254B2 (en) Systematic tuning of text analytic annotators
CN110888943B (zh) 基于微模板的法院裁判文书辅助生成的方法和系统
US20200356726A1 (en) Dependency graph based natural language processing
CN105787134B (zh) 智能问答方法、装置及系统
US9311058B2 (en) Jabba language
CN109933671A (zh) 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN112860263B (zh) 一种基于智能合约知识图谱的合约缺陷检测方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN113742493A (zh) 一种病理知识图谱的构建方法及装置
CN105550169A (zh) 一种基于字符长度识别兴趣点名称的方法和装置
Kamalabalan et al. Tool support for traceability of software artefacts
CN103106211B (zh) 客户咨询文本的情感识别方法及装置
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
CN110795456B (zh) 图谱的查询方法、装置、计算机设备以及存储介质
Wang A cross-domain natural language interface to databases using adversarial text method
Barbosa et al. An approach to clustering and sequencing of textual requirements
CN112732969A (zh) 图像语义分析方法、装置、存储介质及电子设备
CN114860852A (zh) 一种面向军事领域的知识图谱构建方法
Bogatu et al. SynthEdit: Format transformations by example using edit operations.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 200031 Yueyang Road, Shanghai, No. 319, No.

Patentee after: Shanghai Institute of nutrition and health, Chinese Academy of Sciences

Address before: 200031 Yueyang Road, Shanghai, No. 319, No.

Patentee before: SHANGHAI INSTITUTES FOR BIOLOGICAL SCIENCES, CHINESE ACADEMY OF SCIENCES

CP01 Change in the name or title of a patent holder