CN104424399B

CN104424399B - 一种基于病毒蛋白质本体的知识导航的方法、装置

Info

Publication number: CN104424399B
Application number: CN201310391096.4A
Authority: CN
Inventors: 陈恒; 张珅; 赵�衍; 张永娟; 陈成材
Original assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Current assignee: Shanghai Institute of Nutrition and Health of CAS
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2018-02-23
Anticipated expiration: 2033-08-30
Also published as: CN104424399A

Abstract

本发明公开了基于病毒蛋白质本体的知识导航的方法、装置和系统，在实现知识挖掘的基础上，创立了一种基于病毒蛋白质本体的知识导航的方法，并较好地完成了知识挖掘与知识导航功能的整合。其技术方案为：本发明将知识挖掘型乙肝专题文献数据库的文本挖掘字典同乙肝病毒蛋白本体进行关联整合，并通过该关联整合，构建出一个应用于乙肝蛋白质挖掘模块的知识组织与分类导航系统，并完成基于乙肝病毒蛋白本体的知识导航功能。

Description

一种基于病毒蛋白质本体的知识导航的方法、装置

技术领域

本发明涉及知识导航技术，尤其涉及能够提供基于病毒蛋白本体的知识导航服务的技术。

背景技术

本体的一个普遍公认的概念定义为：共享概念模型的、明确的、形式化的规范说明[Studer R,Benjamins VR,Fensel D.Knowledge engineering,principles andmethods.Data and Knowledge engineering[J],1998,25]，从该定义可以看出本体主要包含了4重含义：共享、概念模型、明确和形式化。简单的讲，就是用了描述一个领域内甚至更广的范围内的概念以及概念之间的关系，从而形成大家公认的，明确的概念以及关系的定义，进而实现人机以及计算机之间的交流[杜小勇,李曼,王珊.本体学习研究综述.软件学报[J],2006,(9):1837-1847]。

随着各学科领域对本体的深入研究，各领域本体的研究构建也正在迅速的趋于成熟。本体作为能在语义和知识层次上描述系统的概念模型，其目的是在于以一种通用的方式来获取领域中的知识，提供对领域概念的共同一致的理解，从而实现知识在不同的应用程序和组织之间的共享和重复利用，本体是某一领域中的术语及术语之间关系的规范说明，目前基于本体的应用目的主要是针对知识组织管理，语义网络和人工智能等方面[刘耀,穗志方.领域ontology概念描述体系构建方法探析.大学图书馆学报[J],2006,(5):28-33]。在生命科学领域，生物学不同研究领域的本体在不断被研发、构建和相继出现，如基因本体(Gene Ontology)[Gene ontology tool for the unification of biology.GeneOntology Consortium]、蛋白本体(Protein Ontology)[Darren A Natale,Cecilia NArighi,Winona C Barker,Judith Blake,Ti-Cheng Chang,Zhangzhi Hu,Hongfang Liu,Barry Smith and Cathy H Wu.Framework for a Protein Ontology.BMCBioinformatics[J]2007,8(Suppl 9):S1]、序列本体(Sequence Ontology)[KarenEilbeck and Suzanna E.Lewis.Sequence Ontology Annotation Guide.Comparativeand Functional GenomicsVolume[J],2004,5,(8):642-647]以及疾病本体(DiseaseOntology)[Pan Du,Gang Feng,Jared Flatow,Jie Song,Michelle Holko,WarrenA.Kibbe and Simon M.Lin.From disease ontology to disease-ontology lite:statistical methods to adapt a general-purpose ontology for the test of gene-ontology associations.BioInformatics[J],2009,25(12)]等等，这些都推动了生物学领域本体的发展。将本体应用到信息整合与知识挖掘过程中，不仅能够很好的对知识进行组织分类和导航，而且能够更好地引导用户进行信息的检索分析[陈霞,魏玲玲,邱桃荣,刘萍.基于本体论的关联规则的挖掘.计算机与数字工程,2007,(2):32-34]。此外，本体为专业领域提供了一套共享的规范说明，使其术语达到了领域共识，因而能够更好地实现知识的组织、管理、导航、发现与抽取，提高知识的挖掘质量与效率[邢平平,施鹏飞,赵奕.基于本体论的数据挖掘方法.计算机工程,2001,(5)]。就目前研究现状而言，在生命科学领域，将本体应用到知识组织管理与导航的技术在国外已有过一些报道，而在国内几乎还是个空白。一个比较有名的例子是，由德国Transinsight公司和德累斯顿技术大学的生物信息集团合作，将本体同信息整合和数据挖掘相整合，联合开发了一个比较新的信息检索技术：GOPubMed[Heiko Dietze,Dimitra Alexopoulou,Michael R.Alvers,Liliana Barrio-Alvers,Bill Andreopoulos,Andreas Doms,Jo¨rg Hakenberg,Jan Mo¨nnich,ConradPlake,Andreas Reischuck,Lo1¨c Royer,Thomas Wa¨chter,Matthias Zschunke,andMichael Schroeder.GoPubMed:Exploring PubMed with Ontological BackgroundKnowledge.Bioinformatics for Systems Biology[J],2009,Part V,385-399]。它是一种基于GO(基因本体)和MeSH(医学主题词表)的检索技术，其将PubMed的检索结果返回到GOPubMed中，通过语义智能检索，将结果按GO和MeSH进行分类，形成临时GO和临时MeSH，最终将用户检索结果形成可视化的知识分类导航，从而提高了用户的检索效率[张士靖,杜建.GOPubMed：基于GO和MeSH的信息检索与分析研究.医学信息学杂志[J],2009,30,(7):6-11；李健康.专业化的语义智能搜索引擎GoPubMed.图书馆论坛[J],2009,(6):152-154]。

从以往本体相关技术的了解中可知，现有的基于本体的知识导航技术一个缺陷就是，知识挖掘与知识导航没有很好整合。

发明内容

本发明的目的在于解决上述问题，提供了一种基于病毒蛋白质本体的知识导航的方法、装置和系统，在实现知识挖掘的基础上，创立了一种基于病毒蛋白质本体的知识导航的方法，并较好地完成了知识挖掘与知识导航功能的整合。

本发明的技术方案为：本发明揭示了一种基于病毒蛋白质本体的知识导航的方法，包括病毒知识挖掘的流程以及专题文献数据库中的病毒蛋白质本体构建及知识导航流程，其中：

病毒知识挖掘的流程进一步包括：

构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库；

以现存的蛋白质科学数据型数据库的标准控制词表为依据，以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象，进行病毒蛋白质相关文本挖掘字典的翻译和编撰；

根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息，生成面向主题和应用的专题文献知识数据仓库；

专题文献数据库中的病毒蛋白质本体构建及知识导航流程包括：

提取病毒相关术语；

确立病毒相关术语间的关系；

构建病毒蛋白本体，将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合，并通过整合关联，构建应用于蛋白质挖掘模块的知识组织与分类导航，完成基于病毒蛋白本体的知识导航。

根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例，在生成专题文献知识数据仓库的步骤之后还包括：

去除数据挖掘和信息整合结果中的非法信息，去除假阳性蛋白质挖掘结果。

根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例，进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合，实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。

根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例，提取病毒相关术语的步骤包括：

通过对病毒生活史的学习和理解，从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释，并对这些词汇及蛋白质名词进行整理分类，划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。

根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例，确立病毒相关术语间的关系的步骤包括：

通过学习与理解，分析提取出的术语间存在的属性关系，并最终确定具有代表性的关系属性。

根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例，构建病毒蛋白本体的步骤包括：

将术语、术语注释以及关系属性进行关联整合，构建出一个蛋白本体框架，并最终通过反复分析修改更正来完善该本体。

根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例，病毒是乙肝病毒，专题文献知识数据库是乙肝专题文献知识数据库，蛋白本体是乙肝蛋白本体。

本发明还揭示了一种基于病毒蛋白质本体的知识导航的装置，包括病毒知识挖掘模块以及专题文献数据库中的蛋白质挖掘和发现模块，其中：

病毒知识挖掘模块包括：

数据库构建单元，构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库；

翻译编撰单元，以现存的蛋白质科学数据型数据库的标准控制词表为依据，以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象，进行病毒蛋白质相关文本挖掘字典的翻译和编撰；

数据仓库生成单元，根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息，生成面向主题和应用的专题文献知识数据仓库；

专题文献数据库中的病毒蛋白质本体构建及知识导航模块包括：

术语提取单元，提取病毒相关术语；

关系确立单元，确立病毒相关术语间的关系；

本体构建单元，构建病毒蛋白本体，将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合，并通过整合关联，构建应用于蛋白质挖掘模块的知识组织与分类导航，完成基于病毒蛋白本体的知识导航。

根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例，病毒知识挖掘模块还包括：

非法信息去除单元，去除数据挖掘和信息整合结果中的非法信息，去除假阳性蛋白质挖掘结果。

根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例，翻译编撰单元进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合，实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。

根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例，术语提取单元通过对病毒生活史的学习和理解，从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释，并对这些词汇及蛋白质名词进行整理分类，划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。

根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例，关系确立单元通过学习与理解，分析提取出的术语间存在的属性关系，并最终确定具有代表性的关系属性。

根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例，本体构建单元将术语、术语注释以及关系属性进行关联整合，构建出一个蛋白本体框架，并最终通过反复分析修改更正来完善该本体。

根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例，病毒是乙肝病毒，专题文献知识数据库是乙肝专题文献知识数据库，蛋白本体是乙肝蛋白本体。

本发明还揭示了一种基于病毒蛋白质本体的知识导航的系统，包括专题文献服务器、病毒本体库服务器、web服务器和查询请求解释器、以及查询请求终端，其中：

查询请求终端，接收用户请求；

web服务器和查询请求解释器，接收用户请求，通过查询请求解释器将用户请求进行规范化处理；

病毒本体库服务器，存放病毒本体构建和管理程序以及构建好的病毒本体库；

专题文献服务器，存放专题文献数据库及文献处理程序和管理程序。

根据本发明的基于病毒蛋白质本体的知识导航的系统的一实施例，查询请求终端的查询方式有关键词请求和本体库知识导航目录查询。

根据本发明的基于病毒蛋白质本体的知识导航的系统的一实施例，病毒是乙肝病毒，专题文献数据库是乙肝专题文献数据库。

本发明对比现有技术有如下的有益效果：本发明将知识挖掘型乙肝专题文献数据库的文本挖掘字典同乙肝病毒蛋白本体进行关联整合，并通过该关联整合，构建出一个应用于乙肝蛋白质挖掘模块的知识组织与分类导航系统，并完成基于乙肝病毒蛋白本体的知识导航功能。与现有技术相比，本发明具有如下的优点：

①通过基于病毒蛋白本体的知识导航服务，读者可较为迅速及准确地获得所需信息及文献。

②本发明与知识挖掘技术相结合，通过病毒蛋白本体中的术语，能在数据库的检索服务中，为用户提供更加准确的检索结果，以方便用户的知识获取与检索效率。

③将病毒蛋白本体的概念应用到文献情报数据库的信息整合与知识挖掘中，可在一定程度上减少在进行知识挖掘时产生的“假阳性”问题，提高知识挖掘的质量与效率。

④通过将病毒蛋白本体引入到文献检索中，使得检索结果不再单一化，而具有其内在的知识结构。

⑤基于病毒蛋白本体的知识导航系统的设计，可避免该研究领域在术语词汇定义中的混乱问题。

⑥使知识挖掘与知识导航功能整合得更为完美。

附图说明

图1示出了本发明的基于病毒蛋白质本体的知识导航的方法的较佳实施例的流程图。

图2示出了本发明的基于病毒蛋白质本体的知识导航的方法的流程示意图。

图3示出了本发明的基于病毒蛋白质本体的知识导航的装置的较佳实施例的原理图。

图4示出了本发明的基于病毒蛋白质本体的知识导航的系统的较佳实施例的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

基于病毒蛋白质本体的知识导航的方法的实施例

图1和图2示出了本发明的基于病毒蛋白质本体的知识导航的方法的较佳实施例的流程，请同时参见图1和图2，本实施例的知识导航方法包括病毒知识挖掘的流程(步骤S1－S4)以及专题文献数据库中的病毒蛋白本体构建及知识导航的流程(步骤S5－S7)，其实施步骤详述如下。

步骤S1：构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库(来源于国外的全英文数据库)。

步骤S2：以现存的蛋白质科学数据型数据库的标准控制词表为依据，以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象，进行病毒蛋白质相关文本挖掘字典的翻译和编撰。

进行病毒蛋白质相关文本挖掘字典的翻译和编撰的目的是使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合，实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。

步骤S3：根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息，生成面向主题和应用的专题文献知识数据仓库。

步骤S4：去除数据挖掘和信息整合结果中的非法信息，去除假阳性蛋白质挖掘结果。这是一个可选步骤。

步骤S5：提取病毒相关术语。

步骤S6：确立病毒相关术语间的关系。

步骤S7：构建病毒蛋白本体，将术语、术语注释以及关系属性进行关联整合，构建出一个蛋白本体框架，并最终通过反复分析修改更正来完善该本体。

将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合，并通过整合关联，构建应用于蛋白质挖掘模块的知识组织与分类导航，完成基于病毒蛋白本体的知识导航。

在本发明中，病毒是乙肝病毒，专题文献知识数据库是乙肝专题文献知识数据库，蛋白本体是乙肝蛋白本体。

基于病毒蛋白质本体的知识导航的装置的实施例

图3示出了本发明的基于病毒蛋白质本体的知识导航的装置的较佳实施例的原理，请参见图3，本实施例的知识导航装置包括病毒知识挖掘模块1以及专题文献数据库中的病毒蛋白本体构建及知识导航模块2。

病毒知识挖掘模块1包括数据库构建单元11、翻译编撰单元12、数据仓库生成单元13、以及非法信息去除单元14(可选单元)。

数据库构建单元11构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库。

翻译编撰单元12以现存的蛋白质科学数据型数据库的标准控制词表为依据，以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象，进行病毒蛋白质相关文本挖掘字典的翻译和编撰，目的是使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合，实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。

数据仓库生成单元13根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息，生成面向主题和应用的专题文献知识数据仓库。

非法信息去除单元14去除数据挖掘和信息整合结果中的非法信息，去除假阳性蛋白质挖掘结果。

专题文献数据库中的病毒蛋白本体构建及知识导航模块2包括术语提取单元21、关系确立单元22、本体构建单元23。

术语提取单元21提取病毒相关术语，通过对病毒生活史的学习和理解，从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释，并对这些词汇及蛋白质名词进行整理分类，划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。

关系确立单元22确立病毒相关术语间的关系，通过学习与理解，分析提取出的术语间存在的属性关系，并最终确定具有代表性的关系属性。

本体构建单元23构建病毒蛋白本体，将术语、术语注释以及关系属性进行关联整合，构建出一个蛋白本体框架，并最终通过反复分析修改更正来完善该本体。将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合，并通过整合关联，构建应用于蛋白质挖掘模块的知识组织与分类导航，完成基于病毒蛋白本体的知识导航。

在本实施例中，病毒是乙肝病毒，专题文献知识数据库是乙肝专题文献知识数据库，蛋白本体是乙肝蛋白本体。

基于病毒蛋白质本体的知识导航的系统的实施例

图4示出了本发明的基于病毒蛋白质本体的知识导航的系统的较佳实施例的结构，请参见图4，本实施例的系统包括专题文献服务器3、病毒本体库服务器4、web服务器和查询请求解释器5、以及查询请求终端6。

查询请求终端6接收用户请求。查询请求终端6的查询方式有关键词请求和本体库知识导航目录查询。

web服务器和查询请求解释器5接收用户请求，通过查询请求解释器将用户请求进行规范化处理(如通过同义词典将用户请求转化为标准化的本体名称，自动更正错别字，自动将用空格分隔的关键词连接为组合的查询条件等)。

病毒本体库服务器4存放病毒本体构建和管理程序以及构建好的病毒本体库。

专题文献服务器3存放专题文献数据库及文献处理(知识挖掘)程序和管理程序。

在本实施例中，病毒是乙肝病毒，专题文献数据库是乙肝专题文献数据库。

上述实施例是提供给本领域普通技术人员来实现和使用本发明的，本领域普通技术人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求书所提到的创新性特征的最大范围。

Claims

1.一种基于病毒蛋白质本体的知识导航的方法，包括病毒知识挖掘的流程以及专题文献数据库中的蛋白质挖掘和发现的流程，其中：

病毒知识挖掘的流程进一步包括：

专题文献数据库中的病毒蛋白质本体的构建及知识导航流程包括：

提取病毒相关术语；

确立病毒相关术语间的关系；

构建病毒蛋白本体，将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合，并通过整合关联，构建应用于蛋白质挖掘模块的知识组织与分类导航，完成基于病毒蛋白本体的知识导航功能。

2.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法，其特征在于，在生成专题文献知识数据仓库的步骤之后还包括：

3.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法，其特征在于，进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合，实现对专题文献基础数据库的病毒蛋白质相关文本的挖掘和标注。

4.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法，其特征在于，提取病毒相关术语的步骤包括：

5.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法，其特征在于，确立病毒相关术语间的关系的步骤包括：

6.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法，其特征在于，构建病毒蛋白本体的步骤包括：

7.根据权利要求1－6中任一项所述的基于病毒蛋白质本体的知识导航的方法，其特征在于，病毒是乙肝病毒，专题文献知识数据库是乙肝专题文献知识数据库，蛋白本体是乙肝病毒蛋白本体。

8.一种基于病毒蛋白质本体的知识导航的装置，包括病毒知识挖掘模块以及专题文献数据库中的蛋白质挖掘和发现模块，其中：

病毒知识挖掘模块包括：

术语提取单元，提取病毒相关术语；

关系确立单元，确立病毒相关术语间的关系；

9.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置，其特征在于，病毒知识挖掘模块还包括：

10.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置，其特征在于，翻译编撰单元进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合，实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。

11.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置，其特征在于，术语提取单元通过对病毒生活史的学习和理解，从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释，并对这些词汇及蛋白质名词进行整理分类，划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。

12.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置，其特征在于，关系确立单元通过学习与理解，分析提取出的术语间存在的属性关系，并最终确定具有代表性的关系属性。

13.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置，其特征在于，本体构建单元将术语、术语注释以及关系属性进行关联整合，构建出一个蛋白本体框架，并最终通过反复分析修改更正来完善该本体。

14.根据权利要求8－13中任一项所述的基于病毒蛋白质本体的知识导航的装置，其特征在于，病毒是乙肝病毒，专题文献知识数据库是乙肝专题文献知识数据库，蛋白本体是乙肝病毒蛋白本体。