CN104424399B - 一种基于病毒蛋白质本体的知识导航的方法、装置 - Google Patents
一种基于病毒蛋白质本体的知识导航的方法、装置 Download PDFInfo
- Publication number
- CN104424399B CN104424399B CN201310391096.4A CN201310391096A CN104424399B CN 104424399 B CN104424399 B CN 104424399B CN 201310391096 A CN201310391096 A CN 201310391096A CN 104424399 B CN104424399 B CN 104424399B
- Authority
- CN
- China
- Prior art keywords
- protein
- knowledge
- virus
- virus protein
- navigation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 109
- 241000700605 Viruses Species 0.000 title claims abstract description 105
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000005065 mining Methods 0.000 claims abstract description 58
- 230000010354 integration Effects 0.000 claims abstract description 29
- 208000002672 hepatitis B Diseases 0.000 claims abstract description 18
- 230000008520 organization Effects 0.000 claims abstract description 11
- 241000700721 Hepatitis B virus Species 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims abstract description 6
- 238000010276 construction Methods 0.000 claims description 20
- 238000013519 translation Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000007418 data mining Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 230000004853 protein function Effects 0.000 claims description 6
- 208000015181 infectious disease Diseases 0.000 claims description 5
- 238000009412 basement excavation Methods 0.000 claims 13
- 230000003612 virological effect Effects 0.000 claims 8
- 239000000470 constituent Substances 0.000 claims 2
- 230000017613 viral reproduction Effects 0.000 claims 2
- 241000709715 Hepatovirus Species 0.000 claims 1
- 231100000614 poison Toxicity 0.000 claims 1
- 230000007096 poisonous effect Effects 0.000 claims 1
- 238000002214 protein ontology Methods 0.000 abstract description 73
- 108010067390 Viral Proteins Proteins 0.000 description 41
- 238000005516 engineering process Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于病毒蛋白质本体的知识导航的方法、装置和系统,在实现知识挖掘的基础上,创立了一种基于病毒蛋白质本体的知识导航的方法,并较好地完成了知识挖掘与知识导航功能的整合。其技术方案为:本发明将知识挖掘型乙肝专题文献数据库的文本挖掘字典同乙肝病毒蛋白本体进行关联整合,并通过该关联整合,构建出一个应用于乙肝蛋白质挖掘模块的知识组织与分类导航系统,并完成基于乙肝病毒蛋白本体的知识导航功能。
Description
技术领域
本发明涉及知识导航技术,尤其涉及能够提供基于病毒蛋白本体的知识导航服务的技术。
背景技术
本体的一个普遍公认的概念定义为:共享概念模型的、明确的、形式化的规范说明[Studer R,Benjamins VR,Fensel D.Knowledge engineering,principles andmethods.Data and Knowledge engineering[J],1998,25],从该定义可以看出本体主要包含了4重含义:共享、概念模型、明确和形式化。简单的讲,就是用了描述一个领域内甚至更广的范围内的概念以及概念之间的关系,从而形成大家公认的,明确的概念以及关系的定义,进而实现人机以及计算机之间的交流[杜小勇,李曼,王珊.本体学习研究综述.软件学报[J],2006,(9):1837-1847]。
随着各学科领域对本体的深入研究,各领域本体的研究构建也正在迅速的趋于成熟。本体作为能在语义和知识层次上描述系统的概念模型,其目的是在于以一种通用的方式来获取领域中的知识,提供对领域概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重复利用,本体是某一领域中的术语及术语之间关系的规范说明,目前基于本体的应用目的主要是针对知识组织管理,语义网络和人工智能等方面[刘耀,穗志方.领域ontology概念描述体系构建方法探析.大学图书馆学报[J],2006,(5):28-33]。在生命科学领域,生物学不同研究领域的本体在不断被研发、构建和相继出现,如基因本体(Gene Ontology)[Gene ontology tool for the unification of biology.GeneOntology Consortium]、蛋白本体(Protein Ontology)[Darren A Natale,Cecilia NArighi,Winona C Barker,Judith Blake,Ti-Cheng Chang,Zhangzhi Hu,Hongfang Liu,Barry Smith and Cathy H Wu.Framework for a Protein Ontology.BMCBioinformatics[J]2007,8(Suppl 9):S1]、序列本体(Sequence Ontology)[KarenEilbeck and Suzanna E.Lewis.Sequence Ontology Annotation Guide.Comparativeand Functional GenomicsVolume[J],2004,5,(8):642-647]以及疾病本体(DiseaseOntology)[Pan Du,Gang Feng,Jared Flatow,Jie Song,Michelle Holko,WarrenA.Kibbe and Simon M.Lin.From disease ontology to disease-ontology lite:statistical methods to adapt a general-purpose ontology for the test of gene-ontology associations.BioInformatics[J],2009,25(12)]等等,这些都推动了生物学领域本体的发展。将本体应用到信息整合与知识挖掘过程中,不仅能够很好的对知识进行组织分类和导航,而且能够更好地引导用户进行信息的检索分析[陈霞,魏玲玲,邱桃荣,刘萍.基于本体论的关联规则的挖掘.计算机与数字工程,2007,(2):32-34]。此外,本体为专业领域提供了一套共享的规范说明,使其术语达到了领域共识,因而能够更好地实现知识的组织、管理、导航、发现与抽取,提高知识的挖掘质量与效率[邢平平,施鹏飞,赵奕.基于本体论的数据挖掘方法.计算机工程,2001,(5)]。就目前研究现状而言,在生命科学领域,将本体应用到知识组织管理与导航的技术在国外已有过一些报道,而在国内几乎还是个空白。一个比较有名的例子是,由德国Transinsight公司和德累斯顿技术大学的生物信息集团合作,将本体同信息整合和数据挖掘相整合,联合开发了一个比较新的信息检索技术:GOPubMed[Heiko Dietze,Dimitra Alexopoulou,Michael R.Alvers,Liliana Barrio-Alvers,Bill Andreopoulos,Andreas Doms,Jo¨rg Hakenberg,Jan Mo¨nnich,ConradPlake,Andreas Reischuck,Lo1¨c Royer,Thomas Wa¨chter,Matthias Zschunke,andMichael Schroeder.GoPubMed:Exploring PubMed with Ontological BackgroundKnowledge.Bioinformatics for Systems Biology[J],2009,Part V,385-399]。它是一种基于GO(基因本体)和MeSH(医学主题词表)的检索技术,其将PubMed的检索结果返回到GOPubMed中,通过语义智能检索,将结果按GO和MeSH进行分类,形成临时GO和临时MeSH,最终将用户检索结果形成可视化的知识分类导航,从而提高了用户的检索效率[张士靖,杜建.GOPubMed:基于GO和MeSH的信息检索与分析研究.医学信息学杂志[J],2009,30,(7):6-11;李健康.专业化的语义智能搜索引擎GoPubMed.图书馆论坛[J],2009,(6):152-154]。
从以往本体相关技术的了解中可知,现有的基于本体的知识导航技术一个缺陷就是,知识挖掘与知识导航没有很好整合。
发明内容
本发明的目的在于解决上述问题,提供了一种基于病毒蛋白质本体的知识导航的方法、装置和系统,在实现知识挖掘的基础上,创立了一种基于病毒蛋白质本体的知识导航的方法,并较好地完成了知识挖掘与知识导航功能的整合。
本发明的技术方案为:本发明揭示了一种基于病毒蛋白质本体的知识导航的方法,包括病毒知识挖掘的流程以及专题文献数据库中的病毒蛋白质本体构建及知识导航流程,其中:
病毒知识挖掘的流程进一步包括:
构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰;
根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库;
专题文献数据库中的病毒蛋白质本体构建及知识导航流程包括:
提取病毒相关术语;
确立病毒相关术语间的关系;
构建病毒蛋白本体,将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,在生成专题文献知识数据仓库的步骤之后还包括:
去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,提取病毒相关术语的步骤包括:
通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,确立病毒相关术语间的关系的步骤包括:
通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,构建病毒蛋白本体的步骤包括:
将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
根据本发明的基于病毒蛋白质本体的知识导航的方法的一实施例,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝蛋白本体。
本发明还揭示了一种基于病毒蛋白质本体的知识导航的装置,包括病毒知识挖掘模块以及专题文献数据库中的蛋白质挖掘和发现模块,其中:
病毒知识挖掘模块包括:
数据库构建单元,构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
翻译编撰单元,以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰;
数据仓库生成单元,根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库;
专题文献数据库中的病毒蛋白质本体构建及知识导航模块包括:
术语提取单元,提取病毒相关术语;
关系确立单元,确立病毒相关术语间的关系;
本体构建单元,构建病毒蛋白本体,将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,病毒知识挖掘模块还包括:
非法信息去除单元,去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,翻译编撰单元进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,术语提取单元通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,关系确立单元通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,本体构建单元将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
根据本发明的基于病毒蛋白质本体的知识导航的装置的一实施例,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝蛋白本体。
本发明还揭示了一种基于病毒蛋白质本体的知识导航的系统,包括专题文献服务器、病毒本体库服务器、web服务器和查询请求解释器、以及查询请求终端,其中:
查询请求终端,接收用户请求;
web服务器和查询请求解释器,接收用户请求,通过查询请求解释器将用户请求进行规范化处理;
病毒本体库服务器,存放病毒本体构建和管理程序以及构建好的病毒本体库;
专题文献服务器,存放专题文献数据库及文献处理程序和管理程序。
根据本发明的基于病毒蛋白质本体的知识导航的系统的一实施例,查询请求终端的查询方式有关键词请求和本体库知识导航目录查询。
根据本发明的基于病毒蛋白质本体的知识导航的系统的一实施例,病毒是乙肝病毒,专题文献数据库是乙肝专题文献数据库。
本发明对比现有技术有如下的有益效果:本发明将知识挖掘型乙肝专题文献数据库的文本挖掘字典同乙肝病毒蛋白本体进行关联整合,并通过该关联整合,构建出一个应用于乙肝蛋白质挖掘模块的知识组织与分类导航系统,并完成基于乙肝病毒蛋白本体的知识导航功能。与现有技术相比,本发明具有如下的优点:
①通过基于病毒蛋白本体的知识导航服务,读者可较为迅速及准确地获得所需信息及文献。
②本发明与知识挖掘技术相结合,通过病毒蛋白本体中的术语,能在数据库的检索服务中,为用户提供更加准确的检索结果,以方便用户的知识获取与检索效率。
③将病毒蛋白本体的概念应用到文献情报数据库的信息整合与知识挖掘中,可在一定程度上减少在进行知识挖掘时产生的“假阳性”问题,提高知识挖掘的质量与效率。
④通过将病毒蛋白本体引入到文献检索中,使得检索结果不再单一化,而具有其内在的知识结构。
⑤基于病毒蛋白本体的知识导航系统的设计,可避免该研究领域在术语词汇定义中的混乱问题。
⑥使知识挖掘与知识导航功能整合得更为完美。
附图说明
图1示出了本发明的基于病毒蛋白质本体的知识导航的方法的较佳实施例的流程图。
图2示出了本发明的基于病毒蛋白质本体的知识导航的方法的流程示意图。
图3示出了本发明的基于病毒蛋白质本体的知识导航的装置的较佳实施例的原理图。
图4示出了本发明的基于病毒蛋白质本体的知识导航的系统的较佳实施例的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
基于病毒蛋白质本体的知识导航的方法的实施例
图1和图2示出了本发明的基于病毒蛋白质本体的知识导航的方法的较佳实施例的流程,请同时参见图1和图2,本实施例的知识导航方法包括病毒知识挖掘的流程(步骤S1-S4)以及专题文献数据库中的病毒蛋白本体构建及知识导航的流程(步骤S5-S7),其实施步骤详述如下。
步骤S1:构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库(来源于国外的全英文数据库)。
步骤S2:以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰。
进行病毒蛋白质相关文本挖掘字典的翻译和编撰的目的是使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
步骤S3:根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库。
步骤S4:去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。这是一个可选步骤。
步骤S5:提取病毒相关术语。
通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
步骤S6:确立病毒相关术语间的关系。
通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
步骤S7:构建病毒蛋白本体,将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
在本发明中,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝蛋白本体。
基于病毒蛋白质本体的知识导航的装置的实施例
图3示出了本发明的基于病毒蛋白质本体的知识导航的装置的较佳实施例的原理,请参见图3,本实施例的知识导航装置包括病毒知识挖掘模块1以及专题文献数据库中的病毒蛋白本体构建及知识导航模块2。
病毒知识挖掘模块1包括数据库构建单元11、翻译编撰单元12、数据仓库生成单元13、以及非法信息去除单元14(可选单元)。
数据库构建单元11构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库。
翻译编撰单元12以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰,目的是使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
数据仓库生成单元13根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库。
非法信息去除单元14去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
专题文献数据库中的病毒蛋白本体构建及知识导航模块2包括术语提取单元21、关系确立单元22、本体构建单元23。
术语提取单元21提取病毒相关术语,通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
关系确立单元22确立病毒相关术语间的关系,通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
本体构建单元23构建病毒蛋白本体,将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
在本实施例中,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝蛋白本体。
基于病毒蛋白质本体的知识导航的系统的实施例
图4示出了本发明的基于病毒蛋白质本体的知识导航的系统的较佳实施例的结构,请参见图4,本实施例的系统包括专题文献服务器3、病毒本体库服务器4、web服务器和查询请求解释器5、以及查询请求终端6。
查询请求终端6接收用户请求。查询请求终端6的查询方式有关键词请求和本体库知识导航目录查询。
web服务器和查询请求解释器5接收用户请求,通过查询请求解释器将用户请求进行规范化处理(如通过同义词典将用户请求转化为标准化的本体名称,自动更正错别字,自动将用空格分隔的关键词连接为组合的查询条件等)。
病毒本体库服务器4存放病毒本体构建和管理程序以及构建好的病毒本体库。
专题文献服务器3存放专题文献数据库及文献处理(知识挖掘)程序和管理程序。
在本实施例中,病毒是乙肝病毒,专题文献数据库是乙肝专题文献数据库。
上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书所提到的创新性特征的最大范围。
Claims (14)
1.一种基于病毒蛋白质本体的知识导航的方法,包括病毒知识挖掘的流程以及专题文献数据库中的蛋白质挖掘和发现的流程,其中:
病毒知识挖掘的流程进一步包括:
构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰;
根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库;
专题文献数据库中的病毒蛋白质本体的构建及知识导航流程包括:
提取病毒相关术语;
确立病毒相关术语间的关系;
构建病毒蛋白本体,将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航功能。
2.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,在生成专题文献知识数据仓库的步骤之后还包括:
去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
3.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本的挖掘和标注。
4.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,提取病毒相关术语的步骤包括:
通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
5.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,确立病毒相关术语间的关系的步骤包括:
通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
6.根据权利要求1所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,构建病毒蛋白本体的步骤包括:
将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
7.根据权利要求1-6中任一项所述的基于病毒蛋白质本体的知识导航的方法,其特征在于,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝病毒蛋白本体。
8.一种基于病毒蛋白质本体的知识导航的装置,包括病毒知识挖掘模块以及专题文献数据库中的蛋白质挖掘和发现模块,其中:
病毒知识挖掘模块包括:
数据库构建单元,构建专题文献知识数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
翻译编撰单元,以现存的蛋白质科学数据型数据库的标准控制词表为依据,以专题文献知识数据库中出现的病毒蛋白质名词为挖掘和发现对象,进行病毒蛋白质相关文本挖掘字典的翻译和编撰;
数据仓库生成单元,根据国外蛋白质科学数据型数据库提供的协议将标识号转换成超链接信息,生成面向主题和应用的专题文献知识数据仓库;
专题文献数据库中的病毒蛋白质本体构建及知识导航模块包括:
术语提取单元,提取病毒相关术语;
关系确立单元,确立病毒相关术语间的关系;
本体构建单元,构建病毒蛋白本体,将知识挖掘型专题文献数据库的文本挖掘字典和病毒蛋白本体进行关联整合,并通过整合关联,构建应用于蛋白质挖掘模块的知识组织与分类导航,完成基于病毒蛋白本体的知识导航。
9.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,病毒知识挖掘模块还包括:
非法信息去除单元,去除数据挖掘和信息整合结果中的非法信息,去除假阳性蛋白质挖掘结果。
10.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,翻译编撰单元进行病毒蛋白质相关文本挖掘字典的翻译和编撰使得专题文献知识数据库中的病毒蛋白质名词与蛋白质科学数据库的标准控制词表进行一一对应的关联和整合,实现对专题文献基础数据库的病毒蛋白质相关文本挖掘和标注。
11.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,术语提取单元通过对病毒生活史的学习和理解,从中提取代表性的术语词汇、蛋白质名称以及对术语词汇的解释和蛋白质功能的注释,并对这些词汇及蛋白质名词进行整理分类,划分为感染过程相关术语、结构组分相关术语以及蛋白质名称。
12.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,关系确立单元通过学习与理解,分析提取出的术语间存在的属性关系,并最终确定具有代表性的关系属性。
13.根据权利要求8所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,本体构建单元将术语、术语注释以及关系属性进行关联整合,构建出一个蛋白本体框架,并最终通过反复分析修改更正来完善该本体。
14.根据权利要求8-13中任一项所述的基于病毒蛋白质本体的知识导航的装置,其特征在于,病毒是乙肝病毒,专题文献知识数据库是乙肝专题文献知识数据库,蛋白本体是乙肝病毒蛋白本体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310391096.4A CN104424399B (zh) | 2013-08-30 | 2013-08-30 | 一种基于病毒蛋白质本体的知识导航的方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310391096.4A CN104424399B (zh) | 2013-08-30 | 2013-08-30 | 一种基于病毒蛋白质本体的知识导航的方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104424399A CN104424399A (zh) | 2015-03-18 |
CN104424399B true CN104424399B (zh) | 2018-02-23 |
Family
ID=52973343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310391096.4A Active CN104424399B (zh) | 2013-08-30 | 2013-08-30 | 一种基于病毒蛋白质本体的知识导航的方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104424399B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933846A (zh) * | 2015-12-30 | 2017-07-07 | 中国医学科学院医学信息研究所 | 肿瘤相关科学文献和科学数据的非结构化整合分析方法 |
CN107247863A (zh) * | 2017-04-18 | 2017-10-13 | 北京水母科技有限公司 | 整合高通量基因分型与临床医学信息的生物医学本体集成方法 |
CN108804461A (zh) * | 2017-05-03 | 2018-11-13 | 中国科学院上海生命科学研究院 | 一种基因序列与专利整合关联的方法与系统 |
CN111710365B (zh) * | 2020-06-10 | 2022-04-08 | 山东省计算中心(国家超级计算济南中心) | 一种基于本体的蛋白质/基因同义词表构建方法 |
CN113611365B (zh) * | 2021-06-29 | 2024-03-26 | 中国科学院微生物研究所 | 冠状病毒信息数据的处理方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847181A (zh) * | 2010-04-30 | 2010-09-29 | 天津大学 | 一种组织特异性基因及调控因子数据存储方法 |
CN101930502A (zh) * | 2010-09-03 | 2010-12-29 | 深圳华大基因科技有限公司 | 表型基因的检测及生物信息分析的方法及系统 |
CN102622346A (zh) * | 2011-01-26 | 2012-08-01 | 中国科学院上海生命科学研究院 | 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统 |
-
2013
- 2013-08-30 CN CN201310391096.4A patent/CN104424399B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847181A (zh) * | 2010-04-30 | 2010-09-29 | 天津大学 | 一种组织特异性基因及调控因子数据存储方法 |
CN101930502A (zh) * | 2010-09-03 | 2010-12-29 | 深圳华大基因科技有限公司 | 表型基因的检测及生物信息分析的方法及系统 |
CN102622346A (zh) * | 2011-01-26 | 2012-08-01 | 中国科学院上海生命科学研究院 | 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统 |
Non-Patent Citations (1)
Title |
---|
生命科学文献信息挖掘初探;张永娟,等.;《图书情报工作网刊》;20100831;第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104424399A (zh) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753099B (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
CN108256063B (zh) | 一种面向网络安全的知识库构建方法 | |
CN110555153A (zh) | 一种基于领域知识图谱的问答系统及其构建方法 | |
Hendler | Data integration for heterogenous datasets | |
CN107391677B (zh) | 携带实体关系属性的中文通用知识图谱的生成方法及装置 | |
US20160335544A1 (en) | Method and Apparatus for Generating a Knowledge Data Model | |
CN110597999A (zh) | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 | |
CN109002516A (zh) | 一种搜索方法及装置 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN104424399B (zh) | 一种基于病毒蛋白质本体的知识导航的方法、装置 | |
US11816156B2 (en) | Ontology index for content mapping | |
CN104572849A (zh) | 基于文本语义挖掘的标准化自动建档方法 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
US9311058B2 (en) | Jabba language | |
CN106446162A (zh) | 一种面向领域的本体知识库文本检索方法 | |
Yeganeh et al. | Linking semistructured data on the web | |
Schorlemmer et al. | Institutionalising ontology-based semantic integration | |
CN105302842A (zh) | 一种数据处理方法及装置 | |
Wang | A cross-domain natural language interface to databases using adversarial text method | |
Zhang et al. | Construction of fuzzy ontologies from fuzzy XML models | |
Sonakneware et al. | Ontology based approach for domain specific semantic information retrieval system | |
CN114742063A (zh) | 一种用于知识图谱构件的句式语意分析方法 | |
Jalal et al. | A web content mining application for detecting relevant pages using Jaccard similarity | |
CN102521239B (zh) | 一种基于owl的互联网问答信息匹配系统及其匹配方法 | |
CN113934430A (zh) | 数据检索分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 200031 Yueyang Road, Shanghai, No. 319, No. Patentee after: Shanghai Institute of nutrition and health, Chinese Academy of Sciences Address before: 200031 Yueyang Road, Shanghai, No. 319, No. Patentee before: SHANGHAI INSTITUTES FOR BIOLOGICAL SCIENCES, CHINESE ACADEMY OF SCIENCES |