CN102622346A - 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统 - Google Patents

中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统 Download PDF

Info

Publication number
CN102622346A
CN102622346A CN2011100280668A CN201110028066A CN102622346A CN 102622346 A CN102622346 A CN 102622346A CN 2011100280668 A CN2011100280668 A CN 2011100280668A CN 201110028066 A CN201110028066 A CN 201110028066A CN 102622346 A CN102622346 A CN 102622346A
Authority
CN
China
Prior art keywords
protein
database
chinese
data
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100280668A
Other languages
English (en)
Other versions
CN102622346B (zh
Inventor
陈恒
赵�衍
孙继林
陈成材
张永娟
汤江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai international studies university
Shanghai Institutes for Biological Sciences SIBS of CAS
Original Assignee
Shanghai international studies university
Shanghai Institutes for Biological Sciences SIBS of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai international studies university, Shanghai Institutes for Biological Sciences SIBS of CAS filed Critical Shanghai international studies university
Priority to CN201110028066.8A priority Critical patent/CN102622346B/zh
Publication of CN102622346A publication Critical patent/CN102622346A/zh
Application granted granted Critical
Publication of CN102622346B publication Critical patent/CN102622346B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统,可实现在中文的生命科学文献数据库中的蛋白质知识的挖掘和发现。其技术方案为:方法包括:构建中文文献数据库和科学数据型数据库;以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰;根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成面向主题和应用的中文文献数据仓库;去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。

Description

中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统
技术领域
本发明涉及蛋白质知识挖掘和发现技术,尤其涉及针对中文文献数据库的蛋白质知识的挖掘和发现技术。
背景技术
文献知识挖掘是指从文献中提取、整合并发现有用信息和知识点的过程,通过文献知识挖掘能够快速处理大量文献并得到特定领域的知识,文献知识挖掘涉及到数据挖掘、文本挖掘、自然语言处理和信息整合等多个研究领域。
以生命科学文献知识挖掘为例来说明,生命科学文献知识挖掘研究的主要内容分为信息检索,实体识别,信息提取,文本挖掘和信息集成与整合等五个部分[朱小燕,李娇.生物学文献挖掘[J].计算机教育,2006,9:11-15]。五部分的任务各不相同,前面问题的解决构成了后面部分研究与发展的基础。就目前研究现状而言,从信息检索到信息集成与整合,方法研究的成熟度依次递减,而知识挖掘发现的潜力却依次递增。生命科学领域的文本挖掘和信息集成整合则依赖于对本领域知识的理解和应用,更依赖于从科学文献中挖掘出未知的生命科学知识的新理论和新方法。
目前,生命科学研究中的蛋白质知识是文献数据库中挖掘和发现的重点领域之一。世界上不少发达国家均已借助数据挖掘和信息整合技术对英文的生命科学文献数据库进行了大量蛋白质的相关知识挖掘发现研究,实现了英文文献中蛋白质的挖掘发现,为专业研究人员提供了方便获取蛋白质知识及潜在知识的新方法新途径。然而,这些蛋白质知识的挖掘方法和途径还无法在中文的生命科学文献数据库中实现蛋白质的知识挖掘和发现。因此,如何在中文的生命科学文献数据库中实现蛋白质的知识挖掘和发现,则是现有技术方法和途径中有待解决的问题。
发明内容
本发明的目的在于解决上述问题,提供了一种中文文献数据库中的蛋白质知识挖掘和发现的方法,可实现在中文的生命科学文献数据库中的蛋白质知识的挖掘和发现。
本发明的另一目的在于提供了一种中文文献数据库中的蛋白质知识挖掘和发现的装置。
本发明的又一目的在于提供了一种中文文献数据库中的蛋白质知识挖掘和发现的系统。
本发明的技术方案为:本发明揭示了一种中文文献数据库中的蛋白质知识挖掘和发现的方法,包括:
步骤一:构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
步骤二:以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本的挖掘和标注;
步骤三:根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成面向主题和应用的中文文献数据仓库;
步骤四:去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。
根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例,中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库,科学数据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。
根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例,步骤二中有关对中文文献数据库的蛋白质相关文本的挖掘和标注的过程包括:
从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转换和提取,整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典;
抽取英文版文本挖掘工具字典中的序列号、基因名、蛋白质名称及同义词,经过归并处理后得到英文版的字典工具数据表;
对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。
根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例,英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。
本发明还揭示了一种中文文献数据库中的蛋白质知识挖掘和发现的装置,包括:
数据库构建模块,构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
文本挖掘工具字典处理模块,以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本的挖掘和标注;
中文文献数据仓库生成模块,根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成面向主题和应用的中文文献数据仓库;
结果修正模块,去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。
根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例,中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库,科学数据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。
根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例,文本挖掘工具字典处理模块包括:
英文版文本挖掘工具字典整理模块,从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转换和提取,整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典;
英文版字典工具数据表整理模块,抽取英文版文本挖掘工具字典中的序列号、基因名、蛋白质名称及同义词,经过归并处理后得到英文版的字典工具数据表;
双语文本挖掘工具字典整理模块,对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。
根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例,英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。
本发明还揭示了一种中文文献数据库中的蛋白质知识挖掘和发现的系统,包括应用程序服务器、数据库服务器、数据仓库服务器、用户终端,其中:
应用程序服务器,耦接数据仓库服务器,存储蛋白质知识挖掘的算法和规则;
数据库服务器,耦接数据仓库服务器,存储基于第三范式构建的科学数据型数据库、中文文献数据库、蛋白质知识的文本挖掘工具字典库;
数据仓库服务器,由应用程序服务器调用数据库服务器中的文本挖掘工具字典,对中文文献数据库进行知识挖掘的标引而得到,存放经过知识挖掘后而形成的面向主题和应用的、集成化的数据仓库;
用户终端,耦接数据仓库服务器,实现对蛋白质知识的查询和挖掘发现的操作。
根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的系统的一实施例,该系统还包括:
Web服务器,耦接数据仓库服务器和用户终端,将数据仓库服务器中的数据仓库镜像到Web服务器,通过Web应用提供给用户对蛋白质知识的查询和挖掘发现的操作。
本发明对比现有技术有如下的有益效果:本发明的技术特点是构建好含有丰富蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库,以现存的蛋白质科学数据型数据库的标准控制词表为依据,以中文文献数据库中出现的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰,根据国外蛋白质科学数据型数据库提供的协议可将访问号转换成超链接信息。并最终生成面向主题和应用的中文文献数据仓库,最后去除数据挖掘和信息整合结果中的“非法”信息(去除假阳性蛋白质挖掘结果)和修改中文文献文本挖掘结果。
对比现有技术,本发明具有如下的优点:①通过文本挖掘工具字典的控制,可实现中文文献数据库中的蛋白质知识的深度挖掘和发现。②通过挖掘信息的分析和统计,可实现智能化的蛋白质相关知识发现。③通过关键词标引,可实现由人工控制的类自然语言检索。④具有较高的阳性挖掘率。⑤基于B/S结构的知识库系统设计,可保证系统高安全性。
附图说明
图1示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例的流程图。
图2示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例的数据流向示意图。
图3示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的实施例的原理图。
图4示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的系统的实施例的硬件结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例
图1示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例的流程。图2示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例的数据流向。请参见图1和图2,下面是对本实施例的方法的各个步骤的详细描述。
步骤S10:构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库。
中文文献数据库是中国生物学文摘基础数据库(CBA基础数据库,ChineseBiological Abstract基础数据库)和中国生物学文摘数据仓库(CBA数据仓库),科学数据型数据库是欧洲生物信息学研究所(EBI)构建的联合蛋白质数据库(Uniprot数据库,United protein,联合蛋白质)。
步骤S12:以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本的挖掘和标注。
这一步骤可以细分为:
第一步:从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转换和提取,整理出UniProt蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典。
UniProt蛋白质科学数据型数据库实例为:
<entry version=″85″modified=″2008-12-16″dataset=″Swiss-Prot″created=″1986-07-21″>
  <accession>P00888</accession>
  <accession>Q47061</accession>
  <name>AROF_ECOLI</name>
  <protein>
    <recommendedName ref=″1″>
      <fullName>Phospho-2-dehydro-3-deoxyheptonate aldolase,Tyr-sensitive</fullName>
    </recommendedName>
    <alternativeName>
     <fullName>Phospho-2-keto-3-deoxyheptonate aldolase</fullName>
    </alternativeName>
    <alternativeName>
     <fullName>3-deoxy-D-arabino-heptulosonate 7-phosphate synthase</fullName>
    </alternativeName>
    <alternativeName>
     <fullName>DAHP synthetase</fullName>
    </alternativeName>
  </protein>
  <gene>
   <name type=″primary″>aroF</name>
   <name type=″ordered locus″>b2601</name>
   <name type=″ordered locus″>JW2582</name>
</gene>
<organism key=″2″>
  <name type=″scientific″>Escherichia coli(strain K12)</name>
  <dbReference type=″NCBI Taxonomy″key=″3″id=″83333″/>
  <lineage>
    <taxon>Bacteria</taxon>
    <taxon>Proteobacteria</taxon>
    <taxon>Gammaproteobacteria</taxon>
    <taxon>Enterobacteriales</taxon>
    <taxon>Enterobacteriaceae</taxon>
    <taxon>Escherichia</taxon>
  </lineage>
</organism>
第二步:抽取英文版文本挖掘工具字典中的序列号(Accession号)、基因名、蛋白质名称及同义词,经过归并处理后得到英文版的字典工具数据表。
文本挖掘工具字典部分实例如下表:
Figure BDA0000045386260000071
在表中,Accession为CBA文献数据库与EBI的UnitProt蛋白质科学数据库关联的地址,根据一定的规则可转换成超链接地址。Name为UnitProt蛋白质科学数据库中的蛋白质名称及同义词。Cname、Cname2、Cname3为CBA文献数据库中蛋白质名称及同义词。在翻译过程中尽量考虑CBA文献数据库中原始文献所使用的各种同义词,以保证文本挖掘的有效性。如:Atrial natriuretic peptide翻译为心钠素、心钠肽、心房钠尿肽。Heat shock 10kDa protein翻译为热激蛋白10、热休克蛋白10。
第三步:对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。
步骤S14:根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成面向主题和应用的中文文献数据仓库。
步骤S16:去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。
中文文献数据库中的蛋白质知识挖掘和发现的装置的实施例
图3示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的实施例的原理。请参见图3,本实施例的装置包括数据库构建模块10、文本挖掘工具字典处理模块12、中文文献数据仓库生成模块14以及结果修正模块16。
这些模块之间的连接关系是:数据库构建模块10的输出端耦接文本挖掘工具字典处理模块12,文本挖掘工具字典处理模块12的输出端耦接中文文献数据仓库生成模块14,中文文献数据仓库生成模块14耦接结果修正模块16。
数据库构建模块10用于构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库。
中文文献数据库是中国生物学文摘基础数据库(CBA基础数据库,ChineseBiological Abstract基础数据库)和中国生物学文摘数据仓库(CBA数据仓库),科学数据型数据库是欧洲生物信息学研究所(EBI)构建的联合蛋白质数据库(Uniprot数据库,United protein,联合蛋白质)。
文本挖掘工具字典处理模块12以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本的挖掘和标注。
这一模块又可以细分为英文版文本挖掘工具字典整理模块120、英文版字典工具数据表整理模块122以及双语文本挖掘工具字典整理模块124。
英文版文本挖掘工具字典整理模块120从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转换和提取,整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典。
英文版字典工具数据表整理模块122抽取英文版文本挖掘工具字典中的序列号(Accession号)、基因名、蛋白质名称及同义词,经过归并处理后得到英文版的字典工具数据表。其中序列号是基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。
双语文本挖掘工具字典整理模块124对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。
中文文献数据仓库生成模块14是根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成面向主题和应用的中文文献数据仓库。
结果修正模块16用于去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。
中文文献数据库中的蛋白质知识挖掘和发现的系统的实施例
图4示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的系统的实施例的硬件结构。请参见图4,本实施例的系统包括应用程序服务器20、数据库服务器22、数据仓库服务器24、Web服务器26以及用户终端28。其中应用程序服务器20和数据库服务器22的输出端均耦接到数据仓库服务器24,数据仓库服务器24的输出端耦接到Web服务器26,Web服务器26的输出端耦接到用户终端28。
应用程序服务器20存储蛋白质知识挖掘的算法和规则。数据库服务器22存储基于第三范式构建的科学数据型数据库、中文文献数据库、蛋白质知识的文本挖掘工具字典库。
数据仓库服务器24由应用程序服务器20调用数据库服务器22中的文本挖掘工具字典,对中文文献数据库进行知识挖掘的标引而得到,存放经过知识挖掘后而形成的面向主题和应用的、集成化的数据仓库。
Web服务器26将数据仓库服务24器中的数据仓库镜像到Web服务器26,通过Web应用提供给用户对蛋白质知识的查询和挖掘发现的操作。
用户终端28实现对蛋白质知识的查询和挖掘发现的操作。
上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的发明范围并不被上述实施例所限,而应该是符合权利要求书所提到的创新性特征的最大范围。

Claims (10)

1.一种中文文献数据库中的蛋白质知识挖掘和发现的方法,包括:
步骤一:构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
步骤二:以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本的挖掘和标注;
步骤三:根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成面向主题和应用的中文文献数据仓库;
步骤四:去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。
2.根据权利要求1所述的中文文献数据库中的蛋白质知识挖掘和发现的方法,其特征在于,中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库,科学数据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。
3.根据权利要求1所述的中文文献数据库中的蛋白质知识挖掘和发现的方法,其特征在于,步骤二中有关对中文文献数据库的蛋白质相关文本的挖掘和标注的过程包括:
从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转换和提取,整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典;
抽取英文版文本挖掘工具字典中的序列号、基因名、蛋白质名称及同义词,经过归并处理后得到英文版的字典工具数据表;
对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。
4.根据权利要求3所述的中文文献数据库中的蛋白质知识挖掘和发现的方法,其特征在于,英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。
5.一种中文文献数据库中的蛋白质知识挖掘和发现的装置,包括:
数据库构建模块,构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库;
文本挖掘工具字典处理模块,以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本的挖掘和标注;
中文文献数据仓库生成模块,根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成面向主题和应用的中文文献数据仓库;
结果修正模块,去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。
6.根据权利要求5所述的中文文献数据库中的蛋白质知识挖掘和发现的装置,其特征在于,中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库,科学数据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。
7.根据权利要求5所述的中文文献数据库中的蛋白质知识挖掘和发现的装置,其特征在于,文本挖掘工具字典处理模块包括:
英文版文本挖掘工具字典整理模块,从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转换和提取,整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典;
英文版字典工具数据表整理模块,抽取英文版文本挖掘工具字典中的序列号、基因名、蛋白质名称及同义词,经过归并处理后得到英文版的字典工具数据表;
双语文本挖掘工具字典整理模块,对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。
8.根据权利要求7所述的中文文献数据库中的蛋白质知识挖掘和发现的装置,其特征在于,英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。
9.一种中文文献数据库中的蛋白质知识挖掘和发现的系统,包括应用程序服务器、数据库服务器、数据仓库服务器、用户终端,其中:
应用程序服务器,耦接数据仓库服务器,存储蛋白质知识挖掘的算法和规则;
数据库服务器,耦接数据仓库服务器,存储基于第三范式构建的科学数据型数据库、中文文献数据库、蛋白质知识的文本挖掘工具字典库;
数据仓库服务器,由应用程序服务器调用数据库服务器中的文本挖掘工具字典,对中文文献数据库进行知识挖掘的标引而得到,存放经过知识挖掘后而形成的面向主题和应用的、集成化的数据仓库;
用户终端,耦接数据仓库服务器,实现对蛋白质知识的查询和挖掘发现的操作。
10.根据权利要求9所述的中文文献数据库中的蛋白质知识挖掘和发现的系统,其特征在于,该系统还包括:
Web服务器,耦接数据仓库服务器和用户终端,将数据仓库服务器中的数据仓库镜像到Web服务器,通过Web应用提供给用户对蛋白质知识的查询和挖掘发现的操作。
CN201110028066.8A 2011-01-26 2011-01-26 中文文献数据库的蛋白质知识挖掘和发现的方法、装置 Expired - Fee Related CN102622346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110028066.8A CN102622346B (zh) 2011-01-26 2011-01-26 中文文献数据库的蛋白质知识挖掘和发现的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110028066.8A CN102622346B (zh) 2011-01-26 2011-01-26 中文文献数据库的蛋白质知识挖掘和发现的方法、装置

Publications (2)

Publication Number Publication Date
CN102622346A true CN102622346A (zh) 2012-08-01
CN102622346B CN102622346B (zh) 2014-04-09

Family

ID=46562269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110028066.8A Expired - Fee Related CN102622346B (zh) 2011-01-26 2011-01-26 中文文献数据库的蛋白质知识挖掘和发现的方法、装置

Country Status (1)

Country Link
CN (1) CN102622346B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424399A (zh) * 2013-08-30 2015-03-18 中国科学院上海生命科学研究院 一种基于病毒蛋白质本体的知识导航的方法、装置和系统
CN104978347A (zh) * 2014-04-11 2015-10-14 中国中医科学院中医临床基础医学研究所 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统
CN105354201A (zh) * 2014-08-20 2016-02-24 中国科学院上海生命科学研究院 甄别与消除假阳性结果的方法和系统
CN107169310A (zh) * 2017-03-20 2017-09-15 上海基银生物科技有限公司 一种基因检测知识库构建方法及系统
CN108804461A (zh) * 2017-05-03 2018-11-13 中国科学院上海生命科学研究院 一种基因序列与专利整合关联的方法与系统
CN109902673A (zh) * 2019-01-28 2019-06-18 北京明略软件系统有限公司 表格中表头信息识别和整理方法、系统、终端和存储介质
CN111986817A (zh) * 2020-08-21 2020-11-24 南通大学 一种通过ace2筛选新冠covid-19治疗药物的方法
WO2020258254A1 (zh) * 2019-06-28 2020-12-30 北京哲源科技有限责任公司 数据挖掘方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN101344902A (zh) * 2008-07-15 2009-01-14 北京科技大学 一种基于关联分析与关联分类的蛋白质二级结构预测技术
CN101667203A (zh) * 2009-09-04 2010-03-10 北京中易中标电子信息技术有限公司 一种数字化知识挖掘的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN101344902A (zh) * 2008-07-15 2009-01-14 北京科技大学 一种基于关联分析与关联分类的蛋白质二级结构预测技术
CN101667203A (zh) * 2009-09-04 2010-03-10 北京中易中标电子信息技术有限公司 一种数字化知识挖掘的方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424399A (zh) * 2013-08-30 2015-03-18 中国科学院上海生命科学研究院 一种基于病毒蛋白质本体的知识导航的方法、装置和系统
CN104424399B (zh) * 2013-08-30 2018-02-23 中国科学院上海生命科学研究院 一种基于病毒蛋白质本体的知识导航的方法、装置
CN104978347A (zh) * 2014-04-11 2015-10-14 中国中医科学院中医临床基础医学研究所 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统
CN105354201B (zh) * 2014-08-20 2019-02-01 中国科学院上海生命科学研究院 甄别与消除假阳性结果的方法和系统
CN105354201A (zh) * 2014-08-20 2016-02-24 中国科学院上海生命科学研究院 甄别与消除假阳性结果的方法和系统
CN107169310A (zh) * 2017-03-20 2017-09-15 上海基银生物科技有限公司 一种基因检测知识库构建方法及系统
CN107169310B (zh) * 2017-03-20 2020-06-26 上海基银生物科技有限公司 一种基因检测知识库构建方法及系统
CN108804461A (zh) * 2017-05-03 2018-11-13 中国科学院上海生命科学研究院 一种基因序列与专利整合关联的方法与系统
CN109902673A (zh) * 2019-01-28 2019-06-18 北京明略软件系统有限公司 表格中表头信息识别和整理方法、系统、终端和存储介质
WO2020258254A1 (zh) * 2019-06-28 2020-12-30 北京哲源科技有限责任公司 数据挖掘方法及电子设备
CN112567345A (zh) * 2019-06-28 2021-03-26 北京哲源科技有限责任公司 数据挖掘方法及电子设备
CN112567345B (zh) * 2019-06-28 2024-06-04 北京哲源科技有限责任公司 数据挖掘方法及电子设备
CN111986817A (zh) * 2020-08-21 2020-11-24 南通大学 一种通过ace2筛选新冠covid-19治疗药物的方法

Also Published As

Publication number Publication date
CN102622346B (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
CN102622346B (zh) 中文文献数据库的蛋白质知识挖掘和发现的方法、装置
Luoma et al. Exploring cross-sentence contexts for named entity recognition with BERT
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
Peyrard et al. Supervised learning of automatic pyramid for optimization-based multi-document summarization
US20170357642A1 (en) Cross Lingual Search using Multi-Language Ontology for Text Based Communication
Chen et al. Feature assembly method for extracting relations in Chinese
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备
Lee et al. A study on unstructured text mining algorithm through R programming based on data dictionary
Bhatia et al. Clustering glossary terms extracted from large-sized software requirements using FastText
El-Defrawy et al. Cbas: Context based arabic stemmer
Soori et al. Text similarity based on data compression in Arabic
CN102567424B (zh) 一种诗词关联库系统及其实现方法和电子学习设备
Ying et al. CoRTEx: contrastive learning for representing terms via explanations with applications on constructing biomedical knowledge graphs
Udupa et al. Mining named entity transliteration equivalents from comparable corpora
Zhang et al. A comparative evaluation of cross-lingual text annotation techniques
CN110083817B (zh) 一种命名排歧方法、装置、计算机可读存储介质
Sanabila et al. Automatic Wayang Ontology Construction using Relation Extraction from Free Text
Abu Hawas et al. Rule-based approach for Arabic root extraction: new rules to directly extract roots of Arabic words
Patra et al. A novel word clustering and cluster merging technique for named entity recognition
Glushkova et al. Char-RNN and active learning for hashtag segmentation
Kang An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia
Li et al. Improving Kernel-based protein-protein interaction extraction by unsupervised word representation
US20240330591A1 (en) Method and System for Analyzing Texts
CN110175268B (zh) 一种最长匹配资源映射方法
Liu et al. Review and prospect of research on ancient book information processing in China

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140409

Termination date: 20220126