CN102622346A

CN102622346A - 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统

Info

Publication number: CN102622346A
Application number: CN2011100280668A
Authority: CN
Inventors: 陈恒; 赵�衍; 孙继林; 陈成材; 张永娟; 汤江
Original assignee: Shanghai international studies university; Shanghai Institutes for Biological Sciences SIBS of CAS
Current assignee: Shanghai international studies university; Shanghai Institutes for Biological Sciences SIBS of CAS
Priority date: 2011-01-26
Filing date: 2011-01-26
Publication date: 2012-08-01
Anticipated expiration: 2031-01-26
Also published as: CN102622346B

Abstract

本发明公开了中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统，可实现在中文的生命科学文献数据库中的蛋白质知识的挖掘和发现。其技术方案为：方法包括：构建中文文献数据库和科学数据型数据库；以科学数据型数据库的标准控制词表为依据，以中文文献数据库中的蛋白质名词为挖掘和发现对象，进行蛋白质相关文本挖掘工具字典的翻译和编撰；根据科学数据型数据库提供的协议将访问号转换成超链接信息，生成面向主题和应用的中文文献数据仓库；去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。

Description

中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统

技术领域

本发明涉及蛋白质知识挖掘和发现技术，尤其涉及针对中文文献数据库的蛋白质知识的挖掘和发现技术。

背景技术

文献知识挖掘是指从文献中提取、整合并发现有用信息和知识点的过程，通过文献知识挖掘能够快速处理大量文献并得到特定领域的知识，文献知识挖掘涉及到数据挖掘、文本挖掘、自然语言处理和信息整合等多个研究领域。

以生命科学文献知识挖掘为例来说明，生命科学文献知识挖掘研究的主要内容分为信息检索，实体识别，信息提取，文本挖掘和信息集成与整合等五个部分[朱小燕，李娇.生物学文献挖掘[J].计算机教育，2006，9：11-15]。五部分的任务各不相同，前面问题的解决构成了后面部分研究与发展的基础。就目前研究现状而言，从信息检索到信息集成与整合，方法研究的成熟度依次递减，而知识挖掘发现的潜力却依次递增。生命科学领域的文本挖掘和信息集成整合则依赖于对本领域知识的理解和应用，更依赖于从科学文献中挖掘出未知的生命科学知识的新理论和新方法。

目前，生命科学研究中的蛋白质知识是文献数据库中挖掘和发现的重点领域之一。世界上不少发达国家均已借助数据挖掘和信息整合技术对英文的生命科学文献数据库进行了大量蛋白质的相关知识挖掘发现研究，实现了英文文献中蛋白质的挖掘发现，为专业研究人员提供了方便获取蛋白质知识及潜在知识的新方法新途径。然而，这些蛋白质知识的挖掘方法和途径还无法在中文的生命科学文献数据库中实现蛋白质的知识挖掘和发现。因此，如何在中文的生命科学文献数据库中实现蛋白质的知识挖掘和发现，则是现有技术方法和途径中有待解决的问题。

发明内容

本发明的目的在于解决上述问题，提供了一种中文文献数据库中的蛋白质知识挖掘和发现的方法，可实现在中文的生命科学文献数据库中的蛋白质知识的挖掘和发现。

本发明的另一目的在于提供了一种中文文献数据库中的蛋白质知识挖掘和发现的装置。

本发明的又一目的在于提供了一种中文文献数据库中的蛋白质知识挖掘和发现的系统。

本发明的技术方案为：本发明揭示了一种中文文献数据库中的蛋白质知识挖掘和发现的方法，包括：

步骤一：构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库；

步骤二：以科学数据型数据库的标准控制词表为依据，以中文文献数据库中的蛋白质名词为挖掘和发现对象，进行蛋白质相关文本挖掘工具字典的翻译和编撰，使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合，实现对中文文献数据库的蛋白质相关文本的挖掘和标注；

步骤三：根据科学数据型数据库提供的协议将访问号转换成超链接信息，生成面向主题和应用的中文文献数据仓库；

步骤四：去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例，中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库，科学数据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例，步骤二中有关对中文文献数据库的蛋白质相关文本的挖掘和标注的过程包括：

从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成，通过对数据结构的分析以及对数据的转换和提取，整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典；

抽取英文版文本挖掘工具字典中的序列号、基因名、蛋白质名称及同义词，经过归并处理后得到英文版的字典工具数据表；

对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例，英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。

本发明还揭示了一种中文文献数据库中的蛋白质知识挖掘和发现的装置，包括：

数据库构建模块，构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库；

文本挖掘工具字典处理模块，以科学数据型数据库的标准控制词表为依据，以中文文献数据库中的蛋白质名词为挖掘和发现对象，进行蛋白质相关文本挖掘工具字典的翻译和编撰，使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合，实现对中文文献数据库的蛋白质相关文本的挖掘和标注；

中文文献数据仓库生成模块，根据科学数据型数据库提供的协议将访问号转换成超链接信息，生成面向主题和应用的中文文献数据仓库；

结果修正模块，去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例，中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库，科学数据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例，文本挖掘工具字典处理模块包括：

英文版文本挖掘工具字典整理模块，从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成，通过对数据结构的分析以及对数据的转换和提取，整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典；

英文版字典工具数据表整理模块，抽取英文版文本挖掘工具字典中的序列号、基因名、蛋白质名称及同义词，经过归并处理后得到英文版的字典工具数据表；

双语文本挖掘工具字典整理模块，对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例，英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。

本发明还揭示了一种中文文献数据库中的蛋白质知识挖掘和发现的系统，包括应用程序服务器、数据库服务器、数据仓库服务器、用户终端，其中：

应用程序服务器，耦接数据仓库服务器，存储蛋白质知识挖掘的算法和规则；

数据库服务器，耦接数据仓库服务器，存储基于第三范式构建的科学数据型数据库、中文文献数据库、蛋白质知识的文本挖掘工具字典库；

数据仓库服务器，由应用程序服务器调用数据库服务器中的文本挖掘工具字典，对中文文献数据库进行知识挖掘的标引而得到，存放经过知识挖掘后而形成的面向主题和应用的、集成化的数据仓库；

用户终端，耦接数据仓库服务器，实现对蛋白质知识的查询和挖掘发现的操作。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的系统的一实施例，该系统还包括：

Web服务器，耦接数据仓库服务器和用户终端，将数据仓库服务器中的数据仓库镜像到Web服务器，通过Web应用提供给用户对蛋白质知识的查询和挖掘发现的操作。

本发明对比现有技术有如下的有益效果：本发明的技术特点是构建好含有丰富蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库，以现存的蛋白质科学数据型数据库的标准控制词表为依据，以中文文献数据库中出现的蛋白质名词为挖掘和发现对象，进行蛋白质相关文本挖掘工具字典的翻译和编撰，根据国外蛋白质科学数据型数据库提供的协议可将访问号转换成超链接信息。并最终生成面向主题和应用的中文文献数据仓库，最后去除数据挖掘和信息整合结果中的“非法”信息(去除假阳性蛋白质挖掘结果)和修改中文文献文本挖掘结果。

对比现有技术，本发明具有如下的优点：①通过文本挖掘工具字典的控制，可实现中文文献数据库中的蛋白质知识的深度挖掘和发现。②通过挖掘信息的分析和统计，可实现智能化的蛋白质相关知识发现。③通过关键词标引，可实现由人工控制的类自然语言检索。④具有较高的阳性挖掘率。⑤基于B/S结构的知识库系统设计，可保证系统高安全性。

附图说明

图1示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例的流程图。

图2示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例的数据流向示意图。

图3示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的实施例的原理图。

图4示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的系统的实施例的硬件结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例

图1示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例的流程。图2示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例的数据流向。请参见图1和图2，下面是对本实施例的方法的各个步骤的详细描述。

步骤S10：构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库。

中文文献数据库是中国生物学文摘基础数据库(CBA基础数据库，ChineseBiological Abstract基础数据库)和中国生物学文摘数据仓库(CBA数据仓库)，科学数据型数据库是欧洲生物信息学研究所(EBI)构建的联合蛋白质数据库(Uniprot数据库，United protein，联合蛋白质)。

步骤S12：以科学数据型数据库的标准控制词表为依据，以中文文献数据库中的蛋白质名词为挖掘和发现对象，进行蛋白质相关文本挖掘工具字典的翻译和编撰，使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合，实现对中文文献数据库的蛋白质相关文本的挖掘和标注。

这一步骤可以细分为：

第一步：从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成，通过对数据结构的分析以及对数据的转换和提取，整理出UniProt蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典。

UniProt蛋白质科学数据型数据库实例为：

<name>AROF_ECOLI</name>

<fullName>Phospho-2-dehydro-3-deoxyheptonate aldolase，Tyr-sensitive</fullName>

</recommendedName>

<fullName>Phospho-2-keto-3-deoxyheptonate aldolase</fullName>

</alternativeName>

<fullName>3-deoxy-D-arabino-heptulosonate 7-phosphate synthase</fullName>

</alternativeName>

<fullName>DAHP synthetase</fullName>

</alternativeName>

</protein>

<gene>

</gene>

<name type＝″scientific″>Escherichia coli(strain K12)</name>

<taxon>Bacteria</taxon>

<taxon>Proteobacteria</taxon>

<taxon>Gammaproteobacteria</taxon>

<taxon>Enterobacteriales</taxon>

<taxon>Enterobacteriaceae</taxon>

<taxon>Escherichia</taxon>

</lineage>

</organism>

第二步：抽取英文版文本挖掘工具字典中的序列号(Accession号)、基因名、蛋白质名称及同义词，经过归并处理后得到英文版的字典工具数据表。

文本挖掘工具字典部分实例如下表：

在表中，Accession为CBA文献数据库与EBI的UnitProt蛋白质科学数据库关联的地址，根据一定的规则可转换成超链接地址。Name为UnitProt蛋白质科学数据库中的蛋白质名称及同义词。Cname、Cname2、Cname3为CBA文献数据库中蛋白质名称及同义词。在翻译过程中尽量考虑CBA文献数据库中原始文献所使用的各种同义词，以保证文本挖掘的有效性。如：Atrial natriuretic peptide翻译为心钠素、心钠肽、心房钠尿肽。Heat shock 10kDa protein翻译为热激蛋白10、热休克蛋白10。

第三步：对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。

步骤S14：根据科学数据型数据库提供的协议将访问号转换成超链接信息，生成面向主题和应用的中文文献数据仓库。

步骤S16：去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。

中文文献数据库中的蛋白质知识挖掘和发现的装置的实施例

图3示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的实施例的原理。请参见图3，本实施例的装置包括数据库构建模块10、文本挖掘工具字典处理模块12、中文文献数据仓库生成模块14以及结果修正模块16。

这些模块之间的连接关系是：数据库构建模块10的输出端耦接文本挖掘工具字典处理模块12，文本挖掘工具字典处理模块12的输出端耦接中文文献数据仓库生成模块14，中文文献数据仓库生成模块14耦接结果修正模块16。

数据库构建模块10用于构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科学数据型数据库。

文本挖掘工具字典处理模块12以科学数据型数据库的标准控制词表为依据，以中文文献数据库中的蛋白质名词为挖掘和发现对象，进行蛋白质相关文本挖掘工具字典的翻译和编撰，使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一一对应的关联和整合，实现对中文文献数据库的蛋白质相关文本的挖掘和标注。

这一模块又可以细分为英文版文本挖掘工具字典整理模块120、英文版字典工具数据表整理模块122以及双语文本挖掘工具字典整理模块124。

英文版文本挖掘工具字典整理模块120从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构成，通过对数据结构的分析以及对数据的转换和提取，整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典。

英文版字典工具数据表整理模块122抽取英文版文本挖掘工具字典中的序列号(Accession号)、基因名、蛋白质名称及同义词，经过归并处理后得到英文版的字典工具数据表。其中序列号是基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。

双语文本挖掘工具字典整理模块124对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文本挖掘工具字典。

中文文献数据仓库生成模块14是根据科学数据型数据库提供的协议将访问号转换成超链接信息，生成面向主题和应用的中文文献数据仓库。

结果修正模块16用于去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。

中文文献数据库中的蛋白质知识挖掘和发现的系统的实施例

图4示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的系统的实施例的硬件结构。请参见图4，本实施例的系统包括应用程序服务器20、数据库服务器22、数据仓库服务器24、Web服务器26以及用户终端28。其中应用程序服务器20和数据库服务器22的输出端均耦接到数据仓库服务器24，数据仓库服务器24的输出端耦接到Web服务器26，Web服务器26的输出端耦接到用户终端28。

应用程序服务器20存储蛋白质知识挖掘的算法和规则。数据库服务器22存储基于第三范式构建的科学数据型数据库、中文文献数据库、蛋白质知识的文本挖掘工具字典库。

数据仓库服务器24由应用程序服务器20调用数据库服务器22中的文本挖掘工具字典，对中文文献数据库进行知识挖掘的标引而得到，存放经过知识挖掘后而形成的面向主题和应用的、集成化的数据仓库。

Web服务器26将数据仓库服务24器中的数据仓库镜像到Web服务器26，通过Web应用提供给用户对蛋白质知识的查询和挖掘发现的操作。

用户终端28实现对蛋白质知识的查询和挖掘发现的操作。

上述实施例是提供给本领域普通技术人员来实现和使用本发明的，本领域普通技术人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的发明范围并不被上述实施例所限，而应该是符合权利要求书所提到的创新性特征的最大范围。

Claims

1.一种中文文献数据库中的蛋白质知识挖掘和发现的方法，包括：

2.根据权利要求1所述的中文文献数据库中的蛋白质知识挖掘和发现的方法，其特征在于，中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库，科学数据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。

3.根据权利要求1所述的中文文献数据库中的蛋白质知识挖掘和发现的方法，其特征在于，步骤二中有关对中文文献数据库的蛋白质相关文本的挖掘和标注的过程包括：

4.根据权利要求3所述的中文文献数据库中的蛋白质知识挖掘和发现的方法，其特征在于，英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。

5.一种中文文献数据库中的蛋白质知识挖掘和发现的装置，包括：

6.根据权利要求5所述的中文文献数据库中的蛋白质知识挖掘和发现的装置，其特征在于，中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库，科学数据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。

7.根据权利要求5所述的中文文献数据库中的蛋白质知识挖掘和发现的装置，其特征在于，文本挖掘工具字典处理模块包括：

8.根据权利要求7所述的中文文献数据库中的蛋白质知识挖掘和发现的装置，其特征在于，英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据库所关联的地址转换成的超链接地址。

9.一种中文文献数据库中的蛋白质知识挖掘和发现的系统，包括应用程序服务器、数据库服务器、数据仓库服务器、用户终端，其中：

10.根据权利要求9所述的中文文献数据库中的蛋白质知识挖掘和发现的系统，其特征在于，该系统还包括：