CN110782955A - 从研究文献中提取天然产物数据信息的方法及系统 - Google Patents

从研究文献中提取天然产物数据信息的方法及系统 Download PDF

Info

Publication number
CN110782955A
CN110782955A CN201911006389.XA CN201911006389A CN110782955A CN 110782955 A CN110782955 A CN 110782955A CN 201911006389 A CN201911006389 A CN 201911006389A CN 110782955 A CN110782955 A CN 110782955A
Authority
CN
China
Prior art keywords
statement
information
biological species
data
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911006389.XA
Other languages
English (en)
Other versions
CN110782955B (zh
Inventor
徐挺军
陈维明
赵英莉
戴静芳
李英勇
周俊红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Organic Chemistry of CAS
Original Assignee
Shanghai Institute of Organic Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Organic Chemistry of CAS filed Critical Shanghai Institute of Organic Chemistry of CAS
Priority to CN201911006389.XA priority Critical patent/CN110782955B/zh
Publication of CN110782955A publication Critical patent/CN110782955A/zh
Application granted granted Critical
Publication of CN110782955B publication Critical patent/CN110782955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种从研究文献中提取天然产物数据信息的方法,包括:对研究文献文本内容进行预处理,以得到多个预处理语句;从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句;从所述生物物种描述语句中获取生物物种信息;从所述化学成分描述语句中获取化学物质信息;至少关联存储所述生物物种信息和所述化学物质信息。本申请实施例自动分析天然产物研究文献的文本内容,并自动识别和提取其中的天然产物化学成分数据信息,用于计算机大规模批量生产具有科学研究价值的天然产物数据,从而避免人工标引数据周期长、成本高等缺陷,达到短时间、低消耗获取一定规模天然产物化学成分数据集的目的。

Description

从研究文献中提取天然产物数据信息的方法及系统
技术领域
本发明涉及文献信息处理技术领域,尤其涉及一种从研究文献中提取天然产物数据信息的方法及系统。
背景技术
天然产物为生物体自身的组成成分、代谢产物或者提取物,经过了生物体长期进化过程中的自然选择和优化,往往具有独特的化学结构以及能和特定疾病的靶标互相结合的能力,因此具有天然的药物属性,有的可以直接用于疾病的治疗。例如,我国科学家在1972年从传统中药青蒿里提取的青蒿素,是治疗疟疾的高效药物,为人类与疟疾的抗争提供了有力武器,挽救了无数的生命。因此,寻找自然界中的天然产物活性分子,分析其特定的活性骨架、有效基团,研究其对人体运行机制及相关疾病的构效关系,对药物特别是创新药物的发现具有非常重要的指导意义。但是天然产物主要来自于植物、微生物和海洋生物,由有机分子化合物组成,具有化学结构复杂、种类繁多、获取方法困难、尚有大量天然产物未被发现其药用价值等特点。要想从广泛的天然产物中筛选药效化合物,累积或者生产一定规模的天然产物化学成分数据,建立天然产物化学成分数据库,利用现代计算机信息技术从大数据中获取知识和规律来指导药物创新,是药物研发过程中一种非常有效的技术手段。
现有的天然产物化学成分数据采集和生产主要依靠人工标引。人工标引生产天然产物化学成分数据,采用专业数据分析人员浏览相关天然产物化学成分研究文献,通过人工将其中的天然产物数据信息提取出来的方法,进行数据的生产和汇集。人工标引数据需要较大的人力成本投入和时间消耗,无法应对海量大数据的加工和处理,而且随着科学技术的不断发展,天然产物成分研究也在不断推进,天然产物化学成分数据也需要不断补充和实时更新,由于人力资源配置及研发项目时间有限制,因此采用人工标引的数据生产方法可持续性较差。
发明内容
本发明实施例提供一种从研究文献中提取天然产物数据信息的方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种从研究文献中提取天然产物数据信息的方法,包括:
对研究文献文本内容进行预处理,以得到多个预处理语句;
从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句;
从所述生物物种描述语句中获取生物物种信息;
从所述化学成分描述语句中获取化学物质信息;
至少关联存储所述生物物种信息和所述化学物质信息。
在一些实施例中,在从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句之后还包括:
生成对应于所述生物物种描述语句的第一语句解析模式数据;
生成对应于所述化学成分描述语句的第二语句解析模式数据;
所述第一和第二解析模式数据分别包括:定位标记、定位符、多重标记、分隔符。
在一些实施例中,所述生物物种信息包括生物物种学名、生物名称和取用部位信息;所述化学物质信息包括化学物质名称和化学物质编号。
在一些实施例中,所述从所述生物物种描述语句中获取生物物种信息包括:
根据所述第一语句解析模式数据中的定位标记和定位符,截取当前预处理语句的描述部分;
根据所述第一语句解析模式数据中的多重标记和分隔符对所述当前预处理语句进行分割;
使用噪声词表截去所述当前预处理语句中的噪声词;
使用模式匹配提取所述当前预处理语句中的生物物种学名;
对所述当前预处理语句的剩余部分进行分词,提取其中的生物名称和取用部位信息。
在一些实施例中,从研究文献中提取天然产物数据信息的方法还包括:根据预先建立的生物物种目录对所述提取的所述生物物种名称进行校验。
在一些实施例中,所述从所述化学成分描述语句中获取化学物质信息包括:
根据所述第二语句解析模式数据中的定位标记和定位符,截取当前预处理语句的描述部分;
根据所述第二语句解析模式数据中的多重标记和分隔符对所述当前预处理语句进行分割;
使用噪声词表截去所述当前预处理语句中的噪声词;
使用模式匹配提取所述当前预处理语句中的化学物质名称和物质编号。
在一些实施例中,从研究文献中提取天然产物数据信息的方法还包括:根据预先建立的化学物质名称表对所述提取的所述化学物质名称进行校验。
在一些实施例中,从研究文献中提取天然产物数据信息的方法还包括,对提取的对应于所述多个预处理语句所有的生物物种信息和/或化学物质信息进行合并、去重处理。
第二方面,本发明实施例提供一种从研究文献中提取天然产物数据信息的系统,包括:
预处理程序模块,用于对研究文献文本内容进行预处理,以得到多个预处理语句;
描述语句获取程序模块,用于从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句;
生物物种信息获取程序模块,用于从所述生物物种描述语句中获取生物物种信息;
化学物质信息获取程序模块,用于从所述化学成分描述语句中获取化学物质信息;
关联程序模块,用于至少关联存储所述生物物种信息和所述化学物质信息。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项从研究文献中提取天然产物数据信息的方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项从研究文献中提取天然产物数据信息的方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项从研究文献中提取天然产物数据信息的方法。
本发明实施例的有益效果在于:本申请实施例中的方法可以实现为一种计算机软件程序,并由电子设备执行。使用计算机程序算法实现人工标引数据的过程,利用计算机信息技术,自动分析天然产物研究文献的文本内容,并自动识别和提取其中的天然产物化学成分数据信息,用于计算机大规模批量生产具有科学研究价值的天然产物数据,从而避免人工标引数据周期长、成本高等缺陷,达到短时间、低消耗获取一定规模天然产物化学成分数据集的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的从研究文献中提取天然产物数据信息的方法的一实施例的流程图;
图2为本发明的从研究文献中提取天然产物数据信息的方法的另一实施例的流程图;
图3为本发明的从研究文献中提取天然产物数据信息的方法的一实施例的原理框图;
图4为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明的实施例提供一种从研究文献中提取天然产物数据信息的方法,该方法应用于电子设备,当电子设备执行该方法时实现以下步骤:
S10、对研究文献文本内容进行预处理,以得到多个预处理语句;
S20、从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句;
S30、从所述生物物种描述语句中获取生物物种信息;示例性地,所述生物物种信息包括生物物种名称和取用部位信息;
S40、从所述化学成分描述语句中获取化学物质信息;示例性地,所述化学物质信息包括化学物质名称和化学物质编号;
S50、至少关联存储所述生物物种信息和所述化学物质信息。
本申请实施例中的方法可以实现为一种计算机软件程序,并由电子设备执行。使用计算机程序算法实现人工标引数据的过程,利用计算机信息技术,自动分析天然产物研究文献的文本内容,并自动识别和提取其中的天然产物化学成分数据信息,用于计算机大规模批量生产具有科学研究价值的天然产物数据,从而避免人工标引数据周期长、成本高等缺陷,达到短时间、低消耗获取一定规模天然产物化学成分数据集的目的。
在一些实施例中,本发明的实施例提供一种从研究文献中提取天然产物数据信息的方法还包括:
预先建立模式匹配代码集,所述模式匹配代码集至少包括生物物种描述代码集和化学成分描述代码集;
步骤S20:从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句包括:
从所述多个预处理语句中获取与所述生物物种描述代码集相匹配的语句,确定为生物物种描述语句;
从所述多个预处理语句中获取与所述化学成分描述代码集相匹配的语句,确定为化学成分描述语句。
本申请实施例中预先建立了模式匹配代码集,分别严格按照生物物种描述语句的格式以及化学成分描述语句的格式设置了生物物种描述代码集和化学成分描述代码集,从而在对预处理之后的语句进行匹配时能够非常精准的提取出相匹配的语句。
此外,本申请分析匹配的最小单位是语句(非关键字),极大的提高了对研究文献中的语句进行筛选的效率,非常适用于对海量文献的分析处理。
进一步地,基于本申请的方法在句子级别进行分析匹配,一旦得到匹配的句子,便能够同时获得包含在该描述句子中的多种信息(例如,对于生物物种描述语句,能够同时获得生物物种名称和取用部位信息;对于化学成分描述语句,能够同时获得化学物质名称和化学物质编号)。节省了在查找到关键词之后再进一步定位其它相关联信息的步骤,极大的提高了获取用于对研究文献进行标引的数据信息的效率。
在一些实施例中,本发明的实施例提供一种从研究文献中提取天然产物数据信息的方法还包括:获取所述研究文献的著录项目信息;示例性地,著录项目信息(或者说是来源文献信息)包括期刊名称、年卷期号、作者信息以及文献标题。
进一步地,所述至少关联存储所述生物物种信息和所述化学物质信息包括:关联存储所述著录项目信息、所述生物物种信息和所述化学物质信息。
本实施例中不仅从研究文献中提取了天然产物数据信息,而且还通过关联存储著录项目信息的方式,备份了天然产物数据信息的来源,便于在后续应用或者研究中高效的获取相关的研究文献。
如图2所示,为本申请的从研究文献中提取天然产物数据信息的方法的另一实施例的流程图,该方法可以由电子设备执行,可以通过计算机软件编程实现,并存储在存储介质之中,电子设备可以集成有该存储介质,并且当该电子设备执行时实现以下步骤1至步骤7。
步骤1、读取研究文献文本内容。示例性地,为程序读入含有天然产物化学成分研究文献原文的文本字符串,文献原文为数字化PDF电子文稿全文文件或者Word文档,本申请对此不作限定。
步骤2、文本预处理。示例性地,进行文本内容处理、文献来源识别、分行处理和分句处理。其中,
文本内容处理:对步骤1读取的文本内容进行处理,去除页眉、页脚、注释、英文摘要、中英文关键词、参考文献,保留文章标题、作者信息、中文摘要及正文部分;
文献来源识别:记录文件目录信息、文章标题以及作者信息,文献来源数据;
分行处理:去除同一段落的文本分行、换行标记符;
分句处理:对同一段落的文本以完整的句子为单位分隔,并对语句依次编号。
对于不同字符集的文本,还可采用编码转换的方式,将Unicode编码(统一字符编码)转换为UTF-8编码(8-bit Unicode Transformation Format,8位字符转换格式编码),使程序更好的适应中文文本处理。
步骤3、语句解析。示例性地,对步骤2中已完成预处理的语句按序进行语句解析。分别将语句解析为生物物种描述、化学成分描述和无效噪声语句,并将生物物种描述、化学成分描述语句标记上语句解析模式数据,包括定位标记、定位符、多重标记、分隔符。
示例性地,语句解析通过模式匹配的方式进行,匹配方法可以为正则表达式搜索法,匹配模式代码集分为生物物种描述代码和化学成分描述代码,作为基础数据存于系统数据表。语句解析时,程序读取匹配模式代码集,依次匹配搜索需要解析的语句,直至命中某个模式或全部模式均未命中。
例如,文献A中语句a“研究缬草属植物宽叶缬草Valeriana officinalisvar.latiofolia的化学成分。”匹配模式代码集依次匹配搜索后,代码“研究[^,]{0,5}科?[^,]{0,5}属?植物[^,]+的?化学成分”命中,该模式代码属生物物种描述代码集,即标记语句a为生物物种描述语句;
例如,文献A中语句b“……,由此将化合物1结构最终确定,如图2所示,命名为valeriridoid P。”匹配模式代码集依次匹配搜索后,代码“化合物\s?[0-9]*\s?.+命名为(.{2,})。”命中,该模式代码属化学成分描述代码集,即标记语句b为化学成分描述语句;
例如,文献A中语句c“现代药理学研究表明宽叶缬草具有镇静、解痉、调血脂、抗氧化、保护肾脏等作用。”匹配模式代码集依次匹配搜索后,生物物种描述代码集与化学成分描述代码集均无命中,即标记语句c为无效噪声语句。
对于语句解析完成后,没有语句被解析为生物物种描述或化学成分描述的,视为解析失败结束程序算法;分别至少有一个语句被解析为生物物种描述和化学成分描述的,视为解析成功,继续以下步骤。
步骤4、生物物种识别。示例性地,对步骤3中标记为生物物种描述的语句,进行生物物种识别,提取其中的生物物种信息和取用部位信息。生物物种识别,根据语句解析模式数据,对语句进行分词和词性标注,提取语句中的研究对象来源生物名称和取用部位信息;根据生物物种学名命名法,匹配和提取语句中的生物物种的学名;如语句中没有识别出取用部位信息,则默认取用部位标记为“未声明”。
示例性地,生物物种识别:1.根据语句解析时获取的“语句解析模式数据”中的定位标记和定位符,截取语句的描述部分;2.根据多重标记和分隔符对语句进行分割;3.使用噪声词表(系统基础数据)截去语句中的噪声词;4.使用模式匹配提取语句中的生物物种学名;5.对语句剩余部分进行分词,提取其中的生物名称和取用部位信息。
例如,文献A中语句a“研究缬草属植物宽叶缬草Valeriana officinalisvar.latiofolia的化学成分。”,语句解析获取其定位标记为“0”定位符为“植物”多重标记为“0”分隔符为“”,根据定位符截取语句描述部分为“宽叶缬草Valeriana officinalisvar.latiofolia的化学成分”;根据多重标记无需分割字句,截去噪声词后语句为“宽叶缬草Valeriana officinalis var.latiofolia”;匹配获取的生物物种学名为“Valerianaofficinalis var.latiofolia”;语句剩余词“宽叶缬草”为生物名称;该语句无取用部位信息。
生物物种信息包括生物物种学名、生物名称和取用部位。生物物种学名信息为生物拉丁学名,采用正则表达式模式匹配的方法提取,匹配代码(示例)为“[A-Za-z]+\s(\s?\(?\s?[A-Za-z0-9]+-?\w*\.?.?\)?)+”;生物名称的获取有两种模式,一为语句分词后直接获取(可参照前述实施例中的举例),二为生物名词表(系统基础数据)匹配提取;取用部位的获取采用部位名词表(系统基础数据)匹配提取;
关于如何提取其中的生物物种信息和取用部位信息,可以示例为:文献A中语句d“采用硅胶柱色谱、反相柱色谱、Sephadex LH-20、薄层制备色谱等色谱法对宽叶缬草根中的化学成分进行分离纯化,应用质谱、核磁等波谱技术和化学方法鉴定化合物的结构。”,经过上述步骤语句解析、定位截取、分割子句和噪声词截去后语句为“宽叶缬草根”,没有匹配到生物物种学名,匹配提取生物名称为“宽叶缬草”,匹配提取取用部位信息为“根”。
在一些实施例中,关于确定“化学成分”存在于相应生物物种中的“取用部位”的方法可以示例如下:
由于“取用部位”提取自“化学成分”研究文献的生物物种信息描述语句中,因此可以认为该文献中的“化学成分”存在于生物物种“取用部位”。例如上述示例文献A中语句d描述的取用部位“根”。结合我们前期的调研,大部文献只研究一个取用部位或同一块部位,例如“全草”、“种子”、“地下部分”,针对同一物种不同部位化学成分研究如“花和叶”,我们提取所有取用部位信息,视为该文献的所有取用部位都可能含有所提及的化学成分,最终会在不涉及本发明内容的后续数据汇集时处理。
示例性地,如果文献A中同时涉及到两种物种w1和w2,并且同时涉及到与物种w1相关的两种化学成分c11和c12,同时涉及到与物种w2相关的化学成分c21和c22。
在上述这种极端情况下,为了避免混乱相互之间的关联关系,发明人进行了如下特定设计:
根据发明人的前期调研情况,由于天然产物成分复杂,大部分文献研究对象为单一物种,但也有少数例外,分为三种情况:
1.中药复方或含有多种生物物种的混合物成分测定,此情况我们视为“混合成分”,即该文献中的提及生物都可能含有所涉及的化学成分,最终会在不涉及本发明内容的后续数据汇集时处理(见情况3示例);
2.不同生物物种成分比较,此情况的研究文献只对不同生物的具体化学物质及其含量进行分析和研究,一般不含化学成分鉴定论述,即本发明不会解析到化学成分描述语句,本发明算法视为无天然产物化学成分数据忽略该文献。
3.为多物种的不同成分研究(即,上述极端情况),此情况最终产生的天然产物化学成分数据为“w1w2可能含有成分c11c12c21c22”,与情况1类似,视为“可能含有的成分”,在后续的数据处理中如有其他文献获取的数据为“w1含有成分c11c13c14…”,则确认“w1含有成分c11”视为“确定含有的成分”,其他成分“c21c22”仍视为“可能含有”,上述数据处理过程作为本发明所产生数据产品数据逻辑可靠性处理的一种解决方案。
进一步地,对于提取的生物物种学名,可以采用建立生物物种目录的方式,对生物物种学名中的属名和种名数据分别进行对照校验,以增强数据的可靠性。
进行“对照校验”的数据为生物物种学名和化学物质名称。生物物种学名数据校验时,将学名根据其特征拆分属名和种名,分别检索生物物种目录(系统基础数据表),如有相应的记录则视为数据可靠;化学物质名称校验时,将名称进行中英文符号片段分词,将其中的中文词片段分别检索化学物质名称表(系统基础数据表),如有相应的记录则视为数据可靠。
上述生物物种目录及化学物质名称表为发明人研究小组多年工作汇集和累积,收集了较为齐全的数据,尽管生物物种学名及化学物质名称为不可预测边际的数据集,但进行成分研究的物种往往不涉及新发现物种,而化学成分物质名词的母体词和取代基词也相对有限,因此“对照校验”可以作为本发明的一种优选方案,对获取数据的正确性进行判别,从而增强数据的可靠性。
步骤5、化学物质识别。示例性地,对步骤3中标记为化学成分描述的语句,进行化学物质识别,提取其中的化学物质名称信息和物质编号。化学物质识别,根据语句解析模式数据,匹配和提取语句中的化学物质名称和化学物质编号。
示例性地,步骤5化学物质识别:1.根据语句解析时获取的“语句解析模式数据”中的定位标记和定位符,截取语句的描述部分;2.根据多重标记和分隔符对语句进行分割;3.使用噪声词表截去语句中的噪声词;4.使用正则表达式模式匹配提取语句中的化学物质名称和物质编号,匹配代码(示例)为“[^和]+\(\s?\d+\s?\)”。
例如,文献A中语句e“本课题组前期对宽叶缬草95%乙醇提取物的醋酸乙酯部位进行了系统分离[2-4],本实验从醋酸乙酯部位中分离得到6个化合物,分别鉴定为valeriridoid P(1)、dihydroxymaaliane(2)、madolin F(3)、madolin A(4)、volvalerenalB(5)、kissoone A(6)。”,语句解析获取其定位标记为“0”定位符为“分别鉴定为”多重标记为“1”分隔符为“、”,根据定位符截取语句描述部分为“valeriridoid P(1)、dihydroxymaaliane(2)、madolin F(3)、madolin A(4)、volvalerenal B(5)、kissoone A(6)”;根据多重标记和分隔符分割字句,截去噪声词后语句为“valeriridoid P(1)”、“dihydroxymaaliane(2)”、“madolin F(3)”、“madolin A(4)”、“volvalerenal B(5)”、“kissoone A(6)”;提取的物质名称和编号分别为“valeriridoid P、dihydroxymaaliane、madolin F、madolin A、volvalerenal B、kissoone A”和“1、2、3、4、5、6”。
进一步地,对于提取的化学物质名称,可以采用建立化学物质名称表的方式,对物质名词数据进行对照校验,以增强数据的可靠性。
步骤4和步骤5并行同步执行,以提高程序运行效率。
步骤6、数据处理。示例性地,对步骤4和步骤5提取的数据信息进行属性识别和关联处理。对步骤4中提取的数据进行归并和去重,属性标记为生物物种数据;对步骤5中提取的数据进行归并和去重,属性标记为化学成分数据。将文献来源数据、生物物种数据以及化学物质名称数据进行数据关联,标记为一份天然产物化学成分数据。
示例性地,对步骤4、5提取的数据信息进行属性识别和关联处理,为信息识别后的数据整合过程。
例如,对前述实施例步骤4中识别的数据整合为“来源生物名称:宽叶缬草//物种学名:Valeriana officinalis var.latiofolia//取用部位:”一条数据。
例如,对前述实施例步骤5中识别的数据整合为“物质名称:valeriridoid P//物质编号:1”、“物质名称:dihydroxymaaliane//物质编号:2”、“物质名称:madolin F//物质编号:3”、“物质名称:madolin A//物质编号:4”、“物质名称:volvalerenal B//物质编号:5”、“物质名称:kissoone A//物质编号:6”六条数据。
示例性地,对步骤4中识别获取的生物物种信息,相同生物物种学名或生物名称的不同数据进行归并,完全相同的数据进行去重。对步骤5中识别的化学成分数据信息,相同化学物质编号的不同物质名称数据进行归并,完全相同的数据进行去重。
例如,文献A语句a和语句d分别获取生物物种信息数据“来源生物名称:宽叶缬草//物种学名:Valeriana officinalis var.latiofolia//取用部位:”和“来源生物名称:宽叶缬草//物种学名://取用部位:根”共两条数据,归并为“来源生物名称:宽叶缬草//物种学名:Valeriana officinalis var.latiofolia//取用部位:根”一条数据。
例如,文献A语句b和语句e分别获取数据“物质名称:valeriridoid P//物质编号:1”和“物质名称:valeriridoid P//物质编号:1”、“物质名称:dihydroxymaaliane//物质编号:2”、“物质名称:madolin F//物质编号:3”、“物质名称:madolin A//物质编号:4”、“物质名称:volvalerenal B//物质编号:5”、“物质名称:kissoone A//物质编号:6”共七条化学物质数据,其中物质编号1为重复数据,进行去重后为六条数据。
由于研究文献存在其摘要、正文、总结等不同部分重复出现生物物种描述语句和化学成分描述语句的情况,而各个描述语句所涉及的数据不尽相同,进行归并和去重可使得获取的数据完整性更好。
例如,文献B在摘要中只提及生物的名称,又在正文中描述了该生物的学名以及取用部位,进行归并后生物物种描述信息数据更加齐全。
步骤7、天然产物化学成分数据输出。示例性地,对完成步骤6数据处理后的结果数据进行输出。
文献来源数据、生物物种数据以及化学物质名称数据进行数据关联,为将识别和提取的所有数据进行整合。
例如,对于文献A进行分析处理后,所有获取的数据关联为一份天然产物化学成分数据,数据内容如下表:
本申请实施例提取天然产物化学成分数据的方法大大提高了数据采集和汇总的效率,使得天然产物化学成分数据库的数据信息得到有效的更新,数据量及数据新鲜度大大增加,可以预见利用天然产物化学成分数据库进行新药创制、药效改良、药理研究等科学研究技术将因此受益。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图3所示,本发明的实施例还提供一种从研究文献中提取天然产物数据信息的系统300,包括:
预处理程序模块310,用于对研究文献文本内容进行预处理,以得到多个预处理语句;
描述语句获取程序模块320,用于从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句;
生物物种信息获取程序模块330,用于从所述生物物种描述语句中获取生物物种信息;
化学物质信息获取程序模块340,用于从所述化学成分描述语句中获取化学物质信息;
关联程序模块350,用于至少关联存储所述生物物种信息和所述化学物质信息。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项从研究文献中提取天然产物数据信息的方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项从研究文献中提取天然产物数据信息的方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行从研究文献中提取天然产物数据信息的方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现从研究文献中提取天然产物数据信息的方法。
上述本发明实施例的从研究文献中提取天然产物数据信息的系统可用于执行本发明实施例的从研究文献中提取天然产物数据信息的方法,并相应的达到上述本发明实施例的实现从研究文献中提取天然产物数据信息的方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图4是本申请另一实施例提供的执行从研究文献中提取天然产物数据信息的方法的电子设备的硬件结构示意图,如图4所示,该设备包括:
一个或多个处理器410以及存储器420,图4中以一个处理器410为例。
执行从研究文献中提取天然产物数据信息的方法的设备还可以包括:输入装置430和输出装置440。
处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器420作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的从研究文献中提取天然产物数据信息的方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例从研究文献中提取天然产物数据信息的方法。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据从研究文献中提取天然产物数据信息的装置的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至从研究文献中提取天然产物数据信息的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可接收输入的数字或字符信息,以及产生与从研究文献中提取天然产物数据信息的装置的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器420中,当被所述一个或者多个处理器410执行时,执行上述任意方法实施例中的从研究文献中提取天然产物数据信息的方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种从研究文献中提取天然产物数据信息的方法,包括:
对研究文献文本内容进行预处理,以得到多个预处理语句;
从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句;
从所述生物物种描述语句中获取生物物种信息;
从所述化学成分描述语句中获取化学物质信息;
至少关联存储所述生物物种信息和所述化学物质信息。
2.根据权利要求1所述的方法,还包括:
预先建立模式匹配代码集,所述模式匹配代码集至少包括生物物种描述代码集和化学成分描述代码集;
所述从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句包括:
从所述多个预处理语句中获取与所述生物物种描述代码集相匹配的语句,确定为生物物种描述语句;
从所述多个预处理语句中获取与所述化学成分描述代码集相匹配的语句,确定为化学成分描述语句。
3.根据权利要求1所述的方法,其中,还包括:
获取所述研究文献的著录项目信息;
所述至少关联存储所述生物物种信息和所述化学物质信息包括:
关联存储所述著录项目信息、所述生物物种信息和所述化学物质信息。
4.根据权利要求1所述的方法,其中,在从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句之后还包括:
生成对应于所述生物物种描述语句的第一语句解析模式数据;
生成对应于所述化学成分描述语句的第二语句解析模式数据;
所述第一和第二解析模式数据分别包括:定位标记、定位符、多重标记、分隔符。
5.根据权利要求4所述的方法,其中,所述生物物种信息包括生物物种学名、生物名称和取用部位信息;所述化学物质信息包括化学物质名称和化学物质编号。
6.根据权利要求5所述的方法,其中,所述从所述生物物种描述语句中获取生物物种信息包括:
根据所述第一语句解析模式数据中的定位标记和定位符,截取当前预处理语句的描述部分;
根据所述第一语句解析模式数据中的多重标记和分隔符对所述当前预处理语句进行分割;
使用噪声词表截去所述当前预处理语句中的噪声词;
使用模式匹配提取所述当前预处理语句中的生物物种学名;
对所述当前预处理语句的剩余部分进行分词,提取其中的生物名称和取用部位信息。
7.根据权利要求5所述的方法,其中,所述从所述化学成分描述语句中获取化学物质信息包括:
根据所述第二语句解析模式数据中的定位标记和定位符,截取当前预处理语句的描述部分;
根据所述第二语句解析模式数据中的多重标记和分隔符对所述当前预处理语句进行分割;
使用噪声词表截去所述当前预处理语句中的噪声词;
使用模式匹配提取所述当前预处理语句中的化学物质名称和物质编号。
8.一种从研究文献中提取天然产物数据信息的系统,包括:
预处理程序模块,用于对研究文献文本内容进行预处理,以得到多个预处理语句;
描述语句获取程序模块,用于从所述多个预处理语句中获取生物物种描述语句和化学成分描述语句;
生物物种信息获取程序模块,用于从所述生物物种描述语句中获取生物物种信息;
化学物质信息获取程序模块,用于从所述化学成分描述语句中获取化学物质信息;
关联程序模块,用于至少关联存储所述生物物种信息和所述化学物质信息。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。
CN201911006389.XA 2019-10-22 2019-10-22 从研究文献中提取天然产物数据信息的方法及系统 Active CN110782955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911006389.XA CN110782955B (zh) 2019-10-22 2019-10-22 从研究文献中提取天然产物数据信息的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911006389.XA CN110782955B (zh) 2019-10-22 2019-10-22 从研究文献中提取天然产物数据信息的方法及系统

Publications (2)

Publication Number Publication Date
CN110782955A true CN110782955A (zh) 2020-02-11
CN110782955B CN110782955B (zh) 2023-03-28

Family

ID=69386220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911006389.XA Active CN110782955B (zh) 2019-10-22 2019-10-22 从研究文献中提取天然产物数据信息的方法及系统

Country Status (1)

Country Link
CN (1) CN110782955B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114864016A (zh) * 2022-03-25 2022-08-05 广西壮族自治区药用植物园 一种药用植物化合物信息数据库建立方法及系统
CN117708513A (zh) * 2024-02-05 2024-03-15 贵州省畜牧兽医研究所 一种用于缬草特征研究的种植数据管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030120640A1 (en) * 2001-12-21 2003-06-26 Hitachi. Ltd. Construction method of substance dictionary, extraction of binary relationship of substance, prediction method and dynamic viewer
CN101477597A (zh) * 2009-01-15 2009-07-08 浙江大学 基于化合物特征的天然产物活性成分计算识别方法
US20140163955A1 (en) * 2012-12-10 2014-06-12 General Electric Company System and Method For Extracting Ontological Information From A Body Of Text
US20170262430A1 (en) * 2016-03-08 2017-09-14 InferLink Corporation Textual Information Extraction, Parsing, and Inferential Analysis
CN107884495A (zh) * 2017-11-14 2018-04-06 中国科学院昆明植物研究所 一种快速发现天然产物药效物质的方法
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030120640A1 (en) * 2001-12-21 2003-06-26 Hitachi. Ltd. Construction method of substance dictionary, extraction of binary relationship of substance, prediction method and dynamic viewer
CN101477597A (zh) * 2009-01-15 2009-07-08 浙江大学 基于化合物特征的天然产物活性成分计算识别方法
US20140163955A1 (en) * 2012-12-10 2014-06-12 General Electric Company System and Method For Extracting Ontological Information From A Body Of Text
US20170262430A1 (en) * 2016-03-08 2017-09-14 InferLink Corporation Textual Information Extraction, Parsing, and Inferential Analysis
CN107884495A (zh) * 2017-11-14 2018-04-06 中国科学院昆明植物研究所 一种快速发现天然产物药效物质的方法
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
代君;李佶壕;秦岩;王文欣;: "基于综述型文献的跨学科领域信息源地图绘制" *
袁毅;张丹;张晓东;谢建明;孙啸;: "基因相关生物医学文献挖掘研究" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114864016A (zh) * 2022-03-25 2022-08-05 广西壮族自治区药用植物园 一种药用植物化合物信息数据库建立方法及系统
CN117708513A (zh) * 2024-02-05 2024-03-15 贵州省畜牧兽医研究所 一种用于缬草特征研究的种植数据管理方法
CN117708513B (zh) * 2024-02-05 2024-04-19 贵州省畜牧兽医研究所 一种用于缬草特征研究的种植数据管理方法

Also Published As

Publication number Publication date
CN110782955B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
US10002123B2 (en) Named entity extraction from a block of text
Siripragada et al. A multilingual parallel corpora collection effort for Indian languages
CN110555153A (zh) 一种基于领域知识图谱的问答系统及其构建方法
CN110716749B (zh) 一种基于功能相似度匹配的代码搜索方法
US20060242166A1 (en) Methods and systems for filtering an extensible application markup language (XAML) file to facilitate indexing of the logical content contained therein
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN101441636A (zh) 一种基于知识库的医院信息搜索引擎及系统
CN105095091B (zh) 一种基于倒排索引技术的软件缺陷代码文件定位方法
CN110782955B (zh) 从研究文献中提取天然产物数据信息的方法及系统
Hassel Resource lean and portable automatic text summarization
CN111178076A (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
Hachey et al. Datasets for generic relation extraction
CN106485525A (zh) 信息处理方法及装置
CN105022728A (zh) 汉老双语平行语料自动采集的系统及实现方法
Asghari et al. Developing bilingual plagiarism detection corpus using sentence aligned parallel corpus
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN105320752B (zh) 一种兴趣点数据的挖掘方法和装置
CN105095276B (zh) 一种挖掘最大重复序列的方法及装置
CN112395860A (zh) 一种大规模并行政策数据知识抽取方法及系统
US11150871B2 (en) Information density of documents
Ellendorff et al. A combined resource of biomedical terminology and its statistics
Sethi Design of lightweight stemmer for Odia derivational suffixes
Koeva et al. Bulgarian X-language Parallel Corpus.
Farzana et al. Towards a Scalable Geoparsing Approach for the Web.
Xia et al. Design and implementation of a web news extraction system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant