CN107992476B - 面向句子级生物关系网络抽取的语料库生成方法及系统 - Google Patents

面向句子级生物关系网络抽取的语料库生成方法及系统 Download PDF

Info

Publication number
CN107992476B
CN107992476B CN201711216700.4A CN201711216700A CN107992476B CN 107992476 B CN107992476 B CN 107992476B CN 201711216700 A CN201711216700 A CN 201711216700A CN 107992476 B CN107992476 B CN 107992476B
Authority
CN
China
Prior art keywords
node
sentence
sequence
entity
word sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711216700.4A
Other languages
English (en)
Other versions
CN107992476A (zh
Inventor
钱龙华
刘加新
刘苏文
何云琪
袁源
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201711216700.4A priority Critical patent/CN107992476B/zh
Publication of CN107992476A publication Critical patent/CN107992476A/zh
Application granted granted Critical
Publication of CN107992476B publication Critical patent/CN107992476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向句子级的生物关系网络抽取的语料库生成方法及系统,为了实现机器学习自动完成文本整个标注过程而设计。本发明的方法,包括:对文本句子进行实体识别和映射;生成依存句法树,从依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;对树形结构进行前序遍历,得到结点序列;分析词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词序列进行标注,生成关系网络标注语料。本发明操作方法简单,极大地节省了人力物力,并能够推广到其他领域的关系网络抽取任务中。

Description

面向句子级生物关系网络抽取的语料库生成方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体提出了一种面向句子级的生物关系网络抽取语料库的生成方法及系统。
背景技术
生物医学领域的关系网络抽取是生物医学文本挖掘领域的一个重要研究方向,其任务是从生物医学领域的科学文献中识别出命名实体及其相应功能,并提取出这些实体及功能之间的交互关系。作为一项应用基础性研究,这些网络信息的抽取对生物医学文献检索、生物知识网络的构建和生物体关系预测均具有重大的研究意义。
句子级生物关系网络是指单一句子所表达的生物实体及其功能之间的语义关系所构成的网络。如图1中的句子就表示了一个生物关系网络,即对蛋白质实体“HGNC:IL2”的催化会显著提升蛋白质实体“HGNC:LYN”和“HGNC:IL2RB”的复合作用。由于目前的生物关系网络语料是在句子级标注的,并没有标明关系网络是如何对应到句子的文本上的,因此无法直接使用基于机器学习的自然语言处理技术。目前的关系网络抽取方法通常采用模式匹配的方法和事件抽取的方法。基于模式匹配的方法首先从训练语料中总结出表示实体间关系网络的语言学模板,然后将这些模板应用到新的文献中,从而提取出相应的实体关系网络。其缺点是需要领域专家来设计模板,可移植性不强。基于事件抽取的方法首先抽取出事件信息,再将事件信息对应到关系网络上,其缺点是这种对应关系往往是不完整的。
鉴于上述的缺陷,本设计人积极加以研究创新,以期创设一种面向句子级的生物关系网络抽取语料库的生成方法及系统,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种将关系网络映射到文本句子中,自动生成生物关系网络抽取所需要的文本语料的面向句子级的生物关系网络抽取语料库的生成方法及系统。
为达到上述发明目的,本发明面向句子级生物关系网络抽取的语料库生成方法,包括:
S1、据已标注的关系网络信息,对生物医学领域的文本句子进行实体识别和映射;
S2、文本句子进行依存句法分析,生成依存句法树,从依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;
S3、语句表示成树形结构,对树形结构进行前序遍历,得到结点序列;
S4、析词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词语序列进行标注,生成关系网络标注语料。
进一步地,S1的具体包括:
利用生物医学领域的开源工具识别句子中的命名实体,将这些实体链接到实体数据库中,得到实体的标识符;
对于工具识别且链接成功的条目,在数据库中根据标识符查询出其标准名称,再利用标准名称和语句中的实体名称进行匹配,将句子中的实体映射到语句中的实体。
进一步地,S2具体包括:
利用生物医学领域的标注数据进行数据训练,得到句法分析器;
基于句法分析器对句子进行依存句法分析,将结果表示成树形结构,也即依存句法树;
基于依存句法树,找出根结点到每个实体结点的结点路径;
从根结点开始,逐结点遍历这些路径,直至遇到有一条路径中的某个结点与其他路径中的结点不相同,则该结点的父结点即为最低公共祖先结点(LCA);
将该最低公共祖先结点作为新的根结点,将从新的根结点出发到所有实体的路径抽取出,组成一个新的树,称为最小子树;
将最小子树中的结点按照文本句子中的词序展开为词语序列,称为最短词语序列。
进一步地,S3具体包括:
将语句中的关系结点取出,作为第一个结点也即根结点,将语句的左右两部分分别构成根结点的两棵子树;其中,在逐个扩展子树时,将最外层的生物功能作为子树的根结点,将该功能所包含的内部再作为新的根结点的子树,如此递归地由外向内构建,直到最后遇到实体结点,则直接将实体作为叶子结点,通过这种方式将语句转换成语句树;
按照前序遍历的方式获取树形结构的序列化表示,称为语句的结点序列,其中,在前序遍历过程中,首先输出根结点,然后从左到右遍历它的所有子树,在遍历某个子树时,仍然先输出子树的根结点,然后遍历该根结点的子树,依次类推,直至输出所有结点。
进一步地,S4具体包括:
以最短词语序列作为源语言的句子,语句的结点序列作为目标语言的句子,最短词语序列和结点序列对变成了机器翻译中的平行句对,构成了平行语料;
在平行语料中于写入实体→实体的平行句对,利用机器翻译中的词对齐工具获取源语言到目标语言的词语对应关系;
从对应结果中提取出最短词语序列中的词语和结点序列中的结点之间的对应关系;
在语句树中,采用自底向上的方式逐层次地生成序列标注语料,从最底层的实体结点开始标注,然后标注上层的功能结点,最后标注关系结点。
为达到上述发明目的,本发明面向句子级生物关系网络抽取的语料库生成系统,包括:
句子实体识别和映射单元,用于根据已标注的关系网络信息,对生物医学领域的文本句子进行实体识别和映射;
最短词语序列生成单元,用于对文本句子进行依存句法分析,生成依存句法树,从依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;
结点序列生成单元,用于将语句表示成树形结构,对树形结构进行前序遍历,得到结点序列;
关系网络标注语料输出单元,用于分析词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词语序列进行标注,生成关系网络标注语料。
进一步地,句子实体识别和映射单元包括:
标识符确定模块,用于利用生物医学领域的开源工具识别句子中的命名实体,将这些实体链接到实体数据库中,得到实体的标识符;
映射模块,用于对于工具识别且链接成功的条目,在数据库中根据标识符查询出其标准名称,再利用标准名称和语句中的实体名称进行匹配,将句子中的实体映射到语句中的实体。
进一步地,最短词语序列生成单元包括:
数据训练模块,用于利用生物医学领域的标注数据进行数据训练,得到句法分析器;
依存句法树生成模块,用于基于句法分析器对句子进行依存句法分析,将结果表示成树形结构,也即依存句法树;
最短序列输出单元,用于基于依存句法树生成模块输出的依存句法树,找出根结点到每个实体结点的结点路径;从根结点开始,逐结点遍历这些路径,直至遇到有一条路径中的某个结点与其他路径中的结点不相同,则该结点的父结点即为最低公共祖先结点;将该最低公共祖先结点作为新的根结点,将从新的根结点出发到所有实体的路径抽取出,组成一个新的树,称为最小子树;将最小子树中的结点按照文本句子中的词序展开为词语序列,称为最短词语序列。
进一步地,结点序列生成单元包括:
语句树生成模块,用于将语句中的关系结点取出,作为第一个结点也即根结点,将语句的左右两部分分别构成根结点的两棵子树;其中,在逐个扩展子树时,将最外层的生物功能作为子树的根结点,将该功能所包含的内部再作为新的根结点的子树,如此递归地由外向内构建,直到最后遇到实体结点,则直接将实体作为叶子结点,通过这种方式将语句转换成语句树;
结点序列输出模块,用于按照前序遍历的方式获取树形结构的序列化表示,称为语句的结点序列,其中,在前序遍历过程中,首先输出根结点,然后从左到右遍历它的所有子树,在遍历某个子树时,仍然先输出子树的根结点,然后遍历该根结点的子树,依次类推,直至输出所有结点。
进一步地,关系网络标注语料输出单元包括:
对应关系提取模块,用于以最短词语序列作为源语言的句子,语句的结点序列作为目标语言的句子,最短词语序列和结点序列对变成了机器翻译中的平行句对,构成了平行语料;在平行语料中于写入实体→实体的平行句对,利用机器翻译中的词对齐工具获取源语言到目标语言的词语对应关系;还用于从对应结果中提取出最短词语序列中的词语和结点序列中的结点之间的对应关系;
标注文本生成模块,用于在语句树中,采用自底向上的方式逐层次地生成序列标注文本,从最底层的实体结点开始标注,然后标注上层的功能结点,最后标注关系结点。
借由上述方案,本发明面向句子级的生物关系网络抽取语料库的生成方法及系统至少具有以下优点:
本发明所提出的语料库生成方法,可以在句子级的生物关系网络基础上逐层生成相应的标注文本,可用于后续的关系网络抽取任务。其优点是不需要人工干预,整个标注过程都是自动完成的,从而可以节省大量的人力和物力,并且由于本方法不需要领域知识,所以可以推广到其他领域的关系网络抽取任务中。
本发明利用现有的生物关系网络语料,通过实体识别和映射、依存句法分析和词语对齐等技术,将关系网络映射到文本句子中,自动生成生物关系网络抽取所需要的文本语料,从而便于使用基于机器学习的自然语言处理技术来抽取句子级的生物关系网络。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明的一种面向句子级生物关系网络抽取的语料库生成方法的流程图;
图2是最短词语序列抽取过程的具体示意图;
图3是序列化实体关系网络语句的示意图;
图4是词对齐的可视化表示;源语言:association of GENE_1 with GENE_2elevated by GENE_3 stimulation;目标语言:increases cat GENE_3 complex GENE_1GENE_2。
图5是层次化的关系网络标注语料的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明中所用到的定义如下:
生物关系网络语句:是一种用生物学表征语言表示的语句,用于表示生物医学领域的句子级实体关系网络,简称语句。如图1中的语句所示,语句的含义在上文已经进行了说明,其中“increases”表示“提高”关系,“cat”和“complex”表示生物功能“催化”和“复合”。
文本句子:文本句子表示的是生物医学领域的科学文献中的句子,蕴含了一条或多条语句,如图1中的“句子”即为语句所对应的原文。
关系网络标注语料:是本发明方法所生成的对应于关系网络的标注文本,这些文本构成了关系网络抽取语料库,可以用于基于机器学习的句子级实体关系网络抽取任务。如图1所示,是经过本发明提出的方法处理之后生成的关系网络标注语料,具体含义将在下文介绍如何生成关系网络抽取文本时进行说明。
依存句法树(Dependency Parsing Tree):依存句法树以树结构的形式描述一个句子中各个词语之间的依存关系,指出了词语之间在句法上的搭配关系。
本发明公开的一种面向句子级生物关系网络抽取的语料库生成方法中,首先利用现有工具,对句子进行实体识别和映射;然后利用句法分析工具,对句子进行依存句法分析,在依存句法分析的基础上抽取出包含实体的最短词语序列,作为源语言,将表示实体关系网络的树形结构序列化成结点序列,作为目标语言;然后,在此基础上利用词对齐工具获取源语言到目标语言之间的对齐关系,从而获取词语序列中的词到语句中的实体、功能和关系之间的对应关系;最后,根据上述对应关系,对句子逐层次地进行标注,生成关系网络抽取标注语料,可以用于后续的实体关系网络抽取任务。本发明提供了一种自动构建句子级生物关系网络抽取的语料库生成方法,整个流程不需要人工的干预,从而极大地节省了人力和物力。
实施例1
本实施例面向句子级生物关系网络抽取的语料库生成方法,包括:
S1根据已标注的关系网络信息,对生物医学领域的文本句子进行实体识别和映射;
S2对文本句子进行依存句法分析,生成依存句法树,从依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;
S3将语句表示成树形结构,对树形结构进行前序遍历,得到结点序列;
S4分析词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词语序列进行标注,生成关系网络标注语料。
本实施例,利用词对齐技术,获取句子中的词语和关系网络中的结点(实体、功能和关系)之间的对应关系,在此基础上再生成层次化的序列标注文本,可用于后续的关系网络抽取任务。不需要人工干预,整个标注过程都可以自动完成。
实施例2
本实施例面向句子级生物关系网络抽取的语料库生成方法,在实施例1的基础上,提供了一种实施例各步骤的具体实施方法。
S1具体说明:
实体识别,首先利用生物医学领域的开源工具识别句子中的命名实体,并将这些实体链接到实体数据库中,从而得到实体的标识符,实体类型包括蛋白质、化学品、疾病和生物过程等;
实体映射,将文本句子中识别出的实体映射到语句中的实体。具体地,对于工具识别且链接成功的条目,在数据库中根据标识符查询出其标准名称,再利用标准名称和语句中的实体名称进行匹配,从而将句子中的实体映射到语句中的实体。
例如以下例子:
文本句子-The association of lyn with IL-2Rbeta was markedly elevatedby IL-2stimulation.
生物关系网络语句-cat(p(HGNC:IL2))increases complex(p(HGNC:LYN),p(HGNC:IL2RB))
关系网络标注语料–[[association of[GENE1]GENE with[GENE2]GENE]complexelevated by[[GENE3]GENE stimulation]cat]decreases-REV
句子中的词“IL-2Rbeta”首先被工具识别成实体,并链接到数据库中得到实体的标识符为“3560”;然后,根据标识符从数据库中获取其规范表示“HGNC:IL2RB”,这样就可以将句子中的实体“IL-2Rbeta”映射到了语句中的实体“HGNC:IL2RB”。
S2具体说明:抽取最短词语序列,即句子中包含所有语句中实体的最简洁的表示形式。本发明中首先利用现有的句法分析工具,对文本句子进行依存句法分析,得到句子的依存句法树表示,然后抽取出包含语句中实体的最短词语序列。
依存句法分析,利用现成工具对文本句子进行依存句法分析,将结果表示成树形结构,称为句法树;
找到最低公共祖先结点(Lowest Common Ancestor,LCA),即在句法树中包含语句中所有实体的最低层的公共祖先结点。具体做法是:找出根结点到每一个实体结点的结点路径,然后从根结点开始,逐结点遍历这些路径,直至遇到有一条路径中的某个结点与其他路径中的结点不相同,则该结点的父结点即为最低公共祖先结点。如图2中的GENE1,GENE2和GENE3三个实体结点的LCA是“elevated”结点。
抽取最短词语序列,在句法树中以该LCA结点为新的根结点,将从新的根结点出发到所有实体的路径抽取出来,组成一棵新的树,称为最小子树,接着将该子树的所有结点按其在文本句子中的词序恢复为词语序列,这就是最短词语序列。
图2是从抽取最短词语序列的一个具体实例。依存句法树中被虚线包围的部分即为抽取出的最小子树。
句子-The association of GENE1 with GENE2 was markedly elevated byGENE_3 stimulation。
语句–cat(p(HGNC:IL2))increases complex(p(HGNC:LYN),(HGNC:IL2RB))
最短词语序列-association of GENE1 with GENE2 elevated by GENE3stimulation。
现以图3中的例子对步骤S3进行具体说明。该实例中语句的关系类型为“increases”,将其作为根结点;在语句中关系的左右两端分别为“cat(p(HGNC:IL2))”和“complex(p(HGNC:LYN),p(HGNC:IL2RB))”,功能结点分别为“cat”和“complex”,将两者分别作为根结点的两个孩子结点;然后将它们包含的实体结点分别作为对应的功能结点的孩子结点,就将语句转换成了树结构,最后通过前序遍历的方式将树结构转换为结点序列。
步骤S4:词语和结点对齐,即获取最短词语序列中的词语和结点序列中的结点之间的对应关系。
首先将最短词语序列看作源语言的句子,语句的结点序列看作目标语言的句子,这样最短词语序列和结点序列对就变成了机器翻译中的平行句对,构成了平行语料。为了保证词语序列中的实体和结点序列中的实体能够对齐,在平行语料中于写入实体→实体的平行句对。然后利用机器翻译中的词对齐工具获取源语言到目标语言的词语对应关系。最后,从对应结果中提取出最短词语序列中的词语和结点序列中的结点(如实体、功能和关系)之间的对应关系。
图4是词对齐的可视化表示,如“association”所在的列和“complex”所在的行的交点处为蓝色,表示词语序列中的“association”与结点序列中的“complex”之间是对齐的,即词“association”对应功能“complex”。
S4具体包括:构建关系网络标注语料,即利用句子中的词语与语句中的结点之间的对应关系,自动标注出语句中的结点所对应的文本范围。具体做法如下:在语句树中,从最底层的叶子结点(即实体)开始标注,然后标注上层的功能结点,最后标注关系结点,即采用自底向上的方式逐层次地生成序列标注文本;在标注某个结点,即确定这个结点所对应的文本范围时,不仅需要覆盖该结点所对应的文本句子中的词语,而且需要覆盖其所有孩子的标注范围,即应是这些范围的并集。
图5生成的标注数据即为图1中的层次化“关系网络标注语料”,下标表示语句树中的结点,该实例中包含“GENE1”、“GENE2”和“GENE3”三个实体结点。由于实体结点是叶子结点,所以其标注范围只包括所对应的词;功能结点包括“complex”和“cat”,以“complex”为例进行说明,由于“complex”是非叶结点,所以它的标注范围除了包含其所对应的词“association”之外,还需要将其孩子结点的标注范围包括在内,即标注范围从词“association”到“GENE2”;同样地,关系结点的标注范围也需要包含它所对应的词和其孩子结点的标注范围,即从“association”到“stimulation”。
需要注意的是,在上述示例中“GENE3”的词序在“GENE1”和“GENE2”之后,但是在语句中,“GENE3”是在根结点的左子树中,为了标志这种反向的关系,我们在关系结点上添加一个“REV”标记。
按照上述步骤标注完所有实例,即生成关系网络标注语料,可用于后续的关系网络抽取任务的训练和预测。
实施例3
本实施例面向句子级生物关系网络抽取的语料库生成系统,包括:
句子实体识别和映射单元,用于根据已标注的关系网络信息,对生物医学领域的文本句子进行实体识别和映射;
最短词语序列生成单元,用于对文本句子进行依存句法分析,生成依存句法树,从依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;
结点序列生成单元,用于将语句表示成树形结构,对树形结构进行前序遍历,得到结点序列;
关系网络标注语料输出单元,用于分析词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词语序列进行标注,生成关系网络标注语料。
本实施例可以用于运行上述实施例1方法,同时上述实施例1的方法也可使用本实施例系统运行。
本实施例中,句子实体识别和映射单元包括:
标识符确定模块,用于利用生物医学领域的开源工具识别句子中的命名实体,将这些实体链接到实体数据库中,得到实体的标识符;
映射模块,用于对于工具识别且链接成功的条目,在数据库中根据标识符查询出其标准名称,再利用标准名称和语句中的实体名称进行匹配,将句子中的实体映射到语句中的实体。
本实施例中,最短词语序列生成单元包括:
数据训练模块,用于利用生物医学领域的标注数据进行数据训练,得到句法分析器;
依存句法树生成模块,用于基于句法分析器对句子进行依存句法分析,将结果表示成树形结构,也即依存句法树;
最短序列输出单元,用于基于依存句法树生成模块输出的依存句法树,找出根结点到每个实体结点的结点路径;从根结点开始,逐结点遍历这些路径,直至遇到有一条路径中的某个结点与其他路径中的结点不相同,则该结点的父结点即为最低公共祖先结点;将该最低公共祖先结点作为新的根结点,将从新的根结点出发到所有实体的路径抽取出,组成一个新的树,称为最小子树;将最小子树中的结点按照文本句子中的词序展开为词语序列,称为最短词语序列。
本实施例中,结点序列生成单元包括:
语句树生成模块,用于将语句中的关系结点取出,作为第一个结点也即根结点,将语句的左右两部分分别构成根结点的两棵子树;其中,在逐个扩展子树时,将最外层的生物功能作为子树的根结点,将该功能所包含的内部再作为新的根结点的子树,如此递归地由外向内构建,直到最后遇到实体结点,则直接将实体作为叶子结点,通过这种方式将语句转换成语句树;
结点序列输出模块,用于按照前序遍历的方式获取树形结构的序列化表示,称为语句的结点序列,其中,在前序遍历过程中,首先输出根结点,然后从左到右遍历它的所有子树,在遍历某个子树时,仍然先输出子树的根结点,然后遍历该根结点的子树,依次类推,直至输出所有结点。
本实施例中,关系网络标注语料输出单元包括:
对应关系提取模块,用于以最短词语序列作为源语言的句子,语句的结点序列作为目标语言的句子,最短词语序列和结点序列对变成了机器翻译中的平行句对,构成了平行语料;在平行语料中于写入实体→实体的平行句对,利用机器翻译中的词对齐工具获取源语言到目标语言的词语对应关系;还用于从对应结果中提取出最短词语序列中的词语和结点序列中的结点之间的对应关系;
标注文本生成模块,用于在语句树中,采用自底向上的方式逐层次地生成序列标注文本,从最底层的实体结点开始标注,然后标注上层的功能结点,最后标注关系结点。
本发明技术核心,对生物医学领域的文本句子进行命名实体识别和映射;对文本句子进行依存句法分析,根据句子中的实体提取出包含语句中实体的最小子树,并按文本句子的词序恢复出所对应的词语序列,称为最短词语序列;将语句构建为树形结构,进行前序遍历,得到的序列表示称为结点序列;采用现有的词对齐工具获取词语序列中的词语和结点序列中的实体、功能和关系之间的对应关系;根据对应关系对最短词语序列进行层次化标注,得到各层次结点所包含的文本范围,生成关系网络标注语料,用于后续的句子级的生物关系网络抽取。
上述各实施介绍了本发明公开的方法及系统在生物医学领域中的具体应用,由于本发明所述的方法,从构建平行句对,到获取词语序列和结点序列的对应关系,再到最后再生成关系网络标注语料,整个过程不需要人工的干涉,因此,操作方法简单,极大地节省了人力物力,并能够推广到其他领域的关系网络抽取任务中。
在上述各实施例以外的其他文本句子、生物关系网络语句、关系网络标注语料实例列举:
实例1:
文本句子-The forkhead transcription factor Foxp3 is highly expressedin CD4+CD25+regulatory T cells(Treg)and was recently identified as a keyplayer in mediating their inhibitory functions.
生物关系网络语句-bp(GOBP:"regulatory T cell differentiation")increases tscript(p(HGNC:FOXP3))
关系网络标注语料–[[transcription[GENE1]GENE]tscript expressed in[BP1]BPcells]increases-REV
其中,文本句子中的“regulatory Tcells”经识别映射,再用符号“BP1”表示,同样地,“Foxp3”被处理成“GENE1”;功能“tscript”对齐到文本句子中的“transcription”,关系“increases”对齐到文本句子中的“expressed”。
实例2:
文本句子–overexpression of Osm in lungs of mice resulted in avigorous inflammatory response strongly supports a role of Osm in lunginflammatory responses that involve eosinophil infiltration.
生物关系网络语句-cat(p(MGI:Osmr))increases bp(GOBP:"inflammatoryresponse")
关系网络标注语料–[[overexpression of[GENE1]GENE]cat result in[BP1]BP]increases
其中,文本句子中的“Osm”经识别映射,再用符号“GENE1”表示,同样地,“inflammatory response”被处理成“BP1”;功能“cat”对齐到文本句子中的“overexpression”,关系“increases”对齐到文本句子中的“result”。
实例3:
文本句子–S100A8 induced activation of Mac1 which was tested using thereporter monoclonal antibody mAb24.
生物关系网络语句-p(HGNC:S100A8)increases cat(p(HGNC:ITGAM))
关系网络标注语料–[[GENE1]GENE induced[activation of[GENE2]GENE]cat]increases
其中,文本句子中的“S100A8”经识别映射,再用符号“GENE1”表示,同样地,“Mac1”被处理成“GENE2”;功能“cat”对齐到文本句子中的“activation”,关系“increases”对齐到文本句子中的“induced”。
上述实例的具体方法参照上述实施例1至3,在此不再赘述。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (8)

1.一种面向句子级生物关系网络抽取的语料库生成方法,其特征在于,包括:
S1、根据已标注的关系网络信息,对文本句子进行实体识别和映射;文本句子表征生物医学领域的科学文献中的句子,包含一条或多条语句;语句是一种用生物学表征语言表示的语句,表征生物医学领域的句子级实体关系网络;
S2、对所述文本句子进行依存句法分析,生成依存句法树,从所述依存句法树中抽取出包含句子中所有实体的最小子树,按照结点在所述文本句子中的词序恢复出对应的词语序列,该词语序列称为最短词语序列;
S3、将所述语句表示成树形结构,对所述树形结构进行前序遍历,得到结点序列;
S4、分析所述词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词语序列进行标注,生成关系网络标注语料;
S4具体包括:
以最短词语序列作为源语言的句子,语句的结点序列作为语言的句子,最短词语序列和结点序列对变成了机器翻译中的平行句对,构成了平行语料;
在平行语料中于写入实体→实体的平行句对,利用机器翻译中的词对齐工具获取源语言到目标语言的词语对应关系;
从对应结果中提取出最短词语序列中的词语和结点序列中的结点之间的对应关系;
在语句树中,采用自底向上的方式逐层次地生成序列标注语料,从最底层的实体结点开始标注,然后标注上层的功能结点,最后标注关系结点。
2.根据权利要求1所述的面向句子级生物关系网络抽取的语料库生成方法,其特征在于,S1的具体包括:
利用开源工具识别句子中的命名实体,将这些实体链接到实体数据库中,得到实体的标识符;
对于工具识别且链接成功的条目,在数据库中根据标识符查询出其标准名称,再利用该标准名称和语句中的实体名称进行匹配,将文本句子中的实体映射到语句中的实体。
3.根据权利要求1所述的面向句子级生物关系网络抽取的语料库生成方法,其特征在于,S2具体包括:
利用标注数据进行数据训练,得到句法分析器;
基于所述句法分析器对句子进行依存句法分析,将结果表示成树形结构,得到依存句法树;
基于所述依存句法树,找出根结点到每个实体结点的结点路径;
从根结点开始,逐结点遍历这些路径,直至遇到有一条路径中的某个结点与其他路径中的结点不相同,则该结点的父结点即为最低公共祖先结点;
将该最低公共祖先结点作为新的根结点,将从新的根结点出发到所有实体的路径抽取出,组成一个新的树,称为最小子树;
将所述最小子树中的结点按照文本句子中的词序展开为词语序列,称为最短词语序列。
4.根据权利要求1所述的面向句子级生物关系网络抽取的语料库生成方法,其特征在于,S3具体包括:
将语句中的关系结点取出,作为第一个结点也即根结点,将语句的左右两部分分别构成根结点的两棵子树;其中,在逐个扩展子树时,将最外层的生物功能作为子树的根结点,将该功能所包含的内部再作为新的根结点的子树,如此递归地由外向内构建,直到最后遇到实体结点,则直接将实体作为叶子结点,通过这种方式将语句转换成语句树;
按照前序遍历的方式获取树形结构的序列化表示,称为语句的结点序列,其中,在前序遍历过程中,首先输出根结点,然后从左到右遍历它的所有子树,在遍历某个子树时,仍然先输出子树的根结点,然后遍历该根结点的子树,依次类推,直至输出所有结点。
5.一种面向句子级生物关系网络抽取的语料库生成系统,其特征在于,包括:
句子实体识别和映射单元,用于根据已标注的关系网络信息,对文本句子进行实体识别和映射;文本句子表征生物医学领域的科学文献中的句子,包含一条或多条语句;
最短词语序列生成单元,用于对所述文本句子进行依存句法分析,生成依存句法树,从依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在所述文本句子中的词序恢复出对应的词语序列,该词语序列称为最短词语序列;语句是一种用生物学表征语言表示的语句,表征生物医学领域的句子级实体关系网络;
结点序列生成单元,用于将所述语句表示成树形结构,对所述树形结构进行前序遍历,得到结点序列;
关系网络标注语料输出单元,用于分析词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词语序列进行标注,生成关系网络标注语料;其中,所述关系网络标注语料输出单元包括:
对应关系提取模块,用于以最短词语序列作为源语言的句子,语句的结点序列作为目标语言的句子,最短词语序列和结点序列对变成了机器翻译中的平行句对,构成了平行语料;在平行语料中于写入实体→实体的平行句对,利用机器翻译中的词对齐工具获取源语言到目标语言的词语对应关系;还用于从对应结果中提取出最短词语序列中的词语和结点序列中的结点之间的对应关系;
标注文本生成模块,用于在语句树中,采用自底向上的方式逐层次地生成序列标注文本,从最底层的实体结点开始标注,然后标注上层的功能结点,最后标注关系结点。
6.根据权利要求5所述的面向句子级生物关系网络抽取的语料库生成系统,其特征在于,所述句子实体识别和映射单元包括:
标识符确定模块,用于利用开源工具识别所述文本句子中的命名实体,将这些实体链接到实体数据库中,得到实体的标识符;
映射模块,用于对于工具识别且链接成功的条目,在数据库中根据标识符查询出其标准名称,再利用该标准名称和所述语句中的实体名称进行匹配,将句子中的实体映射到语句中的实体。
7.根据权利要求5所述的面向句子级生物关系网络抽取的语料库生成系统,其特征在于,所述最短词语序列生成单元包括:
数据训练模块,用于利用标注数据进行数据训练,得到句法分析器;
依存句法树生成模块,用于基于所述句法分析器对句子进行依存句法分析,将结果表示成树形结构,得到依存句法树;
最短序列输出单元,用于基于所述依存句法树生成模块输出的依存句法树,找出根结点到每个实体结点的结点路径;从根结点开始,逐结点遍历这些路径,直至遇到有一条路径中的某个结点与其他路径中的结点不相同,则该结点的父结点即为最低公共祖先结点;将该最低公共祖先结点作为新的根结点,将从新的根结点出发到所有实体的路径抽取出,组成一个新的树,称为最小子树;将所述最小子树中的结点按照文本句子中的词序展开为词语序列,称为最短词语序列。
8.根据权利要求5所述的面向句子级生物关系网络抽取的语料库生成系统,其特征在于,所述结点序列生成单元包括:
语句树生成模块,用于将语句中的关系结点取出,作为第一个结点也即根结点,将语句的左右两部分分别构成根结点的两棵子树;其中,在逐个扩展子树时,将最外层的生物功能作为子树的根结点,将该功能所包含的内部再作为新的根结点的子树,如此递归地由外向内构建,直到最后遇到实体结点,则直接将实体作为叶子结点,通过这种方式将语句转换成语句树;
结点序列输出模块,用于按照前序遍历的方式获取树形结构的序列化表示,称为语句的结点序列,其中,在前序遍历过程中,首先输出根结点,然后从左到右遍历它的所有子树,在遍历某个子树时,仍然先输出子树的根结点,然后遍历该根结点的子树,依次类推,直至输出所有结点。
CN201711216700.4A 2017-11-28 2017-11-28 面向句子级生物关系网络抽取的语料库生成方法及系统 Active CN107992476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711216700.4A CN107992476B (zh) 2017-11-28 2017-11-28 面向句子级生物关系网络抽取的语料库生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711216700.4A CN107992476B (zh) 2017-11-28 2017-11-28 面向句子级生物关系网络抽取的语料库生成方法及系统

Publications (2)

Publication Number Publication Date
CN107992476A CN107992476A (zh) 2018-05-04
CN107992476B true CN107992476B (zh) 2020-11-24

Family

ID=62033900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711216700.4A Active CN107992476B (zh) 2017-11-28 2017-11-28 面向句子级生物关系网络抽取的语料库生成方法及系统

Country Status (1)

Country Link
CN (1) CN107992476B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062910A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN109710928B (zh) * 2018-12-17 2022-08-19 新华三大数据技术有限公司 非结构化文本的实体关系抽取方法及装置
CN109960803B (zh) * 2019-03-20 2023-04-18 苏州大学 基于成分句法压缩树的指代消解方法
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
CN111353306B (zh) * 2020-02-22 2020-10-16 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339362B (zh) * 2011-11-08 2015-03-04 苏州大学 一种抽取蛋白质相互作用关系的方法
US20130262091A1 (en) * 2012-03-30 2013-10-03 The Florida State University Research Foundation, Inc. Automated extraction of bio-entity relationships from literature
US20150324481A1 (en) * 2014-05-06 2015-11-12 International Business Machines Corporation Building Entity Relationship Networks from n-ary Relative Neighborhood Trees
CN104298651B (zh) * 2014-09-09 2017-02-22 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法

Also Published As

Publication number Publication date
CN107992476A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN107992476B (zh) 面向句子级生物关系网络抽取的语料库生成方法及系统
CN107832229B (zh) 一种基于nlp的系统测试用例自动生成方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
US9037613B2 (en) Self-learning data lenses for conversion of information from a source form to a target form
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN116245177B (zh) 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN107203468A (zh) 一种基于ast的软件版本演化对比分析方法
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
US20090164428A1 (en) Self-learning data lenses
Azir et al. Wrapper approaches for web data extraction: A review
CN110119510A (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN111651569B (zh) 一种电力领域的知识库问答方法及系统
WO2017193472A1 (zh) 一种东巴经典古籍数字化释读库的建立方法
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN109325217B (zh) 一种文件转换方法、系统、装置及计算机可读存储介质
CN106484676A (zh) 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN104424399A (zh) 一种基于病毒蛋白质本体的知识导航的方法、装置和系统
Zhou et al. Assisting in requirements goal modeling: a hybrid approach based on machine learning and logical reasoning
CN104484156A (zh) 多语言公式的编辑方法、编辑系统和多语言公式编辑器
CN114996462B (zh) 基于人机协作的科技文献专业知识候选挖掘方法及系统
CN115098657A (zh) 自然语言转换数据库查询语句的方法、设备及介质
CN110866400B (zh) 一种自动化更新的词法分析系统
CN114118098A (zh) 基于要素抽取的合同评审方法、设备及存储介质
CN106649219A (zh) 一种通信卫星设计文件自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant