CN102968431B

CN102968431B - 一种基于依存树的中文实体关系挖掘的控制装置

Info

Publication number: CN102968431B
Application number: CN201210349668.8A
Authority: CN
Inventors: 郑珊珊; 林欣
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2012-09-18
Filing date: 2012-09-18
Publication date: 2018-08-10
Anticipated expiration: 2032-09-18
Also published as: CN102968431A

Abstract

本发明提供一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制装置，其特征在于，包括如下装置：输入装置，其用于输入种子元组；模板生成装置，其基于依存树解析根据输入的种子元组生成与所述元组相适应的元组模板；模板匹配装置，其基于依存树解析以及上述元组模板生成装置生成的元组模板生成中间元组并将所述中间元组作为种子元组输入上述元组模板生成装置；以及输出装置，其用于输出所有中间元组作为新元组集合。

Description

一种基于依存树的中文实体关系挖掘的控制装置

技术领域

本发明涉及网络挖掘、信息抽取、命名实体关系挖掘、汉语语义语法、句子结构分析、模式匹配、机器学习、最短路径算法等技术领域，具体地说是一种基于代表句子结构语义的依存树的弱监督性网络中文命名实体关系挖掘系统。

背景技术

随着计算机的普及以及互联网的迅猛发展，网络资源日益增长，内容覆盖面的越来越广泛。人们在日常生活对网络资源的使用越来越频繁，需求也越来越高，不再是简简单单的关键词匹配。面对无结构的、层次复杂、信息繁复的网络数据，人们希望能快速准确的获得自己所需的数据。因此，面对海量信息,通过信息抽取技术从浩瀚的中文信息海洋中自动寻找用户所需求的信息则显得至关重要。它能将将无结构化的信息转换为结构化或者半结构化信息的过程目前大部分信息抽取系统是从文本中抽取特定的实体信息,包括时间、机构、地点等互联网上不仅蕴含了大量的实体信息,还蕴含着实体之间关系的信息。

目前，已经有很多研究员从事了这方面的工作，并取得了不错的进展，而面对海量的网络数据，比较成熟的有如DIPRE，TextRunner和snowball等，也有许多专家针对他们进行进一步改进。但这些系统，往往都没有考虑句子的语法结构，因而并不是很适用于语法词法结构松散且句子复杂的中文语料中。在中文的命名实体关系挖掘中，做得比较好的有哈工大的基于网络挖掘的实体关系自动获取系统。但它也没有更多的考虑中文句子的结构。本文所提出的关系挖掘方法恰恰弥补了这个缺点，代表利用中文的句法结构的依存树，对中文实体的关系对作出更好的定位，并利用依存树结构，提出了一种包含语法结构和实体上下文信息的模板形式，并将模板的挖掘和模板的匹配进行自动化，有效的适用于中文的网络数据，并能抽取出高准确率的命名实体关系元组。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制装置，其特征在于，包括如下装置：输入装置，其用于输入种子元组；模板生成装置，其基于依存树解析根据输入的种子元组生成与所述元组相适应的元组模板；模板匹配装置，其基于依存树解析以及上述元组模板生成装置生成的元组模板生成中间元组并将所述中间元组作为种子元组输入上述元组模板生成装置；以及输出装置，其用于输出所有中间元组作为新元组集合。

根据本发明的一个方面，提供一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制方法，其特征在于，包括如下步骤：a.输入种子元组；b.基于依存树解析根据输入的种子元组生成与所述元组相适应的元组模板；c.基于依存树解析以及上述步骤c生成的元组模板生成中间元组；d.输出中间元组并将所述中间元组加入新元组集合，将所述中间元组作为所述种子元组；e.重复执行上述步骤a至上述步骤d，至所述元组模板或者所述中间元组不能生成；以及f.生成新元组集合。

根据本发明的另一个方面，还提供一种基于依存树的网络中文命名实体关系挖掘系统，包括服务器端以及客户端，其特征在于，所述模板生成器针对中文句子无结构繁复的特点引入语法依存树以增加模板的语法结构和上下文信息，并根据依存树结构定制了一种新的模板；所述模板匹配器根据所述模板的结构提出了一种新的模板匹配方法，要求在依存树结构和所述元组的实体类型两方面都完全匹配。

优选地，所述模板生成器生成的模板的结构如下：

pattern→pattern,pattern|element；

element→abbreviated_relation_name(governor,dependent)；

governor→word|(e1.tag)1|(e2.tag)2；

dependent→word|(e1.tag)1|(e2.tag)2。

其中，所述pattern是指所述模板，所述element指所述依存树中连接两个节点的边，所述abbreviated_relation_name是指所述依存树中边的具体语义含义，所述word句子中被切词之后的一个词，所述e1.tag指所述种子元组中第一个实体的实体类型，同样的，所述e2.tag指所述种子元组中第二个实体的实体类型，所述1和2分别指向该实体在所述种子元组中的位置。

优选地，所述模板生成器包含以下模块：实体和关系的最小子树定位模块，用于根据所述种子元组定位确定所述种子元组中两个实体和关系词的位置，并使用最短路径算法的Dijkstra算法获得连接所述种子元组中两个实体和关系词最小子树。最小子树扩展模块，用于扩展所述最小子树，增加模板的信息量；模板生成模块，用于将模板的所述依存树结构转化为权利要求书2的所述模板的形式。

优选地，依据由所述依存树解析模块获得的所述依存树的结构，确定所述种子元组中两个实体和关系词的位置，多次使用最短路径算法的Dijkstra算法获得所述种子元组中的两个实体之间的最短路径和一个实体与关系词的最短路径，再结合这两类路径确定一棵连接所述种子元组中两个实体和关系词最小子树。

所述依存树之间的边的长度可以依据不同所述abbreviated_relation_name表达的意义的重要性来定义。

优选地，可以依据需要，定义所述依存树扩展的节点和边的类型。

优选地，所述模板生成器包含以下模块：候选元组抽取模块，用于根据将所述依存树解析模块获得的所述依存树和所述模板相比较，获得候选元组。候选元组实体类型验证模块，用于根据抽取出所述候选元组的所述模板中所述种子元组的实体类型——权利要求书2中所述模板结构的所述e1.tag和所述e2.tag，确认候选元组的正确性，过滤不符合实体类型的候选元组；

优选地，所述候选元组抽取模块将所述依存树解析模块获得的所述依存树中的所述unit和所述模板中的所述element一一比较匹配，如果除了所述(e1.tag)1和所述(e2.tag)2之外的所有信息都能完全匹配，取出所述unit。最终如果所述依存树中的所述unit能够完全匹配到所有的所述模板中的所述element，则根据所述模板中的所述(e1.tag)1和所述(e2.tag)2的位置，取出两个实体，和所述模板中的关系词共同构成一个所述候选组，并将其放入所述候选集中。

根据本发明的一个方面，提供一种基于依存树的弱监督性网络中文命名实体关系挖掘系统，包括模板生成器和模板匹配器，其中，所述模板生成器用于根据输入的种子元组，从网络中抽取出相关的描述种子元组的句子，并根据这些句子的依存树结构从中抽取出相应的模板，其中所述种子元组包括两个命名实体以及他们之间的关系；所述模板匹配器用于根据所述模板生成器生成的模板，利用模板匹配的方法，从网络中抽取出符合该模板的新的命名实体对元组，其中所述新的命名实体对元组，其结构与所述种子元组一致。

本发明通过系统输入的种子元组，经过模板生成器，得到模板，并利用模板，匹配网络数据得到新元组，接着再利用新的元组获取更多的模板，抽取出更多的元组，并依次循环迭代，直至所述模板生成器抽取出新的模板，或者所述模板匹配器找不到新的元组。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的一个具体实施方式的，一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制装置的结构示意图；

图2示出根据本发明的第一实施例的，一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制方法的流程图；

图3示出根据本发明的一个具体实施方式的，一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制方法根据共现句构成的依存树示意图；

图4示出根据本发明的一个具体实施方式的，一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制方法的生成最小树的流程图；以及

图5示出根据本发明的一个具体实施方式的，一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制方法的生成中间元组的流程图。

具体实施方式

本发明公开了一种基于依存树的弱监督性网络中文命名实体关系挖掘系统，可利用几个所述种子元组，获得高准确率的含有语法结构和上下文信息的模板和新的元组。通常语句中的依存关系可以用树形图来表示。表示依存关系的树形图，叫做依存树(dependency tree)。这种依存树是机器翻译中句子结构的一种形式描述方式。依存树中的结点之间的关系，主要有支配关系和前于关系两种。

针对这样的信息抽取系统，使用该系统用户可以获得更多有效，有结构的命名实体关系信息。用户会希望得到比较正确的信息，尽量避免检索结果的错误问题，但可以容忍检索结果少。

因此本系统接收包含两个命名实体及其关系词的种子元组，针对中文句子无结构繁复的特点和现有的弱监督性方法的优点，引入句子语法依存树以提高模板的匹配程度，通过依存树来得到含有句子语法结构和实体对的语境信息的模板并根据所得到的模板，抽取更多的相似的语句，以获得更多的新元组。为配合依存树结构，本系统提出了一种新的模板结构，并根据该模板结构提出了符合模板特点的模板匹配方法。

本系统结合了现有的弱监督性方法的优点和依存树可以充分表达句子结构和上下文关联信息的优点，实现了在海量网络数据上进行中文实体挖掘的系统。只需要少量的种子元组，本系统即可循环迭代的持续获得网络中的命名实体关系元组，并且易于扩展成不同的关系类别。

本发明可以以任何手工输入的种子元组开始，获得更多更正确的新元组和模板。下面以种子元组（奥巴马，美国，总统）为例，结合附图对本发明作进一步说明。

图1示出根据本发明的一个具体实施方式的，一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制装置的结构示意图；图1为本发明总体流程图。具体地，系统在输入模块1中接收所述种子元组作为输入以触发系统，所述种子元组包括两个命名实体及其关系词，然后所述种子元组经过模块2所述模板生成器生成预定义格式的模板，并将其作为模块9所述模板匹配器的输入，抽取出新的元组，进而将元组返回给模块2所述模板生成器以达到循环迭代的效果。同时将抽取出新的元组输出放入模块13新元组模块。然后更为具体地，所述模板生成器包括：一个模块3元组共现句抽取模块。在本实施例中，所述元组共现句抽取模块根据所述种子元组的命名实体对和关系词利用搜索引擎在网络数据中搜索含有所述种子元组的命名实体对和关系词的句子。一个模块4依存树解析模块。在本实施例中，所述依存树解析模块利用现有的中文句子语法依存树的解析工具，生成由所述抽取共现句模块获得的所述元组共现句。其中，所述依存树的结构有一系列节点和边组成，且每一条边都定义了节点之间的语法关系，其形式化的表达式如下，

tree→tree,tree|unit；

unit→abbreviated_relation_name(governor,dependent)；

governor→phrase-location；

dependent→phrase-location。

其中，所述unit是指所述依存树中连接两个节点的边。所述governor和所述dependent是指所述依存树中的节点。所述abbreviated_relation_name是指所述依存树中边的具体语义含义。所述phrase是指句子中被切词之后的一个词，所述location是指所述phrase在句子中的位置。

其中依存树的边的具体含义的中英文对照，如asp，dep，dobj，cc，nn等的具体意思。本发明优选地使用的边的关系含义采用的是斯坦福大学解析器的标准。

具体的边的含义如下：

更为具体的，在一个具体实施例中，所述依存树结构的图形表示如图3所示。其中所述节点的几个实例是“奥巴马-23”，“吸引-19”，“总统-22”。从“吸引-19”指向“奥巴马-23”的边是所述边，即unit的一个实例，而dobj是所述abbreviated_relation_name的一个实例，其中19和23是所述location的两个实例。

一个模块5实体和关系的最小子树定位模块。在本实施例中，所述实体和关系的最小子树定位模块依据由所述依存树解析模块获得的所述依存树的结构，确定所述种子元组中两个实体和关系词的位置，并获得连接所述种子元组中两个实体和关系词最小子树。在本实施例中，获得最小子树的基础算法是最短路径算法的Dijkstra算法，多次使用所述Dijkstra算法，分别获得所述种子元组中的两个实体之间的最短路径和一个实体与关系词的最短路径，最后再结合这两类路径确定一颗最小子树。更为具体地，在一变化例中，本技术领域人员可以依据不同所述abbreviated_relation_name表达的意义的重要性定义不同的所述边的长度，以取得最佳的最小子树。更为具体的，在一个变化例的具体实施例中，将与中文的主语、谓语和宾语相关的所述abbreviated_relation_name的权重设为1，而其他的设为无限大。

一个模块6最小子树扩展模块。在本实施例中，最小子树的扩展方法为根据所述种子元组中两个实体和关系词在最小子树中的位置，在所述依存树中再往外增加一个节点。在一变化例中，本领域技术人员还可以所述最小子树扩展模块定义向外扩展的节点数。在另一变化例中，本领域技术人员还可以对扩展的边的所述abbreviated_relation_name进行限制。在一变化里的具体实施例中，本系统要求只扩展与中文的主语、谓语和宾语相关的边和节点。

一个模块7依存树结构抽取。所述依存树结构抽取模块根据所述最小子树扩展模块的结果，结合所述依存树，取出依存树结构中表示扩展后的子树路径的所述边。

一个模块8模板生成模块。在本实施例中，所述模板形式依据所述依存树的形式确定的，其形式化表达如下，

pattern→pattern,pattern|element；

element→abbreviated_relation_name(governor,dependent)；

governor→word|(e1.tag)1|(e2.tag)2；

dependent→word|(e1.tag)1|(e2.tag)2。

其中，所述pattern是指所述模板，所述element与上文的所述unit意义相同，所述word与所述phrase的意义相同，所述e1.tag指所述种子元组中第一个实体的实体类型，同样的，所述e2.tag指所述种子元组中第二个实体的实体类型，所述1和2分别指向该实体在所述种子元组中的位置。

更为具体的，在图4模板生成实例流程图的一个具体实施例，所述元组共现句抽取模块根据所述种子元组的一个实例（奥巴马，美国，总统），抽取出所述种子元组的实例的所述元组共现句的一个实例“日本与美国的女足世界杯冠军争夺不仅吸引了全世界的球迷和媒体，也吸引了美国总统奥巴马。”。所述依存树解析模块获得所述依存树的一个实例“…,assmod(女足-5,美国-3),nsubj(吸引-10,女足-5),…,dep(吸引-10,吸引-19),nn(总统-22,美国-21),nn(奥巴马-23,总统-22),dobj(吸引-19,奥巴马-23)”，然后所述实体和关系的最小子树定位模块结合所述依存树和所述种子元组，获得所述最短路径为23-->22-->21。接着，所述最小子树扩展模块，将节点“奥巴马-23”再向外扩展一个节点“吸引-19”，获得最后结果为19-->23-->22-->21。接着，所述依存树结构抽取模块获得“nn(总统-22,美国-21),nn(奥巴马-23,总统-22),dobj(吸引-19,奥巴马-23)”，最后所述模板生成模块，最终生成所述模板“nn(总统,ns2),nn(nr1,总统),dobj(吸引,nr1)”，其中所述nr1和所述ns2分别是所述(e1.tag)1和所述(e2.tag)2的实例。本发明意在抽取出更多的预定义关系元组。在所述种子元组的实例（奥巴马，美国，总统）中，“奥巴马”和“总统”是所述实体，“总统”是所述预定义关系。本发明在构建模板种子元组的关系的模板中，保留所述预定义关系，意在根据模板抽取模板共现句时，使该共现句一定含有所述预定义关系。本发明意在抽取出更多的预定义关系元组，因此需要将实体对用tag替换来匹配模板共现句中的实体，以获得所述预定义关系的元组。

所述模板匹配器包括：一个模块10模板共现句抽取模块，在本实施例中，所述模板共现句抽取模块与上述的所述模板生成器中的所述元组共现句抽取模块一样都是利用搜索引擎在网络中抓取数据。在本实施例中，所述模板共现句是指包含所述模板中的所有所述word的句子。一个模块11候选元组抽取模块，在本实施例中，所述候选元组抽取模块将所述依存树解析模块获得的所述依存树中的所述unit和所述模板中的所述element一一比较匹配，如果除了所述(e1.tag)1和所述(e2.tag)2之外的所有信息都能完全匹配，取出所述unit。最终如果所述依存树中的所述unit能够完全匹配到所有的所述模板中的所述element，则根据所述模板中的所述(e1.tag)1和所述(e2.tag)2的位置，取出两个实体，和所述模板中的关系词共同构成一个所述候选组，并将其放入所述候选集中。一个模块12候选元组实体类型验证模块。在本实施例中，所述候选元组实体类型验证模块模块根据抽取出所述候选元组的所述模板，获得所述e1.tag和所述e2.tag，并将其与所述候选元组中的实体类型相比较，如果所述候选元组的实体类型和所述e1.tag及所述e2.tag完全一致，那么确定所述候选元组是正确的，否则，所述候选元组被判定为错误的，不将其输出到模块14新元组集合。另外，所述模板匹配器还包括模块4所述依存树解析。

更为具体地，在图5模板匹配实例流程图的一个具体实施例中，所述模板共现句抽取模块根据所述模板“nn(总统,ns2),nn(nr1,总统),dobj(吸引,nr1)”获得所述模板共现句“但这一状况也许会在未来发生改变：因为它吸引了俄罗斯总统梅德韦杰夫。”。然后所述依存树解析模块将所述模板共现句的实例解析为“advmod(改变-10,但-1),…,nn(总统-17,俄罗斯-16),nn(梅德韦杰夫-18,总统-17),dobj(吸引-14,梅德韦杰夫-18)”。接着所述候选元组抽取模块按照上文描述的匹配方法获得所述候选元组的一个实例（梅德韦杰夫，俄罗斯，总统），其中梅德韦杰夫和俄罗斯是所述种子元组的两个实体的实例。最后所述候选元组实体类型验证模块根据所述模板确认所述候选元组的实体类型。在本具体实施例中，实体1的类型是nr，实体2的类型是ns，而所述候选元组的实体1——梅德韦杰夫——的实体类型是nr，实体2——俄罗斯——的实体类型是ns，所以所述候选元组可以确认为是正确的元组，并将其投入所述模板生成器。本发明针对的实体，至少包括人名、地名、机构名，其实体类型的标记使用的是中国科学院分词词性标记集。其中，人名的标记为nr，地名为ns，机构名为nt。

图2示出根据本发明的第一实施例的，一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制方法的流程图。具体地，本图示出了八个步骤。首先是步骤S301输入种子元组。然后是步骤S302基于依存树解析根据输入的种子元组生成与所述元组相适应的元组模板。步骤S303，判断生成的元组模板是否是新的元组模板，若判断所述元组模板是新的则继续执行步骤S304，若判断所述元组模板不是新的，则跳至步骤S308。步骤S304基于依存树解析以及上述步骤S302生成的元组模板生成中间元组。步骤S305，判断生成的中间元组是否是新的中间元组，若判断所述中间元组是新的则继续执行步骤S306，若判断所述中间元组不是新的，则跳至步骤S308。步骤S306将所述中间元组加入新元组集合。之后执行步骤S307将所述中间元组作为所述种子元组并跳至步骤S301。步骤S308生成新元组集合。

结合上述图1、图2以及图3所示出的实施例，本发明公开了一种基于代表句子结构语义的依存树的弱监督性网络中文命名实体关系挖掘系统，结合了现有的弱监督性方法的优点和依存树可以充分表达句子结构和上下文关联信息的优点，实现了在海量网络数据上的应用。可以在少量的种子元组触发下，循环迭代的持续获得网络中的命名实体关系元组。结合上述图4和图5的具体实施样例，本发明更为具体详细的解释了本系统的框架流程。

上述方法和系统描述中一些部分对结构特征和方法进行了具体的描述，但是应该了解，在所述权利要求中定义的本发明不必限于所述的具体特征或动作。此具体特征或动作仅为了更好地说明本发明作为一个例子而存在的。本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制装置，其特征在于，包括如下装置：

输入装置，其用于输入种子元组；

模板生成装置，其基于依存树解析根据输入的种子元组生成与所述元组相适应的元组模板，所述模板生成装置包括：

最小子树确定装置，其用于根据所述种子元组获取共现句生成的依存树中，确定连接所述种子元组中实体以及关系词的最小子树，所述最小子树确定装置包括：

元组共现句抽取装置，其用于根据所述种子元组中的元素抽取共现句集合；

第一依存树解析装置，其用于对所述共现句集合中每一个共现句生成一个依存树，并对每一个依存树进行解析，获取所述依存树的结构；以及

最小子树生成装置，其用于根据所述依存树解析装置获取的每一个依存树结构生成连接所述种子元组的实体及其关系词的最小子树；

最小子树扩展装置，其用于根据预定扩展规则对所述最小子树进行扩展；

最小子树结构抽取装置，其用于抽取所述扩展后的最小子树的结构；以及

元组模板生成装置，其用于根据上述扩展后最小子树的结构生成元组模板；

模板匹配装置，其基于依存树解析以及上述元组模板生成装置生成的元组模板生成中间元组并将所述中间元组作为种子元组输入上述元组模板生成装置；以及

输出装置，其用于输出所有中间元组作为新元组集合。

2.根据权利要求1所述的控制装置，其特征在于，所述依存树结构包括：

-连接两节点的边，由该边连接的两个节点的关系、该边发出的节点以及该边指向的节点描述；

-边发出的节点，由该节点在其所在句子中的位置描述；以及

-边指向的节点，由该节点在其所在句子中的位置描述。

3.根据权利要求1所述的控制装置，其特征在于，所述种子元组与所述中间元组至少包括实体一，实体二以及所述实体一和实体二的关系词。

4.根据权利要求1所述的控制装置，其特征在于，所述最小子树扩展装置将预先定义所述依存树扩展的节点和边的类型作为所述预定扩展规则。

5.根据权利要求4所述的控制装置，其特征在于，所述共现句的获取由所述种子元组的实体及其关系作为搜索关键词的搜索结果中的标题以及摘要生成。

6.根据权利要求5所述的控制装置，所述最小子树确定装置使用最短路径算法获取所述种子元组中的两个实体之间的最短路径和一个实体与关系词的最短路径，再结合这两类路径确定一棵连接所述种子元组中两个实体和关系词最小子树。

7.根据权利要求6所述的控制装置，所述依存树的边的长度依据不同节点间关系的重要性预先定义。

8.根据权利要求1至7任一项所述的控制装置，其特征在于，所述元组模板由以下元素描述：

-实体关系，由实体关系的具体含义、实体一以及实体二所描述；

-实体一，由与其相适应地所述种子元组中实体类型以及该实体类型在所述种子元组中的位置描述；以及

-实体二，由与其相适应地所述种子元组中实体类型以及该实体类型在所述种子元组中的位置描述。

9.根据权利要求1至7任一项所述的控制装置，其特征在于，所述模板匹配装置包含以下装置：

模板共现句抽取装置，其用于根据所述元组模板中的词作为搜索关键词，获取包含所述元组模板中所有词的模板共现句集合；

第二依存树解析装置，其用于对所述元组模板共现句集合中每一个共现句生成一个依存树，并对每一个依存树进行解析，获取所述依存树的结构；

候选元组抽取装置，用于根据将所述第二依存树解析模块获得的所述依存树和所述模板相比较，获得候选元组；以及

候选元组实体类型验证模块，用于根据抽取出所述候选元组的所述模板中所述种子元组的实体类型，确认候选元组的正确性，过滤不符合实体类型的候选元组，生成中间元组。

10.一种在数据挖掘系统中基于依存树的中文实体关系挖掘的控制方法，其特征在于，包括如下步骤：

a.输入种子元组；

b.基于依存树解析根据输入的种子元组生成与所述元组相适应的元组模板,所述步骤b包括：

b1.根据所述种子元组获取共现句生成的依存树中，确定连接所述种子元组中实体以及关系词的最小子树，所述步骤b1包括：

根据所述种子元组中的元素抽取共现句集合；

对所述共现句集合中每一个共现句生成一个依存树，并对每一个依存树进行解析，获取所述依存树的结构；以及

根据所述依存树解析装置获取的每一个依存树结构生成连接所述种子元组的实体及其关系词的最小子树；

b2.根据预定扩展规则对所述最小子树进行扩展；

b3.抽取所述扩展后的最小子树的结构；以及

b4.根据上述扩展后最小子树的结构生成元组模板；

c.基于依存树解析以及上述步骤b生成的元组模板生成中间元组；

d.输出中间元组并将所述中间元组加入新元组集合，将所述中间元组作为所述种子元组；

e.重复执行上述步骤a至上述步骤d，至所述元组模板或者所述中间元组不能生成；以及

f.生成新元组集合。