CN107957991A

CN107957991A - 一种基于句法依赖的实体属性信息抽取方法及装置

Info

Publication number: CN107957991A
Application number: CN201711263702.9A
Authority: CN
Inventors: 郭建京; 彭建辉
Original assignee: Hunan Xinghan Shuzhi Technology Co Ltd
Current assignee: Hunan Xinghan Shuzhi Technology Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-04-24
Anticipated expiration: 2037-12-05
Also published as: CN107957991B

Abstract

本发明公开了一种基于句法依赖的实体属性信息抽取方法及装置，该方法首先对待抽取文本进行预处理，得到待抽取文本实体；然后根据待抽取文本的句法依赖和词性关系，建立词语之间的无向有权图，根据词性关系得到待抽取文本实体的候选属性信息；搜索待抽取文本实体与候选属性信息的词语之间的最短路径，将最短路径上经过的词语组成关联信息词语集合；最后计算属性集合中的每个属性与关联信息词语集合之间的语义相似度，得到实体属性，整合实体、实体属性和属性信息作为最终的抽取结果。本发明将自然语言处理技术和图论模型相结合，解决文本信息的歧义性，提高了文本抽取准确率；利用关键词的语义相似度，自动归纳抽象信息的属性，提高了抽取效率。

Description

一种基于句法依赖的实体属性信息抽取方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于句法依赖的实体属性信息抽取方法及装置。

背景技术

随着互联网应用的迅猛发展，网络上的蕴含的网页和文本数量也呈指数型增长，如何从这些海量的网页和文本中抽取有效实用的信息，成为目前工业界和学术界研究和开发的热点。目前，基于结构化文本的信息抽取已经取得了巨大的进展，并且得到了广泛的应用。然而，由于非结构化的自由文本的呈现形式复杂多变、杂乱无章，以及文本语义的多样性和歧义性，再加之文本中存在大量无效和干扰的文字图片等信息，进一步增加了自由文本信息抽取的难度，使得实体属性信息抽取效果不佳，且包含大量的错误，因此文本信息抽取仍然是一项具有挑战性的工作。

现有文本信息抽取方法，主要分为以下两类：

1、基于数据挖掘的信息抽取。该方法主要通过对海量数据进行统计，对文本信息进行分析处理，建立信息抽取模板，从而提取数据中的实体属性信息。但由于该方法需要事先配置大量的抽取模板，抽取效率较低，且缺乏对文本语义信息的理解，因此得到的结果中包含大量的错误信息，导致抽取结果的准确率不佳。

2、基于自然语言处理的信息抽取。该方法目前较为流行，其对自由文本进行分词，命名实体识别和句法依赖解析等操作，再对文本信息进行识别和理解，并提取文本信息的主干成分，作为文本中的实体关联信息。与基于数据挖掘的信息抽取方法相比，本方法增加了语言理解知识，较好的解决了文本之间的歧义性，提升了信息抽取的准确率，信息抽取效率大大提高。但是，由于基于自然语言处理的信息抽取得到的实体关联信息，没有进行属性对齐，要得到实体属性信息仍需对抽取得到的实体关联信息进行整理归类，增加了后期处理的难度。

发明内容

发明的目的：为了解决现有基于自然语言处理的信息抽取方法属性未对齐的技术问题，提供一种基于句法依赖的实体属性信息抽取方法及装置，将自然语言处理与图论思想相结合，利用自然语言处理结果中的句法依赖树创建无向有权图，并使用图论中最短路径算法搜索实体与关联信息之间的最短关联路径，计算路径上词语与属性关键词之间的语义相似度，自动对实体和关联信息进行属性对齐。

为达到上述目的，本发明采用的技术方案是：提供了一种基于句法依赖的实体属性信息抽取方法，包括以下过程：

步骤1：根据用户输入的关键字请求，从互联网爬取待抽取文本，对待抽取文本进行预处理，得到待抽取文本实体；

步骤2：根据待抽取文本的句法依赖和词性关系，建立词语之间的无向有权图，并根据词性关系得到待抽取文本实体的候选属性信息；在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径，并将最短路径上经过的词语组成关联信息词语集合；

步骤3：计算属性集合中的每个属性与关联信息词语集合之间的语义相似度，将相似度最大的属性作为候选实体属性，并对其进行筛选得到实体属性，整合实体、实体属性和属性信息作为最终的抽取结果。

其中，所述对待抽取文本进行预处理，得到待抽取文本实体，具体包括以下过程：

步骤1.1：利用分词工具对待抽取文本进行处理，得到该文本分词后的词语集合；

步骤1.2：对词语集合进行词性标注和命名实体识别，得到词性集合和命名实体结果集合；

步骤1.3：依次取词语集合和命名实体结果集合的词语，组成词语对，并依次在待抽取文本中遍历，得到命名实体为人名或机构的词语，并将该词语组成待抽取文本实体。

其中，所述步骤2具体包括以下过程：

步骤2.1：根据待抽取文本的词语集合和词性集合，构建词语之间的句法依赖树，将句法依赖树抽象为无向有权图；

步骤2.2：根据词性集合遍历词语集合，选取词性为名词的词语作为待抽取文本实体的候选属性信息；

步骤2.3：分别依次取待抽取文本实体和候选属性信息中的词语，组成若干对节点，并从无向有权图中搜索节点对的所有可达路径，通过最短路径算法得到长度最短的可达路径，并将其作为实体与属性信息的关联路径；

步骤2.4：根据实体与属性信息的关联路径，对路径上经过的词语进行过滤处理，得到具有实际含义的关联信息词语集合。

其中，步骤3具体包括以下过程：

步骤3.1：为实体与属性信息自定义一系列属性，形成属性集合，属性集合中的每个属性都包括若干个关键词；

步骤3.2：依次计算每个属性与关联信息词语集合之间的相似度，公式为：

其中，sim(W_r,P_k)表示关联信息词语集合W_r与任意一个属性P_k之间的语义相似度，i表示关联词语集合W_r中任意一个词语，j表示属性P_k对应的任意一个关键词，m表示属性P_k包含的关键词数量，n表示关联词语集合W_r中词语的数量，W_ri表示关联词语集合中任意一个词语，P_kj表示任意一个属性中的任意一个词语，word2vec(*)表示使用Google开源的Word2Vec模型，可将任意词语转化为对应词向量；

步骤3.3：从属性集合中选取与关联信息词语集合相似度最大的属性，作为待抽取文本实体与关联信息词语集合的候选实体属性；

步骤3.4：将候选实体属性的相似度与预设阈值进行比较；低于预设阈值的候选实体属性，进行过滤；等于或高于预设阈值的候选实体属性，则为具有实际含义的实体属性，进行保留；整合实体、实体属性和属性信息，作为最终的抽取结果。

本发明还提供了一种基于句法依赖路径的实体属性信息抽取装置，包括：

预处理模块，用于根据用户输入的关键字请求，从互联网爬取待抽取文本，对待抽取文本进行预处理，得到待抽取文本实体；

路径计算模块，用于根据待抽取文本的句法依赖和词性关系，建立词语之间的无向有权图，并根据词性关系得到待抽取文本实体的候选属性信息；在无向有权图中搜索待抽取文本实体与候选属性信息的词语之间的最短路径，并将最短路径上经过的词语组成关联信息词语集合；

结果输出模块，计算属性集合中的每个属性与关联信息词语集合之间的语义相似度，将相似度最大的属性作为候选实体属性，并对其进行筛选得到实体属性，整合实体、实体属性和属性信息作为最终的抽取结果。

其中，所述预处理模块，具体用于：

利用分词工具对待抽取文本进行处理，得到该文本分词后的词语集合；

对词语集合进行词性标注和命名实体识别，得到词性集合和命名实体结果集合；

依次取词语集合和命名实体结果集合的词语，组成词语对，并依次在待抽取文本中遍历，得到命名实体为人名或机构的词语，并将该词语组成待抽取文本实体。

其中，所述路径计算模块，具体用于：

根据待抽取文本的词语集合和词性集合，构建词语之间的句法依赖树，将句法依赖树抽象为无向有权图；

根据词性集合遍历词语集合，选取词性为名词的词语作为待抽取文本实体的候选属性信息；

分别依次取待抽取文本实体和候选属性信息中的词语，组成若干对节点，并从无向有权图中搜索节点对的所有可达路径，通过最短路径算法得到长度最短的可达路径，并将其作为实体与属性信息的关联路径；

根据实体与属性信息的关联路径，对路径上经过的词语进行过滤处理，得到具有实际含义的关联信息词语集合。

其中，所述结果输出模块，具体用于：

为实体与属性信息定义一系列属性，形成属性集合，属性集合中的每个属性都包括若干个关键词；

依次计算每个属性与关联信息词语集合之间的相似度，公式为：

从属性集合中选取与关联信息词语集合相似度最大的属性，作为待抽取文本实体与关联信息词语集合的候选实体属性；

将候选实体属性的相似度与预设阈值进行比较；低于预设阈值的候选实体属性，进行过滤；等于或高于预设阈值的候选实体属性，则为具有实际含义的实体属性，进行保留；整合实体、实体属性和属性信息，作为最终的抽取结果。

本发明的有益效果是：本方法首先利用自然语言处理工具对文本进行预处理，消除文本中的语义歧义性；然后将句法依赖树与词语的词性和依赖关系相结合，构建无向有权图，利用图论最短路径思想搜索实体和关联信息之间相关性最强的依赖路径；最后将依赖路径与属性关键词之间的语义相似度作为抽取结果的置信度评估标准，选取置信度最高的属性作为最终的实体与关联信息之间的属性对齐结果。与传统的信息抽取方法相比，本发明方法利用自然语言处理技术和图论模型相结合，解决文本信息的歧义性，提高了文本抽取的准确率。此外，利用关键词的语义相似度计算，自动归纳抽象信息的属性，降低了信息抽取的工作量，提高了抽取的效率。

附图说明

图1是本发明基于句法依赖路径的实体属性信息抽取方法的实现流程图。

图2是本发明实施例1基于句法依赖路径的实体属性信息抽取方法的主要流程图。

图3是实施例1基于句法依赖路径的实体属性信息抽取方法的句法依赖解析图。

图4是实施例2基于句法依赖路径的实体属性信息抽取方法的句法依赖解析图。

图5是实施例3基于句法依赖路径的实体属性信息抽取装置的结构框图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

实施例1

参照图1-2，现以文本“邓超，1979年出生在江西南昌，1998年考入中央戏剧学院表演系。”为例，对基于句法依赖路径的实体属性信息抽取方法进行详细说明：

步骤1：根据用户输入的关键字请求，借助现有爬虫软件从互联网获得待抽取文本，对待抽取文本进行预处理，得到待抽取文本实体；

步骤1.1：将待抽取文本“邓超，1979年出生在江西南昌，1998年考入中央戏剧学院表演系。”记为I，使用HanLP开源工具对文本I进行分词处理，得到分词后的词语集合，记为W；

步骤1.2：使用HanLP开源工具对词语集合进行词性标注和命名实体识别，得到的词语词性集合记为P，命名实体结果集合记为E；

步骤1.3：依次取词语集合和命名实体结果集合的词语，组成词语对，并依次在待抽取文本中进行遍历，得到命名实体为人名或机构的词语，并将该词语组成待抽取文本实体，记为W_e，W_e＝{邓超，中央戏剧学院}；所述依次取词语集合和命名实体结果集合的词语，组成词语对，并依次在待抽取文本中遍历，指的是取词语集合中第一个词语与命名实体结果集合中第一个词语，组成词语对，在待抽取文本中遍历；再取词语集合中第二个词语与命名实体结果集合中第二个词语，组成词语对，在待抽取文本中遍历；依此类推，直至所有词语对遍历结束。

步骤2.1：根据待抽取文本的词语集合和词性集合，利用HanLP开源工具构建词语之间的句法依赖树，将句法依赖树抽象为无向有权图，将词语抽象为无向有权图中的节点；所述句法依赖树记为T，所述依赖关系记为D；所述依赖关系结果如图3所示，WP表示标点符号依赖关系，COO表示并列依赖关系，SBV表示主语依赖关系，ATT表示定中依赖关系，VOB表示宾语依赖关系，ADV表示副词依赖关系；

步骤2.2：根据词性集合遍历词语集合，选取词性为名词的词语作为待抽取文本实体的候选属性信息，记为W_p，W_p＝{邓超，江西，南昌，中央戏剧学院，表演系}；

步骤2.3：分别依次取待抽取文本实体和候选属性信息中的词语，组成若干对节点，并从无向有权图中搜索节点对的所有可达路径，通过Dijkstra算法得到长度最短的可达路径，即最短路径，并将其作为实体与属性信息的关联路径；如一对节点(“邓超”，“江西”)，从无向有权图中找出这两个节点之间的所有可达路径，并计算任意可达路径的长度，选取长度最短的可达路径，作为实体与属性信息的关联路径，如“邓超→出生→在→南昌→江西”；所述长度最短的可达路径对应的节点对词语，包括一个实体和一个属性信息，即实体与属性信息；

所述通过Dijkstra算法得到长度最短的可达路径，具体包括以下过程：

1)计算无向有权图中任意两个节点之间的边权重，所述边权重为句法依赖权重与词性权重之和，公式为：

其中，i、j表示待抽取文本中任意两个词语，在无向有权图中，即可看作为两个节点，节点i和j在待抽取文本中存在句法依赖关系，则视为两个节点存在边；w_i,j表示无向有权图中任意两个节点对应的词语之间的边权重，f_D(i,j)表示自定义的依赖关系映射权重函数，f_P(i,j)表示自定义的词语词性对映射权重函数；

2)将无向有权图中的所有节点分成S和U两个集合，S集合初始只包括待计算实体所对应的节点v，记为S＝{v}，U集合初始包括除了v以外的其他所有节点；所述待计算实体指的是节点对中的实体词语；

3)遍历U集合中与v相邻的节点，选取与v的边权重最小的节点k，并将节点k从U集合中转移至S集合中；

4)以节点k为中心，修改节点v到其他各节点的边权重；

5)重复上述3)和4)两个步骤，直到待计算属性信息对应的节点也加入S集合中，并此时的路径长度记为最短路径；所述待计算属性信息指的是节点对中的属性信息词语；

步骤2.4：根据实体与属性信息的关联路径，遍历路径上依次经过的词语，并利用现有的停用词表，过滤对语义贡献较小的虚词和助词，得到具有实际含义的关联词语集合，记为W_r，W_r＝{W_r1,W_r2,...,W_n}，具体为W_r＝{邓超，出生，南昌，江西}。

步骤3：计算属性集合中的每个属性与关联信息词语集合之间的语义相似度，将相似度最大的属性作为候选实体属性，并对其进行筛选得到实体属性，整合实体、实体属性和属性信息作为最终的抽取结果；

步骤3.1：为实体与属性信息自定义一系列属性，组成属性集合，记为P，如：{出生地，毕业院校}；其中，每一个属性包含若干个属性触发关键词，记为P_k＝{p_k1,p_k2,...,p_km}，如：P_出生地＝{出生，生于，诞生，生在}；

步骤3.2：依次计算每个属性与关联信息词语集合之间的相似度，选取相似度最大的属性作为待抽取文本实体与关联信息词语集合的候选实体属性，实现属性对齐；如：W_r＝{邓超，出生，南昌，江西}与属性“出生地”的语义相似度大于属性“毕业院校”的相似度，因此，实体“邓超”，与关联信息“江西，南昌”的属性对齐结果为：出生地；其中，相似度公式为：

步骤3.4：将最终得到的属性“出生地”的词语语义相似度与预设阈值进行比较，如果低于设定的阈值，则认为抽取实体与关联信息置信度较低，进行过滤，若等于或高于预定的阈值，则认为该属性置信度较高，作为实体属性进行保留；整合实体、实体属性和属性信息，作为最终的抽取结果，记为“邓超:出生地:江西南昌”。

本发明涉及的自然语言处理工具，包括但不限于HanLP开源工具、Stanford开源工具、中科院ICTCLAS、FudanNLP等；涉及的最短路径计算方法包括但不限于Dijkstra算法、Floyd算法、SPFA算法等。

实施例2

现以文本“袁弘，毕业于上海戏剧学院，是胡歌的同窗好友。”为例，对基于句法依赖路径的实体关联信息抽取方法进行详细说明：

步骤1：对待抽取文本进行预处理，得到待抽取文本实体；

步骤1.1：将待抽取文本“袁弘，毕业于上海戏剧学院，是胡歌的同窗好友。”记为I，使用Stanford开源NLP工具对文本I进行处理，得到文本分词后的词语集合，记为W，词语集合如图3所示，NN表示常用名词，PU表示断句符，VV表示动词，NR表示固有名词，VC表示是，DEG表示助词的；

步骤1.2：使用Stanford开源NLP工具对词语集合进行词性标注和命名实体识别，得到的词语词性集合记为P，命名实体结果集合记为E；

步骤1.3：将词语集合中的词语与命名实体结果集合中的命名实体结果一一对应，依次在待抽取文本中进行遍历，得到命名实体为人名或机构的词语，并将该词语组成待抽取文本实体，记为W_e，W_e＝{袁弘，上海戏剧学院}。

步骤2.1：根据待抽取文本的词语集合和词性集合，利用Stanford开源NLP工具构建词语之间的句法依赖树和依赖关系，所述句法依赖树记为T，所述依赖关系记为D；所述依赖关系结果如图4所示，punct表示标点符号依赖关系，nsubj表示主语依赖关系，dobj表示动宾依赖关系，compound:nn表示名词补充关系，nmod:assmod表示名词关联修饰关系，cop表示系动词关系；

步骤2.2：根据词性集合遍历词语集合，选取词性为名词的词语作为待抽取文本实体的候选属性信息，记为W_p，W_p＝{袁弘，上海，戏剧，学院，胡歌，同窗，好友}；

步骤2.3：分别依次取待抽取文本实体和候选属性信息中的词语，组成若干对节点，并从无向有权图中搜索节点对的所有可达路径，通过Floyd算法得到长度最短的可达路径，即最短路径，并将其作为实体与属性信息的关联路径；如一对节点(“袁弘”，“学院”)，从无向有权图中找出这两个节点之间的所有可达路径，并计算任意可达路径的长度，选取长度最短的可达路径，作为实体与属性信息的关联路径，如“袁弘→毕业于→学院”；所述长度最短的可达路径对应的节点对词语，包括一个实体和一个属性信息，即实体与属性信息；

所述通过Floyd算法得到长度最短的可达路径，具体包括以下过程：

4)以节点k为中心，修改节点v到其他各节点的边权重；

步骤2.4：根据实体与属性信息的关联路径，遍历路径上依次经过的词语，并利用现有的停用词表，过滤对语义贡献较小的虚词和助词，得到具有实际含义的关联词语集合，记为W_r，W_r＝{W_r1,W_r2,...,W_n}，具体为W_r＝{袁弘，毕业于，学院}。

步骤3：计算属性集合中的每个属性与关联信息词语集合之间的语义相似度，将相似度最大的属性作为候选实体属性，并对其进行筛选得到实体属性信息，整合实体、实体属性和属性信息作为最终的抽取结果。

步骤3.1：为实体与属性信息自定义一系列属性，组成属性集合，记为P，如：{出生地，毕业院校}；其中，每一个属性包含若干个属性触发关键词，记为P_k＝{p_k1,p_k2,...,p_km}，如：P_毕业院校＝{毕业，就读，考入}；

其中，sim(W_r,P_k)表示关联信息词语集合W_r与任意一个属性P_k之间的语义相似度，i表示关联词语集合W_r中任意一个词语，j表示属性P_k对应的任意一个关键词，m表示属性P_k包含的关键词数量，n表示关联词语集合W_r中词语的数量，Dis(w_ri,p_kj)表示使用知网提供的词语之间的义原距离，α为调节因子，实验中取值为0.5，W_ri表示关联词语集合中任意一个词语，P_kj表示任意一个属性中的任意一个词语；

步骤3.3：从所有自定义的属性集合P中，选取相似度最大的属性作为待抽取文本实体与关联信息词语集合的候选实体属性，实现属性对齐；如：W_r＝{袁弘，毕业于，学院}与属性“毕业院校”的语义相似度最大，因此，实体“袁弘”，与属性信息“学院”的属性对齐结果为：毕业院校。

步骤3.4：由于Stanford开源NLP工具容易将命名实体切换成多个词语，为将抽取信息尽可能完善，需要对抽取的关联信息进行合并，具体过程如下：

从句法依赖树T中，找到与关联信息“学院”有边的词语，并结合句法依赖关系D进行过滤，只保留与关联信息“学院”有“compound:nn”关系的词语，如“上海”，“戏剧”，并将其合并到关联信息中，得到完整的关联信息“上海戏剧学院”。

步骤3.5：将最终得到的属性“毕业院校”的词语语义相似度与预设阈值进行比较，如果低于设定的阈值，则认为抽取实体与关联信息置信度较低，进行过滤，若等于或高于预定的阈值，则认为该属性置信度较高，作为实体属性进行保留；整合实体、实体属性和属性信息，作为最终的抽取结果，记为“袁弘:毕业院校:上海戏剧学院”。

实施例3

参照图5，本发明还公开了一种基于句法依赖路径的实体关联信息抽取装置，包括：

预处理模块，用于根据用户输入的关键字请求，借助现有爬虫软件从互联网获得待抽取文本，对待抽取文本进行预处理，得到待抽取文本实体；

优选的，所述预处理模块，具体用于：

利用自然语言处理工具对待抽取文本进行处理，得到该文本分词后的词语集合；

使用自然语言处理工具对词语集合进行词性标注和命名实体识别，得到词性集合和命名实体结果集合；

优选的，所述路径计算模块，具体用于：

根据待抽取文本的词语集合和词性集合，利用自然语言处理工具构建词语之间的句法依赖树，将句法依赖树抽象为无向有权图；

通过最短路径算法得到长度最短的可达路径，具体包括以下过程：

4)以节点k为中心，修改节点v到其他各节点的边权重；

优选的，所述结果输出模块，具体用于：

注意，上述内容仅为本发明的较佳实施例。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其它等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于句法依赖的实体属性信息抽取方法，其特征在于，包括以下过程：

2.根据权利要求1所述的基于句法依赖的实体属性信息抽取方法，其特征在于，所述对待抽取文本进行预处理，得到待抽取文本实体，具体包括以下过程：

3.根据权利要求2所述的基于句法依赖的实体属性信息抽取方法，其特征在于，所述步骤2具体包括以下过程：

4.根据权利要求3所述的基于句法依赖的实体属性信息抽取方法，其特征在于，步骤3具体包括以下过程：

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>r</mi> </msub> <mo>,</mo> <msub> <mi>P</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>...</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>...</mo> <mi>m</mi> </mrow> </munder> <mo>{</mo> <mfrac> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>&times;</mo> <mo>|</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mn>2</mn> <mi>v</mi> <mi>e</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>}</mo> </mrow>

5.一种基于句法依赖路径的实体属性信息抽取装置，其特征在于，包括：

6.根据权利要求5基于句法依赖路径的实体属性信息抽取装置，其特征在于，所述预处理模块，具体用于：

7.根据权利要求6基于句法依赖路径的实体属性信息抽取装置，其特征在于，所述路径计算模块，具体用于：

8.根据权利要求7所述的基于句法依赖的实体属性信息抽取方法，其特征在于，所述结果输出模块，具体用于：