CN109815497A

CN109815497A - 基于句法依存的人物属性抽取方法

Info

Publication number: CN109815497A
Application number: CN201910061661.8A
Authority: CN
Inventors: 占梦来; 张磊; 苏家琦; 张军; 徐晓龙; 张棚
Original assignee: Sichuan Chengzhi Hearing Technology Co Ltd; University of Electronic Science and Technology of China
Current assignee: Sichuan Chengzhi Hearing Technology Co Ltd; University of Electronic Science and Technology of China
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-05-28
Anticipated expiration: 2039-01-23
Also published as: CN109815497B

Abstract

本发明公开一种基于句法依存的人物属性抽取方法，包括：S1、文本预处理；S2属性抽取；S3、对提取出的人物和人物属性通过Stanford core NLP得到每句的句法依存分析结果；S4、对每句的句法依存分析结果通过标记人物和人物属性找到人物和人物属性之间的最短路径，保存最短路径上的词汇，得到最短路径词汇字典；同时保存主语和属性前后词窗口大小的词汇，得到词窗口词汇字典；S5、通过分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度，得到人物和人物属性之间是否具有从属关系；本发明的方法实现了从无结构化英文文本中抽取出人物属性信息，无需预训练模型，所提取任务属性F1系数显著提高。

Description

基于句法依存的人物属性抽取方法

技术领域

本发明应用于信息抽取领域及人物关系分析领域，特别涉及一种基于文本的人物属性抽取技术。

背景技术

关系抽取是信息抽取的重要子任务，其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据，关系抽取主要负责从文本中识别出实体，抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取，无监督关系抽取，和半监督关系抽取三种方法。主要介绍有监督学习方法。

有监督的学习方法将关系抽取任务当做分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。有监督的学习方法是目前关系抽取较为主流也是表现最好的方法，但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了我们工作的重点，远程监督方法就由此孕育而生。远程监督方法[1]，将已有的知识库对应到丰富的非结构化数据中，从而生成大量的训练数据，从而训练关系抽取器。但是其也存在着非常明显的缺点：

1)生成大量的训练数据必然存在着准确率问题，如何解决错误训练数据的问题是我们工作的一个重点。

2)NLP工具带来的误差，比如NER，parsing等，越多的特征工程就会带来越多的误差，在整个任务的pipeline上会产生误差的传播和积累，从而影响后续关系抽取的精度。

发明内容

为解决上述技术问题，本发明提出一种基于句法依存的人物属性抽取方法，基于句法依存的人物属性抽取方法实现了从无结构化英文文本中抽取出人物属性信息。

本发明采用的技术方案为：基于句法依存的人物属性抽取方法，包括：

S1、采用MDR提取出网页中含有的有效人物信息html标签，然后对有效人物信息html标签进行处理后得到正文；

S2、提取正文中包含的人物属性；

S3、对提取出的人物和人物属性通过Stanford core NLP得到每句的句法依存分析结果；

S4、对每句的句法依存分析结果通过标记人物和人物属性找到人物和人物属性之间的最短路径，保存最短路径上的词汇，得到最短路径词汇字典；同时保存主语和属性前后词窗口大小的词汇，得到词窗口词汇字典；

S5、通过分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度，得到人物和人物属性之间是否具有从属关系；其中属性相关词字典为预先筛选好的词典。

进一步地，步骤S1所述对有效人物信息html标签进行处理后得到正文，具体为：去除多余的web标签后，再进行去除停用词、词干还原、去除特殊字符的操作，然后得到正文。

进一步地，步骤S2采用基于字典的人物属性提取、基于正则的人物属性提取以及基于最大熵的人物属性提取，这三种方式提取出正文中包含人物属性的句子。

进一步地，步骤S5之前还包括：

A1、使用语料库来训练Word2Vec模型，得到一个词向量序列；所述语料库为长文本。

A2、将属性相关词字典、最短路径词汇字典以及词窗口词汇字典，这三个字典中的词通过word2vec模型转为word2向量。

进一步地，步骤S5具体为：

S51、分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度；

S52、将属性相关词字典和对最短路径词汇字典的Jaccard相似度、属性相关词字典和词窗口词汇字典的Jaccard相似度，分别赋予权重，计算出加权和相似度；计算加权和相似度表达式为：

Sim＝βsim_{J_dep}+(1-β)sim_{J_context}

其中，β为加权系数，sim_{J_dep}为属性相关词字典与最短路径字典之间的相似度，sim_{J_context}为属性相关词字典与词窗口字典之间的相似度。

S53、若步骤S52计算出的相似度大于第一阈值，则人物和人物属性具有从属关系，否则不具有从属关系。

进一步地，步骤S51具体为：

B1、计算属性相关词典中的词向量与最短路径词汇字典或词窗口词汇字典中的词向量的余弦相似度；

B2、若步骤B1计算得到的余弦相似度大于第二阈值，则两个字典的交集不为空，将该余弦相似度记为sim_α1；否则两个字典的交集为空，将该余弦相似度记为sim_α2；

B3、计算sim_α1与sim_α2的交并比，得到属性相关词典中的词向量与最短路径词汇字典或词窗口词汇字典的Jaccard相似度。

本发明的有益效果：基于句法依存的人物属性抽取方法实现了从无结构化英文文本中抽取出人物属性信息，无需预训练模型，因此不需要人工标记大量的训练样本；经过测试在1238条测试集上，属性parent的F1系数能达到84％，经过添加词窗口后，F1系数能达到87％。在Unversity的F1系数能达到86％，加入词窗口后F1系数为88％；本发明具有如下优点：

1、通过句法依存分析，得到的人物属性最短路径上的词汇能有效的表征两者之间的从属关系；添加词窗口能有限利用主语和属性词前后的词的表征关系；

2、加入Word2vec模型，使得提取出来的词汇携带有语义信息；

3、对无结构化网页利用MDR提取出有效信息标签后，处理标签；能有效提取出正文文本。

附图说明

图1为本发明实施例提供的CBOW模型和Skip-gram模型；

图2为本发明实施例提供的斯坦福句法依存分析例句示意图；

图3为本发明实施例提供的方案流程图；

图4为本发明实施例提供的文本预处理流程图；

图5为本发明实施例提供的依存句法分析结果示意图。

具体实施方式

首先对本发明涉及的现有技术进行说明：

1、Word2Vec词向量模型

Word2Vec词向量模型是神经网络概率语言模型中的一种。根据语言模型的不同，分为两种模型：CBOW模型和Skip-gram模型。如图1所示，两种模型都分为三层：输入层，投影层和输出层。前者是在已知当前词的上下文词概率前提下预测当前的概率，后者是已知当前词的概率来预测上下文词的概率。下面主要介绍CBOW模型。图1中，input为输入层，projection为投影层，output为输出层。

CBOW模型的输入层输入了文本的所有词的词向量，第一次训练前会对词向量随机初始化。投影层是一个求和器，对所有词的词向量进行求和得到中间向量。输出层是一个哈夫曼树(此时能保证编码长度总长最短)。每个叶子结点就是表示词典中一个词，每个非叶子结点都相当于一个二分类器，将非叶子结点向量分到左右子树。

CBOW模型的训练过程(参考：吴欣辉.基于中英文主题向量空间的文本分类算法[D].中国科学技术大学,2018)如下所示：

(1)根据输入文本首先初始化，建立所有词的字典，对字典中的每个词随机赋予一个词向量，同时根据词频建立哈夫曼树。

(2)对文本进行滑动窗口输入。在当前滑动窗口中，将词w上下文的所有词向量进行求和得到中间向量。然后滑动窗口依次将文本输入到模型中训练。

(3)根据当前词w得到哈夫曼树从根节点到词w节点的路径，从而得到路径上的非叶子节点预测概率。

(4)然后将路径上的所有非叶子节点预测概率相乘就得到了当前词在上下文词的概率p，然后利用梯度下降法来优化路径上非叶子节点参数和上下文词向量得到正确路径。

重复迭代n次，得到所有词的词向量。

2、Stanford Core NLP句法依存分析依存语法(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系，本实施例图2、图5涉及到的简写或缩写词及其含义如表1所示：

表1本实施例涉及到的简写或缩写词及其含义

如图2所示，斯坦福句法依存解析器通过对句子的单词执行线性时间扫描来构建解析。在每一步中，它都维护一个部分解析，一堆当前正在处理的单词，以及一个尚待处理的单词缓冲区。

解析器继续将转换应用于其状态，直到其缓冲区为空并且依赖关系图完成。

初始状态是在缓冲区上按顺序排列所有单词，堆栈上有一个虚拟ROOT节点。可以应用以下过渡：

LEFT-ARC：将堆栈中的第二个项目标记为第一个项目的依赖项，并从堆栈中删除第二个项目(如果堆栈包含至少两个项目)。

RIGHT-ARC：将堆栈中的第一个项目标记为第二个项目的依赖项，并从堆栈中删除第一个项目(如果堆栈包含至少两个项目)。

SHIFT：从缓冲区中删除一个单词并将其推送到堆栈中(如果缓冲区不为空)。

只有这三种类型的转换，解析器可以生成任何投影依赖解析。解析器使用神经网络分类器确定每个状态的转换。解析器当前状态的分布式表示(密集，连续矢量表示)被提供作为该分类器的输入，然后该分类器在可能的转换中进行选择以进行下一个。这些表示描述了解析器状态中当前堆栈和缓冲区内容的各种特征。

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图3所示，本发明方法实现过程包括以下步骤：

S1、文本预处理

本发明主要是针对从无结构化网页爬取的文本进行人物属性。但是由于web网页错综复杂，杂乱无章，没有一个统一的样式，所以无法根据模板直接从网页中提取出正文。本方案采用基于一种字符串和观察网页中数据记录的MDR(Mining Data Records in WebPages)方法来提取出网页中可能含有有效人物信息html标签，然后对标签处理后得到正文。如图4所示，在去除多余的web标签后，对正文还要进行去除停用词、词干还原、去除特殊字符等操作。

S2、属性抽取

在得到正文后，本发明通过以下三种方法提取出正文中包含属性的句子，具体的对不同的属性采用不同的提取方法：

1)基于字典的人物属性提取---通过字典来预先定义的词来提取属性，一共18个属性使用此方法。例如大学，寻找了Beihang University这样的大学一共18737条。

2)基于正则的人物属性提取---通过正则匹配来提取属性。例如身高，一共找了五个匹配模式来提取属性：

2.1m正则表达式为(？<！\d)[012]\.\d{1,2}\s？[mM](？:eters)？(？＝\W)

2m正则表达式为(？<！[\d\.])[12]\s？[mM](？:eters)？(？＝\W)

5’11英尺正则表达式为(？<！\d)\d{1}\'\d{1,2}\s？(？:ft|FT)？(！\w)？

5’11”英尺正则表达式为(？<！\d)\d{1}\'\d{1,2}"\s？(？:ft|FT)

6ft 3in正则表达式为(？<！\d)\d{1}\sft\s\d{1,2}\sin(？＝\W)

3)基于最大熵的人物属性提取–通过命名实体识别来提取具有社会关系的属性，提取了child，parents，othername，brothersister等属性。

S3、句法依存分析

对提取出包含人物和属性的句子通过Stanford core NLP得到每句的句法依存分析结果。

S4、人物属性最短路径和人物属性词窗口

对分析结果通过标记人物和属性找到它们之间的最短路径，保存最短路径上的词汇；同时保存主语和属性前后词窗口大小的词汇。

例如，’In the 1930s he became known for his dramatic photographs ofParis nightlife.’这样的一句话，得到的依存句法分析结果如图5所示，此时标记的主语(PRP:personal pronoun人称代词)为he，属性词为Paris。通过dijkstra算法找到上图中主语和属性词之间的最短路径，最短路径上的词为[u'became',u'known',u'photographs',u'nightlife’]。对于属性为多个单词的情况，找到实体到属性每个单词的最短路径，选择其中最短的一条。主语和属性之间的词窗口中词为[u'1930s',u'the',u'became',u'known',u'of',u'photographs',u'nightlife',u'.']。

S5、word2vec向量和计算Jaccard相似度

首先使用足够充分的语料库(长文本)来训练Word2Vec模型，得到一个词向量序列。每个词对应着n维向量，两者之间相似度可以用余弦夹角来表征。

此时得到三个词汇字典：最短路径词汇、词窗口词汇和属性相关词字典。其中属性相关字典为人工提前筛选好的词典。

计算Jaccrad相似度步骤如下：

1、将三个词汇字典中的词通过word2vec模型转为word2向量。

2、分别计算属性相关词字典和最短路径词汇、词窗口词汇的Jaccard相似度。计算公式如下：

其中ɑ为判定两个词之间是否相关的阈值。通过计算两者相关性的词汇相似度的交并比，得到Jaccrad相似度；0<ɑ<1,对于不同的属性，通过在测试集上测试，选择F1值最好的那个ɑ值。具体计算过程如下：

计算属性相关词字典中的词向量与最短路径或者词窗口中的词向量的余弦相似度sim_α；

如果sim_α大于阈值α，记做sim_α1，看做两个词典的交集；否则记做sim_α2；实际中阈值α通过在测试集上测试，选择F1值最好的那个α值；

然后计算两个字典的交并比。

3、将两个Jaccrad相似度分别赋予权重，计算出加权和相似度。

Sim＝βsim_{J_dep}+(1-β)sim_{J_context} (2-2)

β为加权系数，sim_{J_dep}为属性相关词字典与最短路径字典之间的相似度，sim_{J_context}为属性相关词字典与词窗口字典之间的相似度。

4、如果相似度高于阈值(这里的阈值也是通过在测试集上测试，选择F1值最好的那个值)，判别人物和属性具有从属关系；否则，不具有从属关系。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.基于句法依存的人物属性抽取方法，其特征在于，包括：

S2、提取正文中包含的人物属性；

2.根据权利要求1所述的基于句法依存的人物属性抽取方法，其特征在于，步骤S1所述对有效人物信息html标签进行处理后得到正文，具体为：去除多余的web标签后，再进行去除停用词、词干还原、去除特殊字符的操作，然后得到正文。

3.根据权利要求2所述的基于句法依存的人物属性抽取方法，其特征在于，步骤S2具体为：采用基于字典的人物属性提取、基于正则的人物属性提取以及基于最大熵的人物属性提取。

4.根据权利要求3所述的基于句法依存的人物属性抽取方法，其特征在于，步骤S5之前还包括：

A1、使用语料库来训练Word2Vec模型，得到一个词向量序列；

5.根据权利要求4所述的基于句法依存的人物属性抽取方法，其特征在于，步骤S5具体为：

S52、将属性相关词字典和对最短路径词汇字典的Jaccard相似度、属性相关词字典和词窗口词汇字典的Jaccard相似度，分别赋予权重，计算出加权和相似度；

6.根据权利要求5所述的基于句法依存的人物属性抽取方法，其特征在于，步骤S51具体为：

7.根据权利要求6所述的基于句法依存的人物属性抽取方法，其特征在于，步骤S52所述计算加权和相似度表达式为：

Sim＝βsim_{J_dep}+(1-β)sim_{J_context}

8.根据权利要求7所述的基于句法依存的人物属性抽取方法，其特征在于，步骤A1所述语料库为长文本。