CN108090070A

CN108090070A - 一种中文实体属性抽取方法

Info

Publication number: CN108090070A
Application number: CN201611031896.5A
Authority: CN
Inventors: 赫中翮; 王志超; 周忠诚
Original assignee: Beijing Gaodig Information Technology Co Ltd
Current assignee: Hunan Sifang Tianjian Information Technology Co., Ltd
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2018-05-29
Anticipated expiration: 2036-11-22
Also published as: CN108090070B

Abstract

本发明公开了一种中文实体属性抽取方法，该方法包括提取百度百科词条页面的文本、使用词条标签对页面过滤、使用剩余页面中信息框的数据进行远程标注获得训练数据、对训练数据进行分词和泛化、将泛化后的训练数据转化为词向量，然后经过分类器后得到分类结果，并填充到对应类别的属性槽中；本中文实体属性抽取方法，不需要人工定义特征以及其他的额外资源，得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性，在实体属性抽取任务中具有更高的准确率。

Description

一种中文实体属性抽取方法

技术领域

本发明涉及信息抽取技术领域，具体为一种中文实体属性抽取方法。

背景技术

随着互联网的飞速发展，通过网络获取的数据也呈指数级增长，如何从这些海量数据中快速、准确地分析出真正有用的信息，显得尤为关键和紧迫。而这正是信息抽取这一研究领域力图解决的问题。实体属性、关系抽取是信息抽取任务之一，目的是从非结构化文本中抽取实体属性以及实体之间的关系。该任务是基于命名实体识别的一种更深层次的研究，能够为事件抽取，自动问答，机器翻译以及自然语言处理相关领域的研究提供前提保障。

目前，中文实体属性抽取算法主要有两种，第一种是基于规则匹配的方法，对于开放网页文本结构不固定、数据源格式众多的特点，该方法不仅要定义大量的规则，而且匹配效率很低，不利于工程推广。第二种是一个是基于传统机器学习算法实现，最常用的是SVM模型以及最大熵模型，SVM是一种可用于分类和回归问题的、较为复杂的机器学习算法模型，主要是一个线性分类的过程。通过在特征空间中找到一个分离超平面，从而将各样本的特征划分到不同的类别中。最大熵原理认为，学习概率模型时,在所有可能的概率模型中,熵值最大的模型是最好的模型。也就是说，当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。然而对于自然语言的语义分析任务，传统的机器学习算法，对训练数据有极强的依赖性，需要人工标注大量数据，而且只能使用浅层的特征对数据分类，致使抽取性能较差。

机器对中文句子进行语义理解一直以来是NLP中的一个难题，但随着人工神经网络（ANN）对数据的理解逐渐加深，人们开始使用人工神经网络来解决这一难题，并且针对不同的任务出现了不同种类神经网络模型。但是，这些网络模型对于句子的语义理解依旧存在“梯度的爆发与消失”问题。

在基于机器学习的知识抽取过程中，还有一大难题是如何得到足够数量的训练数据集。现阶段，权威的人工标注数据集的数量较少，而自行构建一个人工标注数据集既费时又费力。

发明内容

本发明的目的在于提供一种中文实体属性抽取方法，不需要人工定义特征以及其他的额外资源，得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性，在实体属性抽取任务中具有更高的准确率，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种中文实体属性抽取方法，包括以下抽取步骤：

S1：提取百度百科词条页面的文本，从中获得百科信息框、词条标签等信息；

S2：使用词条标签对页面过滤，保留与目标类标签相关的词条页面；

S3：将过滤后的词条页面中信息框的数据作为输入，使用远距离监督方式抽取出自动标注的训练数据；

S4：对训练数据进行分词和泛化；

S5：使用Word2Vec工具，将泛化后的训练数据转化为词向量；

S6：将处理后的词向量作为抽取分类器的训练集，迭代训练双向LSTM深度学习网络分类器；

S7：对自由文本重复步骤S4的方法进行分词和泛化，然后经过分类器得到分类结果，并填充到类别对应的属性槽中。

优选的，所述步骤S1包括以下提取过程：

S1-1：假设待爬取URL集合已爬URL集合选择种子页面集合P，则W＝P；

S1-2：从W中选择一个URL，p，爬取页面提取出其中的标签、信息框数据，以及网页中所有的百科和百度域名下的锚文本集合L，则A＝A∪C_L ^L∩A，W＝W-{p}+C_L ^L∩A；

S1-3：循环上述S1-2过程，直至

S1-4：若数据集不够，则选择新的种子，重复S1-2过程到S1-3过程；

S1-5：否则，停止爬取。

优选的，所述步骤S3包括以下提取过程：

S3-1：假设当前输入词条是d，读取词条信息框中每个属性对集合Q；

S3-2：对于每一个属性对q，读取属性标签pi以及对应的属性值vi，在互联网中搜索同时包含d和vi的句子s；

S3-3：句子s作为训练语句，pi作为该句子所属的类别，共同构成标注数据，并将其加入至训练集中；

S3-4：循环步骤S3-2和步骤S3-3，直到Q=ø。

优选的，所述步骤S4对训练数据进行分词和泛化，包括以下过程：

S4-1：假设标注数据集为D，读取一条标注数据di；

S4-2：使用HanLP工具对di分词；

S4-3：依照分词结果中的词性标记，将词性相同的几个连续词合并，用词性代替；

S4-4：依照词性标记，将名词用n替换，动词用v替换，命名实体用ner替换，数词用num替换；

S4-5：重复S4-2过程到S4-4过程，直到所有数据标注完成。

优选的，所述LSTM网络模型最后添加有dropout层，且比例设置为40%，batch大小设置为32，迭代次数设置为10次。

与现有技术相比，本发明的有益效果是：本中文实体属性抽取方法，通过使用一个双向LSTM神经网络来学习实体之间的关系特征，与以往的方法比，这种方法不需要人工定义特征以及其他的额外资源，得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性，采用本方法得到的抽取模型较之其他用传统方法生成的模型在实体属性抽取任务中具有更高的准确率。

附图说明

图1为本发明的原理框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行亲楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种中文实体属性抽取方法，包括以下抽取步骤：

第一步：提取百度百科词条页面的文本，从中获得百科信息框、词条标签等信息；其中，假设待爬取URL集合W=ø，待爬和已爬URL集合A=ø，选择种子页面集合P，则W=P；再从W中选择一个URL，p，爬取页面提取出其中的标签、信息框数据，以及网页中所有的百科和百度域名下的锚文本集合L，则A=A∪ ，W=W-{p}+；循环上述过程，直至W=ø；若数据集不够，则选择新的种子，重复上述提取过程，直至W=ø；否则，停止爬取；并对百度百科数据的提取和保存，在这里至少要对每个页面提取出信息框（class=”basic-info”）和词条标签（id=”open-tag-item”）上的信息，前者是自动标注语料的来源，后者是特定类实体过滤的字段。

第二步：使用词条标签对页面过滤，去掉有关人物传记、影视人物、游戏人物等虚拟人物和与人物不相关的实体页面；比如百度百科中的张小凡（仙侠小说《诛仙》男主人公），其标签为虚拟人物，文化人物，动漫形象，人物虽然标签中带着人物，但是却并不属于系统所需的真实人物类实体，因此只需保留与目标类标签相关的词条页面。

第三步：将过滤后的词条页面中信息框的数据作为输入，使用远距离监督方式抽取出自动标注的训练数据；其中，具体过程为假设当前输入词条是d，读取词条信息框中每个属性对集合Q，对于每一个属性对q，读取属性标签pi以及对应的属性值vi，在互联网中搜索同时包含d和vi的句子s，句子s作为训练语句，pi作为该句子所属的类别，将标注结果加入训练集中，再循环操作，直到q=ø为止。

第四步：对训练数据进行分词和泛化；其中，具体过程为假设标注数据集为D，读取一条标注数据di，使用HanLP工具对di分词，依照分词结果中的词性标记，将词性相同的两个连续词合并，用词性代替，并依照词性进行标记，将名词用n替换，动词用v替换，命名实体用ner替换，数词用num替换；再重复操作过程，直到所有数据标注完成。

第五步：使用Word2Vec工具，将泛化后的训练数据转化为词向量，其中Word2Vec工具为谷歌的开源项目。

第六步：将处理后的词向量作为抽取分类器的训练集，迭代训练双向LSTM神经网络分类器；其中，将向量化的标注数据作为输入数据，训练双向LSTM分类器，双向LSTM分类器的构建可以使用Keras框架以及GPU加速，且在LSTM网络模型最后添加有dropout层，比例设置为40%，batch大小设置为32，迭代次数设置为10次，以避免抽取器训练过程中产生过拟合的现象。

第七步：对自由文本重复步骤S4的方法进行分词和泛化，然后经过分类器得到分类结果，并填充到属性槽中。

综上所述：本发明使用了一个深度学习模型来解决中文实体属性抽取的问题，该模型使用一个双向LSTM神经网络来学习实体之间的关系特征；与以往的方法比，这种方法不需要人工定义特征以及其他的额外资源，得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性，采用本方法得到的抽取模型较之其他用传统方法生成的模型在实体属性抽取任务中具有更高的准确率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种中文实体属性抽取方法，其特征在于，包括以下抽取步骤：

S4：对训练数据进行分词和泛化；

S5：使用Word2Vec工具，将泛化后的训练数据转化为词向量；

2.根据权利要求1所述的一种中文实体属性抽取方法，其特征在于，所述步骤S1包括以下提取过程：

S1-1：假设待爬取URL集合W=ø，已爬URL集合A=ø，选择种子页面集合P，则W=P；

S1-2：从W中选择一个URL，p，爬取页面提取出其中的标签、信息框数据，以及网页中所有的百科和百度域名下的锚文本集合L，则A=A∪，W=W-{p}+；

S1-3：循环上述S1-2过程，直至W=ø；

S1-5：否则，停止爬取。

3.根据权利要求1所述的一种中文实体属性抽取方法，其特征在于，所述步骤S3包括以下提取过程：

S3-4：循环步骤S3-2和步骤S3-3，直到Q=ø。

4.根据权利要求1所述的一种中文实体属性抽取方法，其特征在于，所述步骤S4对训练数据进行分词和泛化，包括以下过程：

S4-1：假设标注数据集为D，读取一条标注数据di；

S4-2：使用HanLP工具对di分词；

S4-5：重复S4-2过程到S4-4过程，直到所有数据标注完成。

5.根据权利要求1所述的一种中文实体属性抽取方法，其特征在于，所述LSTM网络模型最后添加有dropout层，且比例设置为40%，batch大小设置为32，迭代次数设置为10次。