CN109033166A

CN109033166A - 一种人物属性抽取训练数据集构建方法

Info

Publication number: CN109033166A
Application number: CN201810636331.2A
Authority: CN
Inventors: 赵忠华; 孙小宁; 李欣; 万欣欣; 袁钟怡; 张小明
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-12-18
Anticipated expiration: 2038-06-20
Also published as: CN109033166B

Abstract

本发明公开了一种人物属性抽取训练数据集构建方法。首先，下载HTML页面中的文本数据内容，提取描述人物正文内容和属性信息的信息框数据，并进行编码存储和语句切分；然后，对切分后的语句，选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集；最后，提取人物属性抽取语料数据集中的所有动词，基于信息熵的方法对所有动词进行排序，提取排名靠前的动词作为属性触发词，把人物属性抽取语料数据集中不包含属性触发词的语句删除掉，剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集，对提高训练数据集构建的效率具有重要意义。

Description

一种人物属性抽取训练数据集构建方法

技术领域

本发明涉及一种人物属性抽取训练数据集构建方法，它可以为人物属性各种抽取算法构建模型训练所需的标注数据，适用于网络信息抽取、信息检索等。属于数据挖掘、信息检索技术领域。

背景技术

随着互联网的迅速发展，人们越来越依赖从网上获取所需的知识和信息。然而,网络中的数据都以非结构化形式进行展示,人们很难从如此大规模的非结构化数据中快速找到所需的信息。因此，许多信息抽取算法被提出来，这些算法自动从非结构化数据中抽取出结构化的数据。其中一个重要的信息抽取算法就是人物属性抽取算法，人物属性抽取算法主要用来从给定的文本语句中自动抽取出描述人物各种属性的信息，例如人物的出生地、出生日期、职业、工作单位等。要保证人物属性抽取算法能够准确抽取出用户所需的数据，就需要构建一个大规模的训练数据集对属性抽取算法进行有效地训练。

然而，目前大部分的人物属性抽取训练数据集构建方法都主要依赖于人工标注，这些方法不仅效率低而且对使用者造成极大的物质和人力负担。因此，需要提出一个自动构建人物属性抽取训练数据集的方法，自动收集网络上的人物属性数据，识别其中包含人物属性的语句，进而构建一个训练数据集，为人物属性抽取算法的训练提供数据集。

发明内容

本发明要解决的技术问题：克服现有训练数据集构建技术主要依赖于人工标注的不足，提出一种人物属性抽取训练数据集构建方法。该方法在偏重数据集构建效率的基础上，充分考虑了网络数据中人物属性描述语句的特点，提高了人物属性抽取训练数据集的质量。

本发明的技术解决方案：一种人物属性抽取训练数据集构建方法，它包括网络数据采集、人物属性语料产生、人物属性语料过滤3个部分。网络数据采集部分负责从维基百科网站采集包含人物属性信息的文本数据，并对采集的数据进行预处理。人物属性语料产生部分负责识别采集的文本数据中包含人物属性信息的语句，这些语句组成了人物属性语料。人物属性语料过滤部分负责过滤掉数据集中不包含有效的属性信息的噪音语句，剩下的语句就构成了人物属性抽取训练数据集。

本发明一种人物属性抽取训练数据集构建方法，其具体步骤如下：

步骤一：网络数据采集

在中文维基百科网站中，下载中文人物页面，然后解析页面的内容，保存页面中左侧和右侧信息框里的两部分文本数据，页面左侧的文本数据主要是描述人物详细信息的正文内容，右侧信息框主要描述人物的各种属性及相应的属性值内容，然后将左侧正文内容数据全部以UTF-8格式进行编码，并以句子为单位进行切分；

步骤二：人物属性语料产生

针对步骤一中切分后的语句，选取包含人物名称的句子作为候选语句，然后遍历信息框中各行的属性值内容，如果候选语句包含有信息框中的任何一条属性值内容，则该候选语句被选取出来作为人物属性语料的一条语句。

步骤三：人物属性语料过滤

针对步骤二中得到的人物属性语料中的语句，提取数据集中所有语句中的动词，根据动词在训练数据集中的出现情况进行排序，选取排名靠前的动词作为属性触发词，然后删除掉人物属性语料中不包含属性触发词的语句，剩下的语句就组成了人物属性抽取训练数据集。

其中，在步骤一中所述的信息框位于网页HTML代码中的class里包含 infobox的table标签中，而描述人物详细信息的正文内容位于网页HTML代码中id为mw-content-text的div标签下的段落里，采用开源工具哈工大语言技术平台LTP对人物正文内容进行句子切分。

其中，在步骤二中所述的信息框属性遍历中，信息框为一个包含两列的数据表格，表格中每一行对应一个属性，第一列表示属性类别名称，第二列表示属性值内容，如果信息框中的属性值内容所在单元格中的语句包含标点符号，则按照标点符号对该语句进行切分，切分后的每个部分称为该行所表示的属性类别的一个属性值。

其中,在步骤三中所述的动词排序中,利用哈工大信息检索实验室的LTP 语言技术平台对语句中的词语进行词性标注,提取出所有的动词进行排序,排序方法采用基于熵的排序技术,该技术主要根据词语在人物属性语料数据集中的分布情况来进行排序,如果一个词语在许多的语句中都出现,则该词语的排名靠后。

本发明与现有技术相比的优点在于：目前的人物属性抽取训练数据集的构建主要利用人工标注方法，人工收集一些句子，然后对每个句子人工判断该句子是否包含了一个人名以及与该人物相关的一个属性信息。这种方法不仅使得数据集规模过小，而且参与标注人员的主观判断都对训练数据集的质量造成影响。本发明提出了一种人物属性抽取训练数据集构建方法，自动从维基百科网站下载人物介绍页面，利用自然语言处理技术提取描述人物属性的语句，然后利用基于熵的排序方法过滤掉噪音语句，最终自动构建一个人物属性抽取训练数据集，可以为人物属性抽取算法提供大规模的高质量的训练数据。

附图说明

图1是维基百科人物介绍页面。

图2是本发明所述方法流程示意图。

具体实施方式

下面结合附图及本发明的实施方式对本发明的方法作进一步详细的说明。

如图2所示，本发明一种人物属性抽取训练数据集构建方法，具体实现步骤如下：

步骤一：网络数据采集

在中文维基百科网站中，利用网络爬虫工具下载中文人物页面，然后解析页面的内容，再进行预处理。主要过程是：

(1)根据网页HTML解析网页内容，在人物介绍页面里，主要保存两个部分的内容用于构建人物属性抽取训练数据集，即保存描述人物的正文内容和描述人物属性的表格内容，例如图1表示介绍影星施一公的页面，左侧部分就是描述该人物的具体内容，右侧的信息框表格介绍了施一公的主要属性类别及属性值，表格的第一列表示属性类别的名称，第二列表示各个属性类别的属性值。信息框位于网页HTML代码中的class里包含infobox的table标签中，而描述人物详细信息的正文内容位于网页HTML代码中id为mw-content-text的 div标签下的段落里。

(2)保存描述人物的正文内容以及信息框表格中的内容，本方法中，主要构建十三种属性类别的训练语句，这十三种属性类别是：教育情况、专业、学历、姓名、中学、政党、出生年月、入党时间、工作、出生地、工作单位、民族、性别。信息框表格中属于这十三种属性类别的行被保存下来，保存下来的表格称为属性框。然后将左侧正文内容数据全部以UTF-8格式进行编码，采用开源工具哈工大语言技术平台LTP对人物描述正文内容进行句子切分。

步骤二：人物属性语料产生

针对步骤一中的人物描述正文内容的切分语句，选取其中包含人物属性的语句构建人物属性语料集，主要过程为：

1)挑选人物描述正文内容文本切分后的语句中包含该网页人物名字的语句，如果人物名称太长，则包含人物名字简称的语句也被挑选保留下来。

2)遍历属性框中的第二列，这一列表示属性值，如果属性框中某一行的属性值内容语句包含标点符号，则把该行的属性值内容语句按照标点符号进行切分，切分后的每一部分都当做一个属性值，例如对于某一个属性表格里人物姓名这个属性类别所在的行，其属性值内容语句为“科比●布莱恩特”，则基于符号“●”把该属性值内容语句划分为两个属性值“科比”和“布莱恩特”。对保留下来的每条语句，如果这条语句包含属性表格第二列中任何一行中的任何一个属性值内容，则保留该语句，并将其添加到训练语料数据集中。这些被保留下来的语句就组成了初步的人物属性抽取训练语料数据集 P＝{p₁,p₂,…,p_m}，其中p_i表示数据集中的第i条语句，m表示语句总数，在下一步将对该数据集进行过滤。

步骤三：人物属性语料过滤

对于第二步中构建的训练数据集，其中有些语句可能并不是描述一个人的属性信息，这些语句会对属性抽取算法的性能造成不好的影响，需要过滤掉这些语句，本发明的人物属性语料过滤过程为：

1)对第二步构建的训练语料数据集中的每一条语句,利用哈工大信息检索实验室的LTP语言技术平台对语句中的词语进行词性标注,提取出所有语句中所有的动词组成词语集合W＝{w₁,w₂,…,w_n}，其中w_i表示集合里的第i个动词，n表示所有动词的个数。

2)针对每个词语w_i(0<i<n+1，i为整数)，为训练语料数据集中每条语句p_j(0<j<m+1,j为整数)构建一个向量表示其中里面每个元素x_k(0<k<n+1，k为整数)的取值为0或1，如果词语集合W中第k个词语w_k语句p_j中出现且w_k不等于词语w_i，则x_k取值为1，否则x_k取值为0。然后基于构建的语句向量，计算词语w_i的熵值E_i，计算公式如下

其中S_i,j表示两条语句p_i和p_j之间的相似度，α表示人物属性语料中所有语句对之间相似度的平均值。

3)依据熵值E_i大小对词语集合W里所有的动词进行排序，选取前5％的动词作为人物属性触发词。然后对训练语料数据集P的语句进行过滤，如果一条语句不包含任何一个触发词，则该条语句从训练语料数据集P中被删除掉。最后，训练语料数据集P剩下的语句就组成了人物属性抽取训练数据集。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人物属性抽取训练数据集构建方法，其特征在于：所述方法具体步骤如下：

步骤一：网络数据采集

步骤二：人物属性语料产生

针对步骤一中切分后的语句，选取包含人物名称的句子作为候选语句，然后遍历信息框中各行的属性值内容，如果候选语句包含有信息框中的任何一条属性值内容，则该候选语句被选取出来作为人物属性语料的一条语句；

步骤三：人物属性语料过滤

2.根据权利要求1所述的一种人物属性抽取训练数据集构建方法，其特征在于：在步骤一中所述的信息框位于网页HTML代码中的class里包含infobox的table标签中，而描述人物详细信息的正文内容位于网页HTML代码中id为mw-content-text的div标签下的段落里，采用开源工具哈工大语言技术平台LTP对人物正文内容进行句子切分。

3.根据权利要求1所述的一种人物属性抽取训练数据集构建方法，其特征在于：在步骤二中所述的信息框属性遍历中，信息框为一个包含两列的数据表格，表格中每一行对应一个属性，第一列表示属性类别名称，第二列表示属性值内容，如果信息框中的属性值内容所在单元格中的语句包含标点符号，则按照标点符号对该语句进行切分，切分后的每个部分称为该行所表示的属性类别的一个属性值。

4.根据权利要求1所述的一种人物属性抽取训练数据集构建方法，其特征在于：在步骤三中所述的动词排序中,利用哈工大信息检索实验室的LTP语言技术平台对语句中的词语进行词性标注,提取出所有的动词进行排序,排序方法采用基于熵的排序技术,该技术主要根据词语在人物属性语料数据集中的分布情况来进行排序,如果一个词语在许多的语句中都出现,则该词语的排名靠后。