CN109145089B

CN109145089B - 一种基于自然语言处理的层次化专题属性抽取方法

Info

Publication number: CN109145089B
Application number: CN201811005109.9A
Authority: CN
Inventors: 梁勇奇; 杨瑞霞; 耿同
Original assignee: Institute of Remote Sensing and Digital Earth of CAS
Current assignee: Institute of Remote Sensing and Digital Earth of CAS
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2021-07-30
Anticipated expiration: 2038-08-30
Also published as: CN109145089A

Abstract

本发明公布了一种基于自然语言处理的层次化专题属性抽取方法，旨在解决较少文本量，多属性类型情况下完整专题信息抽取的难题，包括以下步骤：将英文百科类介绍页面结构化，清洗并句子化，形成总句子语料库；从总句子语料库中随机抽取部分句子，标注其中含有某专业领域属性的句子，形成句子层的语料库；按照7:3的比例，将属性句子语料库划分为训练库和检验库，训练并检验随机森林分类器；(4)使用训练好的随机森林分类器对总句子语料库分类，获得属性句子库；使用文档主题生成模型(LDA和NMF)获取属性句子库中的主题词，标注该专业领域知识的各类型属性词，形成词语层的语料库；将介绍页面词语化，根据属性词语料库，抽取专题属性信息。

Description

一种基于自然语言处理的层次化专题属性抽取方法

技术领域

本发明属文本特征提取和属性抽取领域，具体为一种基于自然语言处理的层次化专题属性抽取方法。

背景技术

在信息爆炸的时代，从海量的互联网数据中挖掘有价值的信息，成为科学研究的重点。大数据不在于体量的大，而在于能支撑专业的研究。在专业领域，面对的实体往往有限，而属性类型多；不同实体的介绍文本内容含有冗余信息；各类型属性信息的数量差异较大。先前的属性抽取方法主要针对万条，甚至百万条的数据，在该量级下，能训练得到较好的机器学习模型，有效地抽取属性信息，而在某些专业领域中，当文本量较少，各类型的属性信息数量差异较大时，难以将这些模型训练到较好的结果。因此，如何从较少的文本量中抽取出该实体多个类型的属性信息，为该实体的研究提供基础，需要一种新的方法。

常用的信息提取方法有基于条件随机场(Conditional Random Fields)、基于深度学习(Deep Learning)、基于卷积神经网络(Convolutional Neural Network)、基于遗传学算法(Genetic Algorithms)、基于规则的方法(Rule-based)等。由于针对某个专业领域的实体，特别是地理实体，会出现数量在万级以下的情况。另外，该实体集包含的属性类型较多，不同属性类型关键词出现的频率差异较大，导致某些属性关键词能标注的语料库量会很少，而前四种方法使用的正是上述的机器学习模型。因此，本发明最终选择基于规则的方法来抽取各属性信息。

使用传统的标注辅助手段(如，词性标注(POS)，分块(Chunk))标注属性词语料库时，关键词出现次数较少的属性类型无标注。为了能将这部分属性关键词标注出来，本发明采用层次化的方法，先标注句子层的属性语料库，将无关属性信息的句子去掉，再对含有属性的句子做主题分析，最后对主题分析的结果——各主题的关键词进行标注，构建更加完整的属性关键词库。本发明通过两步标注语料库的方式，实现了属性词的逐步析出，在较少标注量的同时，也满足在较少的文本量，多属性类型条件下更为完整的信息抽取。

发明内容

本发明旨在解决较少的文本量，多属性类型情况下完整专题信息抽取的困难。其通过自然语言处理的流程，采用层次化的标注方式，对英文百科类(如Wikipedia)介绍中包含的某专业领域的多类型属性进行了自动提取。其不仅提供一套更高效完整的信息提取流程和专业领域的属性数据集。同时，建立的网页文档结构，方便后续的其它语义分析；标注的属性句子语料库和属性词语料库也能用于该专业领域其它实体介绍的分类和属性信息提取。

本发明公布了一种基于自然语言处理的层次化专题属性抽取方法，其步骤如下：

(1)将英文百科类(如：Wikipedia)介绍页面结构化，清洗并句子化，形成总句子语料库；

(2)从总句子语料库中随机抽取部分句子，标注其中含有某专业领域属性的句子，形成句子层的语料库——属性句子语料库；

(3)按照7:3的比例，将属性句子语料库划分为训练库和检验库，训练并检验随机森林分类器；

(4)使用训练好的随机森林分类器对步骤1)中的总句子语料库分类，获得属性句子库；

(5)使用文档主题生成模型(LDA和NMF)获取属性句子库中的主题词，标注该专业领域知识的各类型属性词，形成词语层的语料库——属性词语料库；

(6)将英文百科类介绍页面词语化，根据属性词语料库，规则匹配抽取专题属性信息。

(1)获取总句子语料库

1.1)使用标题和段落的结构，滤除百科介绍页面中的目录、相关链接、扩展阅读、参考等冗余信息，形成结构化的网页文档。

1.2)使用Python库中的nltk自然语言处理包清洗，并句子化网页文档，形成总句子库，其中清洗部分包括去特殊符号和词性还原。

(2)标注句子层的语料库

2.1)随机抽取1/5的句子，根据句子中是否含有专业领域所需的属性信息，逐条人工标注为属性句子语料库。至此，完成第一个层次的语料库构建。

(3)分类器训练和筛选

3.1)从属性句子库中随机选取1/5、2/5、3/5、4/5的句子，按照7:3的比例划分为训练库和检验库。

3.2)分别使用BOW模型(Bag of word)、TF-IDF模型(Term frequency–inversedocument frequency)、FH模型(feature hashing)将3.1)中的属性句子语料训练库和检验库中的句子转换为词向量。

3.3)从Python库的scikit-learn机器学习包中调用12种分类器的函数，使用3.2)中的训练库和检验库的词向量训练和检验，得到共计4×3×12种组合的结果。

(4)句子库分类

4.1)选取3.3)中分类结果最优的随机森林分类器，对1.2)中的总句子库分类，得到属性句子总语料库。

(5)属性词语料库标注

5.1)使用Python库中gensim文档主题分析包提供的主题分析模型LSI(Latentsemantic indexing)、LDA(Latent Dirichlet allocation)和Scikit-learn机器学习包提供的主题分析模型LDA(Latent Dirichlet allocation)、NMF(Non-negative matrixfactorization)，设置不同的主题数量，分别对4.1)中的属性句子总语料库进行主题分析，在每个确定的主题数量下，对比这4种分析模型的结果，最后选定的关键词库为gensim提供的LDA模型和scikit-learn提供的NMF模型分析得到的关键词库的并集。

5.2)根据该专业领域的专题，从步骤5.1)主题分析模型(LDA和NMF)获得的关键词库中，人工标注相关的属性信息词，按照该专业邻域的知识划分类型，形成属性词语料库。至此，完成第二个层次的语料库构建。

(6)专题属性信息抽取

6.1)使用Python库中的nltk自然语言处理包清洗，并词语化步骤1.1)中结构化的网页文档，其中清洗包括去停顿词、去特殊符号和词性还原，形成词语总库。

6.2)使用步骤5.2)中的属性词语料库，在步骤6.1)中的词语总库规则匹配，完成该专题属性信息的抽取，形成专业领域的属性信息数据集。

本发明已成功应用在全球世界文化遗产本体及环境特征数据集提取中，使用该方法提取的属性完整，属性句子语料库能有效地支持句子分类，属性词语料库能直接应用在新的文化遗产特征提取中，标题段落的结构化数据方便后续的语义分析。同时，该方法使用的主题分析模型具有一定的可扩展性，能通过调整相关参数，提取不同长度的关键短语。业内人士认为，该方法解决了全球世界文化遗产本体及环境特征信息获取的难题，为文化遗产的保护管理提供了重要的数据，使世界文化遗产本体及环境特征的全球分析和挖掘文化遗产病害与特征间的关系成为可能。

附图说明

图1：基于自然语言处理的层次化专题

(世界文化遗产本体及环境特征)属性抽取方法流程图

图2：属性句子库示例

图3：语料库数量，向量化方法和分类器控制组合

图4：分类精度和语料量的关系

图5：各类组合和最佳的分类精度

图6：各类属性词的数量分布

图7：文化遗产本体及特征属性数据集结构示例

图8：专题属性数据集检验结果(其中横轴为文化遗产，纵轴为属性词节点)

具体实施方式

文化遗产并非孤立存在，周边的环境不仅仅是一种物理背景，它可能随时影响着文化遗产本体和突出普遍价值(OUV)。因此，获取文化遗产的本体及环境特征信息，对于文化遗产保护管理有着重要意义。

自然语言处理基于语言学的知识，使用计算机处理文本，能高效地从文本中获取特定信息。文化遗产语言技术联盟(CHLT)曾整合自然语言处理等技术，建立了一套希腊文、拉丁文、古诺尔斯文的高效检索系统，实现了古文献的数字化管理，但未从文化遗产保护管理的角度，抽取出特定的属性库。在古建筑管理领域，基于古建筑的特征，通过对建筑百科全书进行语义理解和关键词抽取，建立了古建筑本体特征属性库。目前的研究，还没有一套针对世界文化遗产的语料库和本体及环境特征属性数据集。

截止2017年，列入联合国教科文组织(UNESCO)名录的全球世界文化遗产有849项，其中有306项具有多处，经过对坐标位置信息等梳理统计，遗产地分布地点有5590处。每项遗产地具有独特的价值与环境等属性特征。由于各国的管理水平层次不齐，UNESCO上提交的申遗文本缺失较多，而世界文化遗产的Wikipedia介绍页面是对申遗文本的简化和补充，包含了丰富的文化遗产本体及环境特征信息。因此，本发明的数据来源为Wikipedia介绍。

通过调研发现，全球文化遗产在Wikipedia中按照地区、国家、单项遗产、单处遗产的形式管理。单项和单处遗产介绍页面含有丰富的本体和环境特征属性信息。因此，从互联网获取世界文化遗产Wikipedia介绍页面，849项遗产共计1446个网页。实施时编程语言为Python，自然语言处理的包包括nltk，pattern和gensim等，科学计算包包括numpy，scipy和scikit-learn等，网页解析包为beautifulsoup。随机抽取一部分世界文化遗产的介绍页面发现，包含的本体和环境特征属性，根据文化遗产保护管理的需求能分为15个类别，分别为：类型、用途、山、宗教、河湖、临海、地形、气候、破坏、灾害、构成、重建、位置、风格、是否被遗弃。

下面结合附图详细表述本发明提供的基于自然语言处理的世界文化遗产本体及环境特征属性抽取方法，其包括以下步骤：

(1)获取总句子语料库

使用beautifulsoup提供的网页解析功能，查找网页中的标题和段落，遍历所有的网页，使用标题和段落的关系滤除百科介绍页面中的目录、相关链接、扩展阅读、参考等冗余信息，将网页中描述遗产地的内容整理为标题段落的结构。使用nltk和pattern包提供的词语化、去停顿词、统一小写转换、去除特殊词函数，清洗标题段落结构内容，清洗完之后的词为纯英文符号。遍历清洗后的内容，使用nltk的句子化函数，将各段落句子化，形成总句子库。

(2)标注句子层的语料库

使用numpy包提供的随机函数，从总句子库中随机抽取出5000条句子，导出为txt格式。在Excel下打开导出的句子，开始标注属性句子语料库，具有感兴趣属性词的句子标定为1，反之标定为-1。属性句子语料库中部分示例如图2所列。

(3)分类器训练和筛选

为了选择合适的语料量，向量化方法和分类器，实施时从属性句子语料库中选取不同1000条、2000条、3000条、4000条的语料数量；分别选择词袋模型、TF-IDF模型和HashVector的向量化方法，将句子转化为向量；使用朴素贝叶斯、支持向量机、最近邻、随机森林等共计12种分类器进行训练。共计4×3×12，144组组合。分类器详见图3，各类组合的精度如图4和5所示。图4中横轴为分类器和向量化方法的组合，在同一条折线上的点为相同数量的语料量，可以看到语料量为1000条时，分类的精度较低，为2000、3000、4000条时，相同的分类器和向量化方法的组合下，分类的精度已经相差很小。因此，语料量的大小最终选定为4000条。图5详细地展示了语料量，向量化方法和分类器组合下的分类精度，同一折线上的点为相同的分类器，语料量和向量化的方法如点旁的标注。可以看到除了最近邻法(KNN)的分类精度很低外，其它分类器的精度多在0.7以上，分类精度最高的组合为4000条语料量、TF-IDF和随机森林分类器，分类精度为0.798。

(4)句子库分类因此，最终使用该分类器对总句子库分类，含有属性信息的句子为17653条，这部分句子为属性句子库。

(5)属性词语料库标注

使用gensim和scikit-learn提供的主题分析模型LSI、LDA和NMF分别对属性句子语料库进行主题分析，由于已知属性类型为15类，在主题分析时，为了确定最佳的主题数量，分别设定主题数量为20、25、30。发现三种主题分析模型最佳的主题数量是设定为20个。对比最佳主题数量下三种模型的主题分析结果发现，LSI不能很好地把各类主题分开，各主题间重叠的关键词较多；gensim提供的LDA能确定较多关键词，但是不能设置关键词导出的总数量，不能导出全部的关键词；而NMF能有效地确定不同主题的关键词，关键词输出数量的输出数量能设定，能导出更全的关键词，另外还有分块函数长度设定的参数，提供了一定的扩展性。因此，最终选择在LDA和NMF主题分析的结果中标注属性，形成属性词语料库。最终标注的属性关键词共计179个，各类属性关键词的数量分布如图6，可以看到不同类型的属性关键词数量差别较大，这些出现次数较少的关键词正是传统标注方法不能提取出的部分。

(7)专题属性信息抽取

遍历标题段落结构化的Wikipedia内容，使用nltk提供的词语化函数，内容介绍总词库。使用规则匹配的方法，用属性关键词库在内容介绍总词库中匹配，得到文化遗产的本体及环境特征属性信息，最终形成全球世界文化遗产本体及环境特征数据集。数据集中某项世界文化遗产的属性结构如图7所示。从数据集中随机抽取100条，按照文化遗产名称在Wikipedia中查找，手动提取出属性词作为标准数据，检验的精度为92.4％。检验图如8所示，图中每个方框为一个词，正确抽取的为亮色，反之为暗色。

Claims

1.一种基于自然语言处理的层次化专题属性抽取方法，包括以下步骤：

1)将英文百科类介绍页面结构化，清洗并句子化，形成总句子语料库；

2)从总句子语料库中随机抽取部分句子，标注其中含有某专业领域属性的句子，形成句子层的语料库——属性句子语料库；

3)按照7:3的比例，将属性句子语料库划分为训练库和检验库，训练并检验随机森林分类器；

4)使用训练好的随机森林分类器对步骤1)中的总句子语料库分类，获得属性句子库；

5)使用文档主题生成模型获取属性句子库中的主题词，标注该专业领域知识的各类型属性词，形成词语层的语料库——属性词语料库；

6)将英文百科类介绍页面词语化，根据属性词语料库，规则匹配抽取专题属性信息。

2.根据权利要求1所述的基于自然语言处理的层次化专题属性抽取方法，其特征在于：所述步骤1)进一步包括：

1.1)使用标题和段落的结构，滤除百科介绍页面中的目录、相关链接、扩展阅读、参考等冗余信息，形成结构化的网页文档；

3.根据权利要求2所述的基于自然语言处理的层次化专题属性抽取方法，其特征在于：所述步骤2)进一步包括：

2.1)随机抽取1/5的句子，根据句子中是否含有专业领域所需的属性信息，逐条人工标注为属性句子语料库, 至此，完成第一个层次的语料库构建。

4.根据权利要求3所述的基于自然语言处理的层次化专题属性抽取方法，其特征在于：所述步骤3)进一步包括：

3.1)从属性句子库中随机选取1/5、2/5、3/5、4/5的句子，按照7:3的比例划分为训练库和检验库；

3.2)分别使用BOW模型(Bag of word)、TF-IDF模型(Term frequency–inversedocument frequency)、FH模型(feature hashing)将3.1)中的属性句子语料训练库和检验库中的句子转换为词向量；

5.根据权利要求4所述的基于自然语言处理的层次化专题属性抽取方法，其特征在于：所述步骤4)进一步包括：

6.根据权利要求5所述的基于自然语言处理的层次化专题属性抽取方法，其特征在于：所述步骤5)进一步包括：

5.1)使用Python库中gensim文档主题分析包提供的主题分析模型LSI(Latentsemantic indexing)、LDA(Latent Dirichlet allocation)和Scikit-learn机器学习包提供的主题分析模型LDA(Latent Dirichlet allocation)、NMF(Non-negative matrixfactorization)，设置不同的主题数量，分别对4.1)中的属性句子总语料库进行主题分析，在每个确定的主题数量下，对比这4种分析模型的结果，最后选定的关键词库为gensim提供的LDA模型和scikit-learn提供的NMF模型分析得到的关键词库的并集；

5.2)根据该专业领域的专题，从步骤5.1)主题分析模型(LDA和NMF)获得的关键词库中，人工标注相关的属性信息词，按照专业邻域的知识划分类型，形成属性词语料库, 至此，完成第二个层次的语料库构建。

7.根据权利要求6所述的基于自然语言处理的层次化专题属性抽取方法，其特征在于：所述步骤6)进一步包括：

6.1)使用Python库中的nltk自然语言处理包清洗，并词语化步骤1.1)中结构化的网页文档，其中清洗包括去停顿词、去特殊符号和词性还原，形成词语总库；