CN111324742A

CN111324742A - 一种数字人文知识图谱的构建方法

Info

Publication number: CN111324742A
Application number: CN202010084140.7A
Authority: CN
Inventors: 梁晨阳; 段飞虎; 吴璟; 丁琨; 成鑫; 冯自强; 张宏伟
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-23
Anticipated expiration: 2040-02-10
Also published as: CN111324742B

Abstract

本发明公开了一种数字人文知识图谱的构建方法，包括：采用序列标注模型Bi‑LSTM+CRF算法对文本数据进行实体识别并构建实体词典；把通过Bi‑LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体，并设置语料的实体标志位；对语料进行分类，用以抽取不同的信息；采用Bi‑LSTM+CRF模型进行关系识别，并抽取实体的关系；采用Bi‑LSTM+CRF模型进行属性识别，并抽取实体的属性。本发明用于抽取信息的语料为古代相关文献，既能确保数字人文知识图谱的准确性，又能高效的排除噪声数据对信息抽取的干扰；该方法在信息抽取的规划中，兼顾准确率、召回率以及效率。

Description

一种数字人文知识图谱的构建方法

技术领域

本发明涉及数据挖掘和计算机信息处理技术领域，尤其涉及一种数字人文知识图谱的构建方法。

背景技术

随着计算机技术和互联网技术的发展，信息爆炸时代已经到来。面对史无前例的大量文本数据，自然语言处理技术的发展已经可以充分处理网络中的文本信息，但是如何高效利用网络中的信息已经成为互联网领域需要面对的最主要的问题之一。在这种背景下，知识图谱应运而生。知识图谱从非结构化数据中提取信息，把非结构化信息转换成结构化的“知识”，存储在数据库中，从而非常方便的储存和查找信息。在信息化时代，不同行业的行业知识图谱的构建也显得尤为重要。在数字人文中，古人留下的古文是中华民族的文化瑰宝。通过处理大量古代相关文献抽取信息，构建数字人文知识图谱，可以通过现代计算机技术辅助研究古代传统文化，大大提高效率。

知识图谱是一种结构化数据，包含大量的实体、关系和属性，具体结构为：{实体1，关系a，实体2}或者{实体1，属性a，属性值}。因此数字人文知识图谱的构建，就是去大量的相关文献中，抽取实体，关系和属性信息。在从大量文献抽取信息的过程中，由于信息分布比较稀疏，因此会影响抽取的效率。而目前的自然语言处理技术，不能保证信息抽取过程中的准确性。对于数字人文知识图谱而言，其具有如下特点：

(1)数字人文知识图谱中的知识(实体、关系和属性等)是确定的，不存在随时间变化而更新，因此可以使其的准确性得到保障。

(2)古代相关文献语料比较稀疏，语料中含有的实体、关系和属性等信息比较少，因此在信息抽取过程中需要采用特殊的处理方法来降低噪声语料(无信息语料)对抽取结果的准确性的干扰。

发明内容

为解决上述技术问题，本发明的目的是提供一种相对比较理想的数字人文知识图谱构建方法，该方法首先利用实体识别算法去文献中识别出需要的实体，经过审核后构建实体词典。利用实体词典去获取含有实体的语句，然后语句用分类算法分成属性语句、关系语句和噪声语句。最后分别用关系识别模型和属性识别模型去抽取实体的关系和属性。

本发明的目的通过以下的技术方案来实现：

一种数字人文知识图谱的构建方法，包括

A采用序列标注模型Bi-LSTM+CRF算法对文本数据进行实体识别并构建实体词典；

B把通过Bi-LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体，并设置语料的实体标志位；

C对语料进行分类，用以抽取不同的信息；

D采用Bi-LSTM+CRF模型进行关系识别，并抽取实体的关系；

E采用Bi-LSTM+CRF模型进行属性识别，并抽取实体的属性。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

该方法用于抽取信息的语料为古代相关文献，既能确保数字人文知识图谱的准确性，又能高效的排除噪声数据对信息抽取的干扰；该方法在信息抽取的规划中，兼顾准确率、召回率以及效率。

附图说明

图1是数字人文知识图谱的构建方法流程图；

图2是实体识别采用序列标注模型Bi-LSTM+CRF算法流程图；

图3是采用分词和字典匹配的方式来进行实体匹配流程图；

图4是语料分类具体流程图；

图5是关系模型抽取关系流程图；

图6是属性模型抽取关系流程图；

图7是存放语料的数据库结构表图；

图8是实体识别后语料抽出实体的结果图；

图9是结合相应的实体个数给语料分类，然后再用模型做分类的结果图；

图10是关系模型抽取关系结果图；

图11是属性模型抽取属性结果图。

具体实施方式

本实施例通过对大规模非结构化古文本数据进行数据挖掘。首先标注数据训练模型，再由训练好的模型相应的抽出古文本中的实体、实体属性以及实体关系属性等信息，来进行数字人文知识图谱的构建。

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为数字人文知识图谱的构建方法，该方法用于抽取信息的语料为古代相关文献，既能确保数字人文知识图谱的准确性，又能高效的排除噪声数据对信息抽取的干扰。本方法通过实体识别，关系识别和属性识别来提取信息，从而构建知识图谱，具体技术方案包括以下步骤：

步骤10采用序列标注模型Bi-LSTM+CRF算法对文本数据进行实体识别并构建实体词典；

对需要识别的实体类型定义实体标签，例如：人名，著作等。把一批经过清洗的数据通过Bi-LSTM+CRF模型，对数据进行标注，提取出模型识别的实体，通过人工审核对识别数据的标注序列进行修改，同时把审核后的实体存入对应的实体词典中。通过审核的数据添加到训练集中，用于模型继续训练以提高模型的准确性。算法流程图如图2所示。

步骤20把通过Bi-LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体，并设置语料的实体标志位；

把通过Bi-LSTM+CRF模型数据，通过实体词典匹配的方式来进行实体抽取，这样可以确保实体抽取的准确性，通过实体词典匹配的模式抽取实体准确率为100％。实体词典匹配。由于待处理数据非常庞大，因此对算法复杂度要求较高。本方法采用分词+字典匹配的方式来进行实体匹配，具体步骤如下：

(1)首先把实体词典上传到结巴分词的用户词典。

(2)然后使用结巴分词的全分词模型对语料进行分词，再遍历分词结果中的词判断其是否存在于对应的实体词典。

(3)给语料设置对应实体类型的标志位，把语料中包含该类实体的个数存入对应的标志位中。

上述流程如图3所示。

步骤30对语料进行分类，用以抽取不同的信息；

实体抽取的准确性对关系抽取和属性抽取有至关重要的作用，同时通过判断语料中包含实体的类别，根据关系抽取和属性抽取的特点来把语料分类，分成用于可用于关系抽取语料、可用于属性抽取的语料和无信息语料三类。通过关系和属性抽取的特点来对语料进行分类，可以大幅解决语料的稀疏问题，从而减少噪声数据对模型的干扰，大幅提高模型效率和准确性。

根据语料的实体标志位给语料分类。关系识别中需要提供至少两个实体，从而去抽取两个实体的关系从而获得{实体1，关系，实体2}三元组，因此用于关系抽取的语料必须包含两个及两个以上的实体。对应的属性抽取模型则必须包含至少一个实体。尽管根据实体标志位来分类语料大大排除了无信息句子的影响，但是语料中包含实际定义的关系和属性信息依然很稀疏。Textcnn具有N-gram类似的结构特点，忽略了词序，所以在词序不敏感的场景效果很好。因此可以用Textcnn做baseline，提取语言中的信息特征，从而进一步分类语料，排除无信息含量的语料。具体步骤如下：

(1)根据语料的实体标志位，根据语料含有实体的个数进行分类：含有一个及以上实体可用于进行属性抽取，含有两个及以上实体可用于关系抽取，不含实体语料则为噪声。

(2)通过关系识别和属性识别后的语料进行数据审核，训练一个二分类Textcnn模型，把含有关系或属性信息的语料分为一类，不包含关系和属性的语料分为一类。

上述流程如图4所示。

步骤40采用Bi-LSTM+CRF模型进行关系识别，并抽取实体的关系；

首先把关系识别简化为一个分类模型，定义关系标签。然后把输入句子的字向量，分别正向和逆向通过两个GRU网络，把输出的向量通过注意力模型加权求和输入dense层中进行关系分类。对于分类结果，首先运用之前的实体标志位进行审核，把逻辑上不成立的实体之间的关系筛选出来进行修改，例如：人名实体和著作实体得出“父母”关系，明显逻辑上是不可能的。然后再把逻辑可行的分类结果进行人工审核，把审核后的关系对三元组存入数据库，并且把分类错的数据加入训练集进行模型的迭代更新。图5是关系模型抽取关系流程图。

步骤50采用Bi-LSTM+CRF模型进行属性识别，并抽取实体的属性。首先给实体和相关属性定义相关的标签。然后把语料输入模型，对语料进行标注，提取结果。根据对于属性提取的结果，首先运用之前的实体标志位进行审核，把逻辑上不成立的实体属性选出来进行修改，例如：著作实体提取出一个官职属性，显然是不成立的。最后，把逻辑上可行的实体继续进行人工审核，把抽取错误的语料重新标注加入训练集进行模型的迭代更新。图6是属性模型抽取关系流程图。

上述实施例将古代相关文献进行分句处理，每个句子对应一个id，id为每个句子的主键值。备注序列为文本通过Bi-LSTM模型后，模型给文本打的标签。不同的实体分成不同的类别，例如：人名、地名等。语料可与用来进行关系识别的，把“是否属于关系抽取语料”置为1，否则为0。语料可与用来进行属性抽取的，把“是否属于属性抽取语料”置为1，否则为0；具体结构如图7所示。

通过实体识别模型标注后，对语料的标注结果进行审核，抽取其中的实体，把不同类型实体的个数存到相应的字段(如图8所示)，以备后续步骤进行逻辑分析。

根据语料抽出的实体的情况可以判断语料是否适用于关系抽取，或者是属性抽取，从而可以把噪声语料排除。通过初步筛选之后，再把语料输入textcnn网络，进行二分类，把语料中的噪声进一步排除，从而大幅解决古代文献的稀疏性。通过分类后的语料如图9所示。

把之前分类筛选出的可以进行关系抽取的语料输入关系抽取模型，进行关系抽取。分别计算语料中两两实体的关系，得出结果。得出结果后，再根据语料的实体的类型情况，可以排除一些明显的逻辑上的错误，进而提高审核效率，具体结果如图10所示。

把之前分类筛选出的可以进行属性抽取的语料输入关系抽取模型，进行属性抽取。采用序列标注的模式，把实体和相关属性有标签标出来进行提取。得出结果后，再根据语料的实体的类型情况，可以排除一些明显的逻辑上的错误，进而提高审核效率；具体结果如图11所示。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种数字人文知识图谱的构建方法，其特征在于，所述方法包括：

C对语料进行分类，用以抽取不同的信息；

D采用Bi-LSTM+CRF模型进行关系识别，并抽取实体的关系；

E采用Bi-LSTM+CRF模型进行属性识别，并抽取实体的属性。

2.如权利要求1所述的数字人文知识图谱的构建方法，其特征在于，所述步骤B采用分词与字典匹配的方式来进行实体匹配，具体包括：

把实体词典上传到结巴分词的用户词典；

使用结巴分词的全分词模型对语料进行分词，再遍历分词结果中的词判断其是否存在于对应的实体词典；

给语料设置对应实体类型的标志位，把语料中包含该类实体的个数存入对应的标志位中。

3.如权利要求1所述的数字人文知识图谱的构建方法，其特征在于，对所述语料分类包括：

根据关系抽取和属性抽取的特点把语料分类，分成用于可用于关系抽取语料、可用于属性抽取的语料和无信息语料三类；以及

根据语料的实体标志位给语料分类。

4.如权利要求3所述的数字人文知识图谱的构建方法，其特征在于，对关系识别和属性识别后的语料进行数据审核，训练一个二分类Textcnn模型，把含有关系或属性信息的语料分为一类，不包含关系和属性的语料分为一类。

5.如权利要求1所述的数字人文知识图谱的构建方法，其特征在于，所述步骤E具体包括：

给实体和相关属性定义相关的标签，把语料输入模型，对语料进行标注，提取结果；

根据对属性提取的结果，用实体标志位进行审核，并把逻辑上不成立的实体属性选出来进行修改；

把逻辑上可行的实体继续进行人工审核，把抽取错误的语料重新标注加入训练集进行模型的迭代更新。