CN113239196A

CN113239196A - 一种基于数字人文的实体分类模型训练与预测方法

Info

Publication number: CN113239196A
Application number: CN202110515349.9A
Authority: CN
Inventors: 马宇柔; 滕康; 吕强; 印东敏; 段飞虎; 顾君; 张宏伟
Original assignee: Tongfang Knowledge Network Beijing Technology Co ltd; Tongfang Knowledge Network Digital Publishing Technology Co ltd
Current assignee: Tongfang Knowledge Network Beijing Technology Co ltd; Tongfangzhiwang Digital Technology Co.,Ltd.
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-10
Anticipated expiration: 2041-05-12
Also published as: CN113239196B

Abstract

本发明公开了一种基于数字人文的实体分类模型训练与预测方法，包括：从部分工具书中检索出至少六类实体，将人物实体中带有特殊描述前缀后缀的文本，利用HMM模型提取出词性为nr的文本，作为清洗后的样本；将检索出的实体分为正负两类，投入BertTokenizer中转换为token向量，并根据实体的文本长度特征，将向量扩充为16维向量；训练token文本向量，得到BIRNN分类模型结构；识别并校准BIRNN分类模型结果，生成不同类别的词典；将结果导出到数据库中，进行审核、去重并补全信息。

Description

一种基于数字人文的实体分类模型训练与预测方法

技术领域

本发明涉及自然语言处理领域和计算机信息处理技术领域，尤其涉及一种基于数字人文的实体分类模型训练与预测方法。

背景技术

现有数字人文是大数据领域内的一项创新，近年来在人文学科各领域兴起，获得众多国内外学者关注。由于数字技术更新迭代，个人电脑具有普遍的应用，即使是文科学者也可以驱使数字技术来进行研究工作。为了进一步提升学者的研究效率，迫切需要一种可视化的方法展现历朝历代人文信息的方法，由于知识图谱具备将人类的知识结构化的功能，所以人文百科的信息通常用这种方式被表达出来。

在构造人文信息的图谱之前，首先要做的是实体分类，需要从大量自由文本中根据一定的特征辨识实体所属类别。实体分类是知识图谱构建和补全的重要子任务。

一般的文本分类模型主要分为四种：一是基于编制规则的方法分类数据，但大规模人工标注实体类别的方式需要付出高昂代价。二是基于词典的方法，例如直接采用词典匹配实体，但这要求词库一定要非常的全面和强大，显然在古汉语实体分类中是不适用的。三是基于传统机器学习的分类方法，例如 SVM等，但需要人工定义文本中的一些特征的规则，比如在判断“赵匡胤”的类别时，需要首先根据该实体的第一个字是否存在于百家姓中来判断，当遇到不规则人名(如古代皇帝谥号)、地名、历史事件等，没有更多的信息可以提取出来，这种方法便失效了，四是基于深度学习模型的分类方法，目前业界普遍应用于文本分类项目中，但对于实体而言，尤其是古汉语实体，还没有专门的深度学习方法进行建模分类。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于数字人文的实体分类模型训练与预测方法，该方法利用古汉语实体的文本特征，无需人工定义特征，与深度学习的分类方法结合，研究一种专门的实体分类方法，从而完成知识图谱的前期构建子任务，分类后的实体，构建实体词典，便于后续的文本实体抽取工作。

本发明的目的通过以下的技术方案来实现：

一种基于数字人文的实体分类模型训练与预测方法，包括：

步骤A从部分工具书中检索出至少六类实体，将人物实体中带有特殊描述前缀后缀的文本，利用HMM模型提取出词性为nr的文本，作为清洗后的样本；

步骤B将检索出的实体分为正负两类，投入BertTokenizer中转换为token 向量，并根据实体的文本长度特征，将向量扩充为16维向量；

步骤C训练token文本向量，得到BIRNN分类模型结构；

步骤D识别并校准BIRNN分类模型结果，生成不同类别的词典；

步骤E将结果导出到数据库中，进行审核、去重并补全信息。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本发明旨在仅利用古汉语实体的文本特征，无需人工定义特征，与深度学习的分类方法结合，研究一种专门的实体分类方法，从而完成知识图谱的前期构建子任务，分类后的实体，构建实体词典，便于后续的文本实体抽取工作。

附图说明

图1数字人文分类模型训练与预测方法流程图；

图2是截取的实体样本表图；

图3是截取的实体关系表图；

图4是二分类神经网络模型结构图；

图5是BiRNN原理结构图；

图6a和6b是人物二分类模型的迭代训练曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

该方法对古代人文信息的人物、官职、机构、朝代、事件、地点及其他实体进行分类，包括：

不规则样本调整模型，用于将文本信息过于冗长的样本提取出精简文本，例如将“英明威武的秦始皇”转换为“秦始皇”，通过该模型对目标实体进行初步调整，便于提高分类模型精度；实体类型分类模型，由于均为短文本，考虑到RNN较强的短期记忆能力，采用Bert+BIRNN算法，获得目标实体的分类结果。

如图1所示，为数字人文分类模型训练与预测方法流程，包括：

从已知的一部分分类明确的工具书中检索出六类实体(其中可能包含其他类别的实体)，将人物实体中带有特殊描述前缀后缀的文本，利用HMM模型提取出词性为nr的文本，作为清洗后的样本。将所有实体中的特殊符号、噪音数据等过滤掉。

将六类实体分为正负两类，全部投入BertTokenizer中转换为token向量，对于向量维度的定义，综合考虑各类实体的文本长度特征，统一扩充为16 维向量。

1)转换为向量

xx省(p₁₁ p₁₂ p₁₃)

商鞅变法(p₂₁ p₂₂ p₂₃ p₂₄)

李白(p₃₁ p₃₂)

内命妇(p₄₁ p₄₂ p₄₃)

2、零填充

xx省(p₁₁ p₁₂ p₁₃ 0 ... 0)

商鞅变法(p₂₁ p₂₂ p₂₃ p₂₄ ... 0)

李白(p₃₁ p₃₂ 0 0 ... 0)

内命妇(p₄₁ p₄₂ p₄₃ 0 ... 0)

每一个实体向量对应的类别使用keras.utils中的to_categorical方法，将类别转换为二分类矩阵。打乱样本中带有的初始顺序，随机排序，并按照75％的比例划分训练测试集。

设定训练token文本向量，得到BIRNN分类模型结构；

神经网络的结构如下：

一个嵌入层，将实体转换为文本序列向量，得到一个特征矩阵,利用 Embedding，建立一个带有嵌入层的神经网络，对序列中的每一个字都用相应的向量进行加权。最终将16维的稀疏特征向量经过空间投影转为8维的嵌入向量。

两层Dropout，且中间一层双向RNN，RNN会使模型迅速收敛，易过拟合，在RNN层前后各设置一层Dropout，增强模型泛化能力。

一个Softmax层，根据实体的向量特征得到一个类别分布概率向量，取概率值最大的类别作为最终预测结果。

校准并识别BIRNN分类模型结果，生成不同类别的词典；继续采集样本数据，从开始进行，逐步更新迭代训练出较为精准的深度学习模型。

将结果导出到数据库中，进行审核、去重并补全信息，具体如下：

人物实体，古代人物多具有不同的名字或别称，通过实体样本中带有的信息，进行昵称合并，别称放入“别称”字段中，只保留人名作为该实体的唯一标识。对于同名的不同人物，根据出生年月做去重处理。

地点实体，不同朝代中地点命名可能相同或不同，不同朝代的地点作为不同的实体，并添加地点经纬度。古代地名与现在地名多有不同，需增加一列对应的现有地名的描述。

其他实体均要审核后入库，统一递增编码，配给唯一id。

图1中模型训练和预测有不同的路径：训练模型时按照①④和⑤→⑥的顺序，预测时按照①②③⑦→⑧和⑨的顺序。

1、实体概念定义：初步定义数字人文知识图谱中的实体类型，包括类型的基本属性。本实施例定义的类型如表1

表1

本实施例定义的实体关系属性如表2：

表2

根据定义好的实体类别，分别抽取部分样本。

2、实体分类词表，以事件实体为例如图2所示，其中event_name为实体词，gjs_book为出处，gjs_txt为描述等。

关系表图如图3所示，其中的关系可以理解为kin_id对应的实体是 person_id对应的实体的relation关系。

3、数据预处理

预先做数据初筛，去除脏数据，去除或清洗包含数字、字母及特殊字符的数据，将实体使用BertTokenizer编码，转换为初始稀疏向量，并扩充到固定的维度。对于古汉语中的生僻字，需要扩充bert自带的字典，补全这些字符。

4、神经网络模型(如图4所示)

X_F＝W_Ff

以人物实体为例，上式中，将稀疏向量f通过第一层embedding后，经投影矩阵W_F转为低维特征向量X_F。对于普通的RNN模型，将X_F拆开为 (x₁ x₂ ... x_T)，经过T个时刻之后，可以得到T个正向隐藏层状态

将输入序列单词的顺序颠倒之后得到(x_T ... x₂x₁)，再次经过 RNN，得到反向隐藏层状态

最后将正向隐藏状态和反向隐藏状态连接，即

得到x_j的向量表示。

图5是BiRNN原理结构图。

如图6a和6b所示，在进行模型训练时，epoch10次以内即可达到很高的精度，

loss为training loss，val_loss为validation loss，acc为training accuracy,val_acc为validation accuracy。

测试集的准确度如表3：

表3

从表中可以看出，朝代和事件的样本量较少、人物和地点的样本量较多，在分类模型中，对这种不平衡数据需要特殊处理，本实施例取正负样本数目的倒数作为各自的权重系数。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于数字人文的实体分类模型训练与预测方法，其特征在于，包括：

步骤B将检索出的实体分为正负两类，投入BertTokenizer中转换为token向量，并根据实体的文本长度特征，将向量扩充为16维向量；

步骤C训练token文本向量，得到BIRNN分类模型结构；

步骤D识别并校准BIRNN分类模型结果，生成不同类别的词典；

步骤E将结果导出到数据库中，进行审核、去重并补全信息。

2.如权利要求1所述的基于数字人文的实体分类模型训练与预测方法，其特征在于，所述步骤C模型中神经网络结构包括：

嵌入层，用于对序列中的每一个字相应的向量进行加权，并将16维的稀疏特征向量经过空间投影转为8维的嵌入向量；

Dropout层，设置有两层，且中间一层双向RNN，在RNN层前后各设置一层Dropout，增强模型泛化能力；

Softmax层，根据实体的向量特征得到一个类别分布概率向量，取概率值最大的类别作为最终预测结果。

3.如权利要求1所述的基于数字人文的实体分类模型训练与预测方法，其特征在于，所述步骤E中需要审核、去重并补全的信息具体包括：

人物实体，人物多具有不同的名字或别称，通过实体样本中带有的信息，进行昵称合并，别称放入“别称”字段中，只保留人名作为该实体的唯一标识；

地点实体，不同朝代中地点命名可能相同或不同，不同朝代的地点作为不同的实体，并添加地点经纬度。