CN113220871A

CN113220871A - 一种基于深度学习的文学人物关系识别方法

Info

Publication number: CN113220871A
Application number: CN202110602698.4A
Authority: CN
Inventors: 刘忠宝; 赵文娟; 荀恩东
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: Shandong Foreign Language Vocational And Technical University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-06
Anticipated expiration: 2041-05-31
Also published as: CN113220871B

Abstract

一种基于深度学习的文学人物关系识别方法，属于自然语言处理技术领域，该方法首先将文学文本进行分割得到一系列句子，即语料集；其次对语料集进行人物实体识别，再筛选出语料集中包含人物实体的句子，组成子语料集；再次利用RBERT+BiLSTM模型对子语料集进行人物关系抽取；接着计算出人物实体在同一句子之间的共现频数；然后根据人物关系和共现频数构建人物图谱；并且根据人物图谱进行社区发现；最后将人物图谱进行可视化。本发明提出的RBERT+BiLSTM模型不仅可以计算出人物实体的实体向量，还可以计算出对应句子的句子向量，将二者进行结合来计算人物关系，因此本方法在计算人物关系时，充分考虑句子的语义，以此来适用于文学作品。

Description

一种基于深度学习的文学人物关系识别方法

技术领域

本发明涉及一种基于深度学习的文学人物关系识别方法，属于自然语言处理技术领域。

背景技术

目前，为了挖掘文学文本的有效知识，需要分析文学文本中各人物之间的人物关系，而人物关系是一种重要的知识获取手段，是指从自然语言文本中提取出两个人物实体之间所存在的语义关系，如从句子“我跟了太太十来年，这会子撵出去，我还见人不见人呢！”王夫人固然是个宽仁慈厚的人，从来不曾打过丫头们一下，今忽见金钏儿行此无耻之事，此乃平生最恨者，故气忿不过，打了一下，骂了几句”中，能够确定两个人物实体“王夫人”和“金钏儿”，并分析出“王夫人”和“金钏儿”之间的人物关系“主仆”，而目前的人物关系识别方法则利用传统PCNN(piecewise convolutional neural networks，PCNN)模型对传统卷积神经网络(convolutional neural networks,CNN)的池化层进行改进，利用改进过的传统卷积神经网络对人物关系进行挖掘，主要步骤为通过两个实体位置将feature map分为三段进行池化，分别将其分解为(实体前，实体间，实体后)其目的是更好地捕获两个实体间的结构化信息。使用注意力机制，通过建立句子级注意力机制减轻错误标签问题。但是，这一类模型并未充分考虑句子的语义，对于文学作品并不适用，同时文学作品往往人物较多，关系复杂，如《红楼梦》中人物就已达到721人，分布于书中各个章节且关系错综复杂，目前的人物关系识别方法无法充分展现文学作品的复杂人物关系。

发明内容

为解决上述现有技术中存在的技术问题，本发明提供了一种基于深度学习的文学人物关系识别方法，本方法采用RBERT+BiLSTM模型对文学作品的人物关系进行抽取，而RBERT+BiLSTM模型不仅计算出人物实体的实体向量，还计算出对应句子的句子向量，并将实体向量和句子向量进行融化，然后以融化后的向量出计算人物关系，同时以人物识别、关系抽取、关系密切度和人物社区发现这四个维度进行了人物关系研究，来充分展示人物之间的关系、密切度和人物团体。

实现本发明目的的技术方案为，一种基于深度学习的文学人物关系识别方法，至少包括如下步骤：

(1)将文学文本进行分割得到一系列句子，即语料集；

(2)对语料集进行人物实体识别，再筛选出语料集中包含人物实体的句子，组成子语料集；

(3.1)利用RBERT+BiLSTM模型对子语料集进行人物关系抽取；

(3.2)计算出人物实体在同一句子之间的共现频数；

(4)根据人物关系和共现频数构建人物图谱；

(5)根据人物图谱进行社区发现；

(6)将人物图谱进行可视化。

对上述技术方案的进一步改进为：所述步骤(1)中以文学文本中的句号为分割线对文学文本进行分割。

且所述步骤(2)中以自然语言处理工具HANNLP对语料集进行人物实体识别。

且所述HANNLP的人名词典包括中国古代人名库。

且所述步骤(2)中组成子语料集后，利用文言文回译的方法进行数据增强。

且所述步骤(3)中RBERT+BiLSTM模型的模型结构为：位于最底层p₁的RBERT模型分别连接位于第2层p₂的BiLSTM模型和位于第2层p₂的编码层，BiLSTM模型和编码层共同连接位于第3层p₃的全连接激活层，全连接激活层连接位于第4层p₄的特征融合层，特征融合层连接位于第5层p₅的全连接层，全连接层连接位于最顶层p₆的softmax层。

且所述步骤(3)中子语料集进入RBERT+BiLSTM模型之前，就在每一句子前添加[CLS]分类分隔符，并在每一句子中的人物实体前后插入相同的特殊字符，同时相同句子中不同人物实体前后插入的特殊字符不同。

且所述步骤(3.1)中人物关系抽取具体步骤为：

(3.1.1)利用RBERT模型将子语料集中某一句子进行向量化处理，得到该句子的隐藏状态out＝[h₁,h₂…h_n]；

式中：h为单个字的向量，n为该句子的字数；

(3.1.2)再将该句子的隐藏状态输入BiLSTM模型中训练得到该句子的句子向量H；

(3.1.3)编码层对该句子的隐藏状态进行计算，得到该句子中不同人物实体的实体向量H_e1和H_e2，其计算公式如下：

式中，H_i,...,H_j为人物实体e₁的向量表示，H_k,...,H_m为人物实体e₂的向量表示，i为人物实体e₁的首字在该句子中的位置序号，j为人物实体e₁的尾字在该句子中的位置序号，k为人物实体e₂的首字在该句子中的位置序号，m为人物实体e₂的尾字在该句子中的位置序号，W₁、b₁、W₂、b₂为共享参数，

(3.1.4)全连接激活层将句子向量H进行处理，使句子向量H的维度与实体向量的维度相同，其计算公式如下：

H′＝W₃(tanh(H))+b₃

式中，H′为处理后的句子向量，W₃、b₃为共享参数，

(3.1.5)特征融合层利用加法连接将实体向量H_e1和H_e2与处理后的句子向量H′进行融合得到融合向量S，其计算公式如下：

S＝H_e1+H_e2+H′

式中，H_e1为人物实体e₁的实体向量，H_e2为人物实体e₂的实体向量，H′为处理后的句子向量；

(3.1.6)全连接层将融合向量S进行全连接处理，其计算公式如下：

S′＝W₄S+b₄

式中，S为融合向量，W₄、b₄为共享参数，

(3.1.7)通过softmax层来计算人物实体e₁和人物实体e₂的人物关系；

p＝softmax(S′)

式中，S′全连接处理后的融合向量；

(3.1.8)重复上述步骤直至子语料集中所有句子的所有人物实体的人物关系均被获得。

且所述步骤(5)中社区发现的具体步骤如下：

(5.1)人物节点初始化：将每个人物实体当作一个单独的社区；

(5.2)人物节点移动：移动人物实体节点到其邻居节点所在社区，计算移动过程中社区模块度增量，若模块度增量最大，则将该人物节点融入这个社区；

(5.3)对每个人物节点按照步骤(5.2)执行，直到所属社区不再改变；

(5.4)社区重构，将变化后的社区，社区内节点边的权重更新为新节点环的权重，社区间的变的权重更新为新节点边的权重；

(5.5)将重构后的社区看作新的节点，按照步骤(5.2)重复进行，直至整个社区模块度增量不再变化。

且所述步骤(6)中人物图谱进行可视化采用节点代表人物实体，其节点大小代表人物实体影响力，各节点之间连接有关系连接线，关系连接线的粗细代表人物实体之间密切度的大小。

由上述技术方案可知：(1)本发明提出的RBERT+BiLSTM模型不仅可以计算出人物实体的实体向量，还可以计算出对应句子的句子向量，将二者进行结合来计算人物关系，因此本方法在计算人物关系时，充分考虑句子的语义，以此来适用于文学作品；

(2)特征融合层采用加法连接，因为句子向量所具有的有效特征超过实体向量，所以采用加法更加有效的保留更重要的特征，来提高模型计算的准确率；

(3)全连接激活层将句子向量进行处理，使句子向量的维度与实体向量的维度相同，来使实体与句子的隐层向量更好的融合；

(4)以人物识别、关系抽取、关系密切度和人物社区发现这四个维度来展示人物之间关系、密切度和人物团体，以此为文学研究提供充分的资料。

附图说明

图1为本发明提供的一种基于深度学习的文学人物关系识别方法的流程结构示意图；

图2为本发明提供的一种基于深度学习的文学人物关系识别方法中RBERT+BiLSTM模型的结构示意图；

图3为本发明的BiLSTM模型结构示意图；

图4为本发明的可视化后人物图谱；

具体实施方式

下面结合附图和实施例对本发明进行详细具体说明，本发明的内容不局限于以下实施例。

本实施例中选取的文学作品为《红楼梦》，《红楼梦》中人物数量较多，人物分布于书中各个章节且关系错综复杂，方便体现本方法对文学作品中人物关系的处理以及展示。

参考图1，一种基于深度学习的文学人物关系识别方法，至少包括如下步骤：

通过python程序，并以句号为分割线对《红楼梦》进行分割，得到一系列句子，即语料集，在本实施例中还将构建的语料集进行整理，删除序列极短或许过长的句子，将句子进行shuffle。

将整理好的句子，输入预处理python脚本中对语料集进行人物实体识别，由于《红楼梦》中实体众多，且分布不不均匀。为提高实体识别效率，本实施例采用HANNLP的中文人名接口进行人物识别。为了提升实体的准确性，将中国古代人名库加入到HANNLP的人名词典中并且提升其频率，以提升人名识别准确率。其中python数据处理程序脚本中用NER＝HanLP.newSegment().enableNameRecognize(True)接口进行人物识别。例如:“我跟了太太十来年，这会子撵出去，我还见人不见人呢！”王夫人固然是个宽仁慈厚的人，从来不曾打过丫头们一下，今忽见金钏儿行此无耻之事，此乃平生最恨者，故气忿不过，打了一下，骂了几句。”识别为[我/rr,跟/p,了/ule,太太/n,十/m,来年/t,，/w,这/rzv,会子/n,撵出去/v,，/w,我/rr,还/d,见/v,人/n,不见/v,人/n,呢/y,！/w,”/w,王夫人/nr,固然/c,是/vshi,个/q,宽/a,仁慈/a,厚/a,的/ude1,人/n,，/w,从来/d,不曾/d,打过/v,丫头/n,们/k,一下/m,，/w,今/tg,忽/d,见/v,金钏/nr,儿/ng,行/ng,此/rzs,无耻/a,之事/r,，/w,此/rzs,乃/v,平生/n,最恨/nz,者/k,，/w,故/c,气忿/nz,不过/c,，/w,打/v,了/ule,一下/m,，/w,骂/v,了/ule,几/d,句/q,/w]其中rr：人称代词；p：介词；ule：了等语气词；n：名词；m：数词；t：时间词；nr：为人物名称；w：标点符号；rzv：谓词性指示代词；v：动词；y：语气词；c：连词；vshi：动词“是”；q:量词；，a:形容词，ude1:的地；k：后缀；tg:时间词性语素；ng：名词性语素；rzs：处所指示代词；r：代词；nz：其他专名；

识别结果为：“王夫人”，“金钏”；再筛选出语料集中包含人物实体的句子，组成子语料集；并将识别出的人物实体放入人物字典。

再通过文言文回译的方法，对子语料集中的句子进行数据增强，且数据增强不影响关系标签的分布情况。

表1

如表1所示，文言文回译是将文言文翻译成白话文，再将白话文译回文言文，

利用RBERT+BiLSTM模型对子语料集进行人物关系抽取；

参考图2，RBERT+BiLSTM模型的模型结构为：位于最底层p₁的RBERT模型分别连接位于第2层p₂的BiLSTM模型和位于第2层p₂的编码层，BiLSTM模型和编码层共同连接位于第3层p₃的全连接激活层，全连接激活层连接位于第4层p₄的特征融合层，特征融合层连接位于第5层p₅的全连接层，全连接层连接位于最顶层p₆的softmax层。

人物关系抽取具体步骤为：子语料集进入RBERT+BiLSTM模型之前，就在每一句子前添加[CLS]分类分隔符，并在每一句子中的人物实体前后插入相同的特殊字符，同时相同句子中不同人物实体前后插入的特殊字符不同。在图2中，句子“薛姨妈还有一女,比薛蟠小两岁,乳名宝钗,生得肌骨莹润,举止娴雅”，为了充分体现人物实体信息的特殊性，在句子中加“$”和“#”的特殊字符进行实体的标志，在句子开头添加[CLS]分类分隔符，即[CLS]$薛姨妈$还有一女,比薛蟠小两岁,乳名#宝钗#,生得肌骨莹润,举止娴雅，并将该句子放入RBERT模型中进行向量化处理，得到该句子的隐藏状态out＝[h₁,h₂...h_n]；其中H_i,...,H_j的表示实体e₁，即薛姨妈，H_k,...,H_m,表示实体e₂，即宝钗；

再将该句子的隐藏状态输入BiLSTM模型中训练得到该句子的句子向量H；

参考图3，BiLSTM模型即双向LSTM模型，该模型通过引入门结构来决定在训练期间需要保留或遗忘的信息。LSTM由输入门i_t、输出门o_t和遗忘门f_t以及记忆单元c_t组成。其中，遗忘门用来控制历史信息，输入门用来控制当前信息，输出门用来确定下一个隐藏层状态，记忆单元用来保存历史信息。LSTM的工作流程由以下计算公式

i_t＝sigmoid(W_i ^*[h_t-1,x_t]+b_i)

c_t＝f_t*c_t-1+i_t*tanh(W_c*[h_t-1,x_t]+b_c)

其中sigmoid和tanh函数为激活函数，x_t时刻的输入，h_t表示隐藏层单元，W_i、W_f、W_o、W_c和b_i、b_f、b_o、b_e分别表示对应的权重矩阵和偏置。通过前向和后向向量连接。

H＝[h₁,h₂,h₃,h₄,h₅……h_n]

目前的模型不会充分考虑句子的语义，对于文学作品并不适用，而本发明提出的RBERT+BiLSTM模型中利用BiLSTM模型计算出对应句子的句子向量，来充分考虑句子的语义；

编码层对该句子的隐藏状态进行计算，得到该句子中不同人物实体的实体向量H_e1和H_e2，其计算公式如下：

R为实数集，d₁为人物实体e₁的维度，d₂为人物实体e₂的维度；

全连接激活层将句子量向H进行处理，使句子向量H的维度与实体向量的维度相同，使两个实体与句子的隐层向量更好的融合，其计算公式如下：

H′＝W₃(tanh(H))+b₃

式中，H′为处理后的句子向量，W₃、b₃为共享参数，

R为实数集，d₃为句子量向H的维度；

特征融合层利用加法连接将实体向量H_e1和H_e2与处理后的句子向量H′进行融合得到融合向量S，其计算公式如下：

S＝H_e1+H_e2+H′

目前RBERT模型采用concat连接方式，因为句子向量所具有的有效特征超过实体向量，而concat会保留大量的无效特征，并且维度更大，更加消耗硬件算力，而本发明中特征融合层采用加法连接，对比于RBERT模型的concat连接方式，减少了无关特征的维度，加速了模型的计算；

全连接层将融合向量S进行全连接处理，其计算公式如下：

S′＝W₄S+b₄

式中，S为融合向量，W₄、b₄为共享参数，

R为实数集，d₄为融合向量S的维度；

通过softmax层来计算人物实体e₁和人物实体e₂的人物关系；

p＝softmax(S′)

式中，S′全连接处理后的融合向量；

重复上述步骤直至子语料集中所有句子的所有人物实体的人物关系均被获得。

再计算出人物实体在同一句子之间的共现频数；通过关系的密切程度来体现不同人物的亲疏。

具体为同时出现在在同一个自然段出现不同的两人则两人关系加1，然后遍历全文获得全部的人物共现。

具体算法如下：

输入：按自然段分隔的红楼梦文本

输出：人物共现字典

创建一个关系字典relationship＝{}

第一步：for line in f:循环读取文本

创建一个临时列表peoplelist＝[]

第二步：遍历自然段获取本段中的人物列表peoplelist

第三步：构建共现人物字典

先判断人物是否在列表里，如果人物相同，则跳过，如果没有两个字典的值，则创建并赋值1，否则共现关系加1

根据人物关系和共现频数构建人物图谱，即将人物之间标明对应关系和共现频数；

根据人物图谱进行社区发现，社区发现具体步骤如下

人物节点初始化：将每个人物实体当作一个单独的社区；

人物节点移动：移动人物实体节点到其邻居节点所在社区，计算移动过程中社区模块度增量，若模块度增量最大，则将该人物节点融入这个社区；

对每个人物节点按照人物节点移动执行，直到所属社区不再改变；

社区重构，将变化后的社区，社区内节点边的权重更新为新节点环的权重，社区间的变的权重更新为新节点边的权重；

将重构后的社区看作新的节点，按照人物节点移动重复进行，直至整个社区模块度增量不再变化。

本方法采用了目前主流的无监督社区发现算法Louvain进行《红楼梦》的社区发现。Louvain算法是基于模块度的社区发现算法，该算法可以快速发现层次性的社区结构，其原理是最大化整个社区网络的模块度。

模块度：是目前常用的一种衡量网络社区结构强度的方法，表示社区内紧密程度的值Q

其中，A_ij节点i和节点j之间边的权重，k_i＝∑_jA_ij表示所有节点与i相连的边的权重之和；c_i表示节点i所属的社区；

表示所有边的权重之和。

公式16化简后表示为：

其中∑in表示社区c内的边的权重之和，∑tot表示社区c内边权重和加上社区c与其他社区连边的权重和。

模块度增量：

其中k_i,in表示社区内所有节点与节点i连边权重之和，

k_i表示所有与节点i相连的边的权重之和。

对红楼梦中频数≥50且共现频数>＝100的人物，进行社区发现，结果如下表2所示。

表2

通过对红楼梦的社区发现，可以看出红楼梦分为4个社区团体，团体1：以贾母，凤姐为核心的贾府的主要权势人物构成的团体；团体2：以宝玉为绝对核心的团体；团体3：薛家团体；团体4:黛玉为核心的团体；

本发明不仅仅展示了人物之间关系，通过人物识别、关系抽取、关系密切度和人物社区发现这四个维度来展示人物之间关系、密切度和人物团体，以此为文学研究提供充分的资料。

参考图4，将人物图谱进行可视化，采用节点代表人物实体，其节点大小代表人物实体影响力，各节点之间连接有关系连接线，连接线标明人物之间的关系，若无明显的人物关系，则利用unknow代替，关系连接线的粗细代表人物实体之间密切度的大小。通过对人物图谱的可视化，来清楚、充分展现文学作品的复杂人物关系。

Claims

1.一种基于深度学习的文学人物关系识别方法，其特征在于至少包括如下步骤：

(1)将文学文本进行分割得到一系列句子，即语料集；

(3.1)利用RBERT+BiLSTM模型对子语料集进行人物关系抽取；

(3.2)计算出人物实体在同一句子之间的共现频数；

(4)根据人物关系和共现频数构建人物图谱；

(5)根据人物图谱进行社区发现；

(6)将人物图谱进行可视化。

2.根据权利要求1所述的基于深度学习的文学人物关系识别方法，其特征在于：所述步骤(1)中以文学文本中的句号为分割线对文学文本进行分割。

3.根据权利要求1所述的基于深度学习的文学人物关系识别方法，其特征在于：所述步骤(2)中以自然语言处理工具HANNLP对语料集进行人物实体识别。

4.根据权利要求3所述的基于深度学习的文学人物关系识别方法，其特征在于：所述HANNLP的人名词典包括中国古代人名库。

5.根据权利要求1所述的基于深度学习的文学人物关系识别方法，其特征在于：所述步骤(2)中组成子语料集后，利用文言文回译的方法进行数据增强。

6.根据权利要求1所述的基于深度学习的文学人物关系识别方法，其特征在于：所述步骤(3)中RBERT+BiLSTM模型的模型结构为：位于最底层p₁的RBERT模型分别连接位于第2层p₂的BiLSTM模型和位于第2层p₂的编码层，BiLSTM模型和编码层共同连接位于第3层p₃的全连接激活层，全连接激活层连接位于第4层p₄的特征融合层，特征融合层连接位于第5层p₅的全连接层，全连接层连接位于最顶层p₆的softmax层。

7.根据权利要求6所述的基于深度学习的文学人物关系识别方法，其特征在于：所述步骤(3)中子语料集进入RBERT+BiLSTM模型之前，就在每一句子前添加[CLS]分类分隔符，并在每一句子中的人物实体前后插入相同的特殊字符，同时相同句子中不同人物实体前后插入的特殊字符不同。

8.根据权利要求6所述的基于深度学习的文学人物关系识别方法，其特征在于，所述步骤(3.1)中人物关系抽取具体步骤为：

式中：h为单个字的向量，n为该句子的字数；

H′＝W₃(tanh(H))+b₃

式中，H′为处理后的句子向量，W₃、b₃为共享参数，

S＝H_e1+H_e2+H′

S′＝W₄S+b₄

式中，S为融合向量，W₄、b₄为共享参数，

p＝softmax(S′)

式中，S′全连接处理后的融合向量；

9.根据权利要求1所述的基于深度学习的文学人物关系识别方法，其特征在于：所述步骤(5)中社区发现的具体步骤如下：

10.根据权利要求1所述的基于深度学习的文学人物关系识别方法，其特征在于：所述步骤(6)中人物图谱进行可视化采用节点代表人物实体，其节点大小代表人物实体影响力，各节点之间连接有关系连接线，关系连接线的粗细代表人物实体之间密切度的大小。