CN113220871A - 一种基于深度学习的文学人物关系识别方法 - Google Patents
一种基于深度学习的文学人物关系识别方法 Download PDFInfo
- Publication number
- CN113220871A CN113220871A CN202110602698.4A CN202110602698A CN113220871A CN 113220871 A CN113220871 A CN 113220871A CN 202110602698 A CN202110602698 A CN 202110602698A CN 113220871 A CN113220871 A CN 113220871A
- Authority
- CN
- China
- Prior art keywords
- sentence
- character
- entity
- vector
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 71
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000003058 natural language processing Methods 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims abstract description 3
- 230000004927 fusion Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
一种基于深度学习的文学人物关系识别方法,属于自然语言处理技术领域,该方法首先将文学文本进行分割得到一系列句子,即语料集;其次对语料集进行人物实体识别,再筛选出语料集中包含人物实体的句子,组成子语料集;再次利用RBERT+BiLSTM模型对子语料集进行人物关系抽取;接着计算出人物实体在同一句子之间的共现频数;然后根据人物关系和共现频数构建人物图谱;并且根据人物图谱进行社区发现;最后将人物图谱进行可视化。本发明提出的RBERT+BiLSTM模型不仅可以计算出人物实体的实体向量,还可以计算出对应句子的句子向量,将二者进行结合来计算人物关系,因此本方法在计算人物关系时,充分考虑句子的语义,以此来适用于文学作品。
Description
技术领域
本发明涉及一种基于深度学习的文学人物关系识别方法,属于自然语言处理技术领域。
背景技术
目前,为了挖掘文学文本的有效知识,需要分析文学文本中各人物之间的人物关系,而人物关系是一种重要的知识获取手段,是指从自然语言文本中提取出两个人物实体之间所存在的语义关系,如从句子“我跟了太太十来年,这会子撵出去,我还见人不见人呢!”王夫人固然是个宽仁慈厚的人,从来不曾打过丫头们一下,今忽见金钏儿行此无耻之事,此乃平生最恨者,故气忿不过,打了一下,骂了几句”中,能够确定两个人物实体“王夫人”和“金钏儿”,并分析出“王夫人”和“金钏儿”之间的人物关系“主仆”,而目前的人物关系识别方法则利用传统PCNN(piecewise convolutional neural networks,PCNN)模型对传统卷积神经网络(convolutional neural networks,CNN)的池化层进行改进,利用改进过的传统卷积神经网络对人物关系进行挖掘,主要步骤为通过两个实体位置将feature map分为三段进行池化,分别将其分解为(实体前,实体间,实体后)其目的是更好地捕获两个实体间的结构化信息。使用注意力机制,通过建立句子级注意力机制减轻错误标签问题。但是,这一类模型并未充分考虑句子的语义,对于文学作品并不适用,同时文学作品往往人物较多,关系复杂,如《红楼梦》中人物就已达到721人,分布于书中各个章节且关系错综复杂,目前的人物关系识别方法无法充分展现文学作品的复杂人物关系。
发明内容
为解决上述现有技术中存在的技术问题,本发明提供了一种基于深度学习的文学人物关系识别方法,本方法采用RBERT+BiLSTM模型对文学作品的人物关系进行抽取,而RBERT+BiLSTM模型不仅计算出人物实体的实体向量,还计算出对应句子的句子向量,并将实体向量和句子向量进行融化,然后以融化后的向量出计算人物关系,同时以人物识别、关系抽取、关系密切度和人物社区发现这四个维度进行了人物关系研究,来充分展示人物之间的关系、密切度和人物团体。
实现本发明目的的技术方案为,一种基于深度学习的文学人物关系识别方法,至少包括如下步骤:
(1)将文学文本进行分割得到一系列句子,即语料集;
(2)对语料集进行人物实体识别,再筛选出语料集中包含人物实体的句子,组成子语料集;
(3.1)利用RBERT+BiLSTM模型对子语料集进行人物关系抽取;
(3.2)计算出人物实体在同一句子之间的共现频数;
(4)根据人物关系和共现频数构建人物图谱;
(5)根据人物图谱进行社区发现;
(6)将人物图谱进行可视化。
对上述技术方案的进一步改进为:所述步骤(1)中以文学文本中的句号为分割线对文学文本进行分割。
且所述步骤(2)中以自然语言处理工具HANNLP对语料集进行人物实体识别。
且所述HANNLP的人名词典包括中国古代人名库。
且所述步骤(2)中组成子语料集后,利用文言文回译的方法进行数据增强。
且所述步骤(3)中RBERT+BiLSTM模型的模型结构为:位于最底层p1的RBERT模型分别连接位于第2层p2的BiLSTM模型和位于第2层p2的编码层,BiLSTM模型和编码层共同连接位于第3层p3的全连接激活层,全连接激活层连接位于第4层p4的特征融合层,特征融合层连接位于第5层p5的全连接层,全连接层连接位于最顶层p6的softmax层。
且所述步骤(3)中子语料集进入RBERT+BiLSTM模型之前,就在每一句子前添加[CLS]分类分隔符,并在每一句子中的人物实体前后插入相同的特殊字符,同时相同句子中不同人物实体前后插入的特殊字符不同。
且所述步骤(3.1)中人物关系抽取具体步骤为:
(3.1.1)利用RBERT模型将子语料集中某一句子进行向量化处理,得到该句子的隐藏状态out=[h1,h2…hn];
式中:h为单个字的向量,n为该句子的字数;
(3.1.2)再将该句子的隐藏状态输入BiLSTM模型中训练得到该句子的句子向量H;
(3.1.3)编码层对该句子的隐藏状态进行计算,得到该句子中不同人物实体的实体向量He1和He2,其计算公式如下:
式中,Hi,...,Hj为人物实体e1的向量表示,Hk,...,Hm为人物实体e2的向量表示,i为人物实体e1的首字在该句子中的位置序号,j为人物实体e1的尾字在该句子中的位置序号,k为人物实体e2的首字在该句子中的位置序号,m为人物实体e2的尾字在该句子中的位置序号,W1、b1、W2、b2为共享参数,
(3.1.4)全连接激活层将句子向量H进行处理,使句子向量H的维度与实体向量的维度相同,其计算公式如下:
H′=W3(tanh(H))+b3
(3.1.5)特征融合层利用加法连接将实体向量He1和He2与处理后的句子向量H′进行融合得到融合向量S,其计算公式如下:
S=He1+He2+H′
式中,He1为人物实体e1的实体向量,He2为人物实体e2的实体向量,H′为处理后的句子向量;
(3.1.6)全连接层将融合向量S进行全连接处理,其计算公式如下:
S′=W4S+b4
(3.1.7)通过softmax层来计算人物实体e1和人物实体e2的人物关系;
p=softmax(S′)
式中,S′全连接处理后的融合向量;
(3.1.8)重复上述步骤直至子语料集中所有句子的所有人物实体的人物关系均被获得。
且所述步骤(5)中社区发现的具体步骤如下:
(5.1)人物节点初始化:将每个人物实体当作一个单独的社区;
(5.2)人物节点移动:移动人物实体节点到其邻居节点所在社区,计算移动过程中社区模块度增量,若模块度增量最大,则将该人物节点融入这个社区;
(5.3)对每个人物节点按照步骤(5.2)执行,直到所属社区不再改变;
(5.4)社区重构,将变化后的社区,社区内节点边的权重更新为新节点环的权重,社区间的变的权重更新为新节点边的权重;
(5.5)将重构后的社区看作新的节点,按照步骤(5.2)重复进行,直至整个社区模块度增量不再变化。
且所述步骤(6)中人物图谱进行可视化采用节点代表人物实体,其节点大小代表人物实体影响力,各节点之间连接有关系连接线,关系连接线的粗细代表人物实体之间密切度的大小。
由上述技术方案可知:(1)本发明提出的RBERT+BiLSTM模型不仅可以计算出人物实体的实体向量,还可以计算出对应句子的句子向量,将二者进行结合来计算人物关系,因此本方法在计算人物关系时,充分考虑句子的语义,以此来适用于文学作品;
(2)特征融合层采用加法连接,因为句子向量所具有的有效特征超过实体向量,所以采用加法更加有效的保留更重要的特征,来提高模型计算的准确率;
(3)全连接激活层将句子向量进行处理,使句子向量的维度与实体向量的维度相同,来使实体与句子的隐层向量更好的融合;
(4)以人物识别、关系抽取、关系密切度和人物社区发现这四个维度来展示人物之间关系、密切度和人物团体,以此为文学研究提供充分的资料。
附图说明
图1为本发明提供的一种基于深度学习的文学人物关系识别方法的流程结构示意图;
图2为本发明提供的一种基于深度学习的文学人物关系识别方法中RBERT+BiLSTM模型的结构示意图;
图3为本发明的BiLSTM模型结构示意图;
图4为本发明的可视化后人物图谱;
具体实施方式
下面结合附图和实施例对本发明进行详细具体说明,本发明的内容不局限于以下实施例。
本实施例中选取的文学作品为《红楼梦》,《红楼梦》中人物数量较多,人物分布于书中各个章节且关系错综复杂,方便体现本方法对文学作品中人物关系的处理以及展示。
参考图1,一种基于深度学习的文学人物关系识别方法,至少包括如下步骤:
通过python程序,并以句号为分割线对《红楼梦》进行分割,得到一系列句子,即语料集,在本实施例中还将构建的语料集进行整理,删除序列极短或许过长的句子,将句子进行shuffle。
将整理好的句子,输入预处理python脚本中对语料集进行人物实体识别,由于《红楼梦》中实体众多,且分布不不均匀。为提高实体识别效率,本实施例采用HANNLP的中文人名接口进行人物识别。为了提升实体的准确性,将中国古代人名库加入到HANNLP的人名词典中并且提升其频率,以提升人名识别准确率。其中python数据处理程序脚本中用NER=HanLP.newSegment().enableNameRecognize(True)接口进行人物识别。例如:“我跟了太太十来年,这会子撵出去,我还见人不见人呢!”王夫人固然是个宽仁慈厚的人,从来不曾打过丫头们一下,今忽见金钏儿行此无耻之事,此乃平生最恨者,故气忿不过,打了一下,骂了几句。”识别为[我/rr,跟/p,了/ule,太太/n,十/m,来年/t,,/w,这/rzv,会子/n,撵出去/v,,/w,我/rr,还/d,见/v,人/n,不见/v,人/n,呢/y,!/w,”/w,王夫人/nr,固然/c,是/vshi,个/q,宽/a,仁慈/a,厚/a,的/ude1,人/n,,/w,从来/d,不曾/d,打过/v,丫头/n,们/k,一下/m,,/w,今/tg,忽/d,见/v,金钏/nr,儿/ng,行/ng,此/rzs,无耻/a,之事/r,,/w,此/rzs,乃/v,平生/n,最恨/nz,者/k,,/w,故/c,气忿/nz,不过/c,,/w,打/v,了/ule,一下/m,,/w,骂/v,了/ule,几/d,句/q,/w]其中rr:人称代词;p:介词;ule:了等语气词;n:名词;m:数词;t:时间词;nr:为人物名称;w:标点符号;rzv:谓词性指示代词;v:动词;y:语气词;c:连词;vshi:动词“是”;q:量词;,a:形容词,ude1:的地;k:后缀;tg:时间词性语素;ng:名词性语素;rzs:处所指示代词;r:代词;nz:其他专名;
识别结果为:“王夫人”,“金钏”;再筛选出语料集中包含人物实体的句子,组成子语料集;并将识别出的人物实体放入人物字典。
再通过文言文回译的方法,对子语料集中的句子进行数据增强,且数据增强不影响关系标签的分布情况。
表1
如表1所示,文言文回译是将文言文翻译成白话文,再将白话文译回文言文,
利用RBERT+BiLSTM模型对子语料集进行人物关系抽取;
参考图2,RBERT+BiLSTM模型的模型结构为:位于最底层p1的RBERT模型分别连接位于第2层p2的BiLSTM模型和位于第2层p2的编码层,BiLSTM模型和编码层共同连接位于第3层p3的全连接激活层,全连接激活层连接位于第4层p4的特征融合层,特征融合层连接位于第5层p5的全连接层,全连接层连接位于最顶层p6的softmax层。
人物关系抽取具体步骤为:子语料集进入RBERT+BiLSTM模型之前,就在每一句子前添加[CLS]分类分隔符,并在每一句子中的人物实体前后插入相同的特殊字符,同时相同句子中不同人物实体前后插入的特殊字符不同。在图2中,句子“薛姨妈还有一女,比薛蟠小两岁,乳名宝钗,生得肌骨莹润,举止娴雅”,为了充分体现人物实体信息的特殊性,在句子中加“$”和“#”的特殊字符进行实体的标志,在句子开头添加[CLS]分类分隔符,即[CLS]$薛姨妈$还有一女,比薛蟠小两岁,乳名#宝钗#,生得肌骨莹润,举止娴雅,并将该句子放入RBERT模型中进行向量化处理,得到该句子的隐藏状态out=[h1,h2...hn];其中Hi,...,Hj的表示实体e1,即薛姨妈,Hk,...,Hm,表示实体e2,即宝钗;
再将该句子的隐藏状态输入BiLSTM模型中训练得到该句子的句子向量H;
参考图3,BiLSTM模型即双向LSTM模型,该模型通过引入门结构来决定在训练期间需要保留或遗忘的信息。LSTM由输入门it、输出门ot和遗忘门ft以及记忆单元ct组成。其中,遗忘门用来控制历史信息,输入门用来控制当前信息,输出门用来确定下一个隐藏层状态,记忆单元用来保存历史信息。LSTM的工作流程由以下计算公式
it=sigmoid(Wi *[ht-1,xt]+bi)
ct=ft*ct-1+it*tanh(Wc*[ht-1,xt]+bc)
其中sigmoid和tanh函数为激活函数,xt时刻的输入,ht表示隐藏层单元,Wi、Wf、Wo、Wc和bi、bf、bo、be分别表示对应的权重矩阵和偏置。通过前向和后向向量连接。
H=[h1,h2,h3,h4,h5……hn]
目前的模型不会充分考虑句子的语义,对于文学作品并不适用,而本发明提出的RBERT+BiLSTM模型中利用BiLSTM模型计算出对应句子的句子向量,来充分考虑句子的语义;
编码层对该句子的隐藏状态进行计算,得到该句子中不同人物实体的实体向量He1和He2,其计算公式如下:
式中,Hi,...,Hj为人物实体e1的向量表示,Hk,...,Hm为人物实体e2的向量表示,i为人物实体e1的首字在该句子中的位置序号,j为人物实体e1的尾字在该句子中的位置序号,k为人物实体e2的首字在该句子中的位置序号,m为人物实体e2的尾字在该句子中的位置序号,W1、b1、W2、b2为共享参数,R为实数集,d1为人物实体e1的维度,d2为人物实体e2的维度;
全连接激活层将句子量向H进行处理,使句子向量H的维度与实体向量的维度相同,使两个实体与句子的隐层向量更好的融合,其计算公式如下:
H′=W3(tanh(H))+b3
特征融合层利用加法连接将实体向量He1和He2与处理后的句子向量H′进行融合得到融合向量S,其计算公式如下:
S=He1+He2+H′
式中,He1为人物实体e1的实体向量,He2为人物实体e2的实体向量,H′为处理后的句子向量;
目前RBERT模型采用concat连接方式,因为句子向量所具有的有效特征超过实体向量,而concat会保留大量的无效特征,并且维度更大,更加消耗硬件算力,而本发明中特征融合层采用加法连接,对比于RBERT模型的concat连接方式,减少了无关特征的维度,加速了模型的计算;
全连接层将融合向量S进行全连接处理,其计算公式如下:
S′=W4S+b4
通过softmax层来计算人物实体e1和人物实体e2的人物关系;
p=softmax(S′)
式中,S′全连接处理后的融合向量;
重复上述步骤直至子语料集中所有句子的所有人物实体的人物关系均被获得。
再计算出人物实体在同一句子之间的共现频数;通过关系的密切程度来体现不同人物的亲疏。
具体为同时出现在在同一个自然段出现不同的两人则两人关系加1,然后遍历全文获得全部的人物共现。
具体算法如下:
输入:按自然段分隔的红楼梦文本
输出:人物共现字典
创建一个关系字典relationship={}
第一步:for line in f:循环读取文本
创建一个临时列表peoplelist=[]
第二步:遍历自然段获取本段中的人物列表peoplelist
第三步:构建共现人物字典
先判断人物是否在列表里,如果人物相同,则跳过,如果没有两个字典的值,则创建并赋值1,否则共现关系加1
根据人物关系和共现频数构建人物图谱,即将人物之间标明对应关系和共现频数;
根据人物图谱进行社区发现,社区发现具体步骤如下
人物节点初始化:将每个人物实体当作一个单独的社区;
人物节点移动:移动人物实体节点到其邻居节点所在社区,计算移动过程中社区模块度增量,若模块度增量最大,则将该人物节点融入这个社区;
对每个人物节点按照人物节点移动执行,直到所属社区不再改变;
社区重构,将变化后的社区,社区内节点边的权重更新为新节点环的权重,社区间的变的权重更新为新节点边的权重;
将重构后的社区看作新的节点,按照人物节点移动重复进行,直至整个社区模块度增量不再变化。
本方法采用了目前主流的无监督社区发现算法Louvain进行《红楼梦》的社区发现。Louvain算法是基于模块度的社区发现算法,该算法可以快速发现层次性的社区结构,其原理是最大化整个社区网络的模块度。
模块度:是目前常用的一种衡量网络社区结构强度的方法,表示社区内紧密程度的值Q
公式16化简后表示为:
其中∑in表示社区c内的边的权重之和,∑tot表示社区c内边权重和加上社区c与其他社区连边的权重和。
模块度增量:
其中ki,in表示社区内所有节点与节点i连边权重之和,
ki表示所有与节点i相连的边的权重之和。
对红楼梦中频数≥50且共现频数>=100的人物,进行社区发现,结果如下表2所示。
表2
通过对红楼梦的社区发现,可以看出红楼梦分为4个社区团体,团体1:以贾母,凤姐为核心的贾府的主要权势人物构成的团体;团体2:以宝玉为绝对核心的团体;团体3:薛家团体;团体4:黛玉为核心的团体;
本发明不仅仅展示了人物之间关系,通过人物识别、关系抽取、关系密切度和人物社区发现这四个维度来展示人物之间关系、密切度和人物团体,以此为文学研究提供充分的资料。
参考图4,将人物图谱进行可视化,采用节点代表人物实体,其节点大小代表人物实体影响力,各节点之间连接有关系连接线,连接线标明人物之间的关系,若无明显的人物关系,则利用unknow代替,关系连接线的粗细代表人物实体之间密切度的大小。通过对人物图谱的可视化,来清楚、充分展现文学作品的复杂人物关系。
Claims (10)
1.一种基于深度学习的文学人物关系识别方法,其特征在于至少包括如下步骤:
(1)将文学文本进行分割得到一系列句子,即语料集;
(2)对语料集进行人物实体识别,再筛选出语料集中包含人物实体的句子,组成子语料集;
(3.1)利用RBERT+BiLSTM模型对子语料集进行人物关系抽取;
(3.2)计算出人物实体在同一句子之间的共现频数;
(4)根据人物关系和共现频数构建人物图谱;
(5)根据人物图谱进行社区发现;
(6)将人物图谱进行可视化。
2.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(1)中以文学文本中的句号为分割线对文学文本进行分割。
3.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(2)中以自然语言处理工具HANNLP对语料集进行人物实体识别。
4.根据权利要求3所述的基于深度学习的文学人物关系识别方法,其特征在于:所述HANNLP的人名词典包括中国古代人名库。
5.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(2)中组成子语料集后,利用文言文回译的方法进行数据增强。
6.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(3)中RBERT+BiLSTM模型的模型结构为:位于最底层p1的RBERT模型分别连接位于第2层p2的BiLSTM模型和位于第2层p2的编码层,BiLSTM模型和编码层共同连接位于第3层p3的全连接激活层,全连接激活层连接位于第4层p4的特征融合层,特征融合层连接位于第5层p5的全连接层,全连接层连接位于最顶层p6的softmax层。
7.根据权利要求6所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(3)中子语料集进入RBERT+BiLSTM模型之前,就在每一句子前添加[CLS]分类分隔符,并在每一句子中的人物实体前后插入相同的特殊字符,同时相同句子中不同人物实体前后插入的特殊字符不同。
8.根据权利要求6所述的基于深度学习的文学人物关系识别方法,其特征在于,所述步骤(3.1)中人物关系抽取具体步骤为:
(3.1.1)利用RBERT模型将子语料集中某一句子进行向量化处理,得到该句子的隐藏状态out=[h1,h2…hn];
式中:h为单个字的向量,n为该句子的字数;
(3.1.2)再将该句子的隐藏状态输入BiLSTM模型中训练得到该句子的句子向量H;
(3.1.3)编码层对该句子的隐藏状态进行计算,得到该句子中不同人物实体的实体向量He1和He2,其计算公式如下:
式中,Hi,...,Hj为人物实体e1的向量表示,Hk,...,Hm为人物实体e2的向量表示,i为人物实体e1的首字在该句子中的位置序号,j为人物实体e1的尾字在该句子中的位置序号,k为人物实体e2的首字在该句子中的位置序号,m为人物实体e2的尾字在该句子中的位置序号,W1、b1、W2、b2为共享参数,
(3.1.4)全连接激活层将句子向量H进行处理,使句子向量H的维度与实体向量的维度相同,其计算公式如下:
H′=W3(tanh(H))+b3
(3.1.5)特征融合层利用加法连接将实体向量He1和He2与处理后的句子向量H′进行融合得到融合向量S,其计算公式如下:
S=He1+He2+H′
式中,He1为人物实体e1的实体向量,He2为人物实体e2的实体向量,H′为处理后的句子向量;
(3.1.6)全连接层将融合向量S进行全连接处理,其计算公式如下:
S′=W4S+b4
(3.1.7)通过softmax层来计算人物实体e1和人物实体e2的人物关系;
p=softmax(S′)
式中,S′全连接处理后的融合向量;
(3.1.8)重复上述步骤直至子语料集中所有句子的所有人物实体的人物关系均被获得。
9.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(5)中社区发现的具体步骤如下:
(5.1)人物节点初始化:将每个人物实体当作一个单独的社区;
(5.2)人物节点移动:移动人物实体节点到其邻居节点所在社区,计算移动过程中社区模块度增量,若模块度增量最大,则将该人物节点融入这个社区;
(5.3)对每个人物节点按照步骤(5.2)执行,直到所属社区不再改变;
(5.4)社区重构,将变化后的社区,社区内节点边的权重更新为新节点环的权重,社区间的变的权重更新为新节点边的权重;
(5.5)将重构后的社区看作新的节点,按照步骤(5.2)重复进行,直至整个社区模块度增量不再变化。
10.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(6)中人物图谱进行可视化采用节点代表人物实体,其节点大小代表人物实体影响力,各节点之间连接有关系连接线,关系连接线的粗细代表人物实体之间密切度的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602698.4A CN113220871B (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度学习的文学人物关系识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110602698.4A CN113220871B (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度学习的文学人物关系识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220871A true CN113220871A (zh) | 2021-08-06 |
CN113220871B CN113220871B (zh) | 2023-10-20 |
Family
ID=77081823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110602698.4A Active CN113220871B (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度学习的文学人物关系识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220871B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
CN111680511A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种多神经网络协作的军事领域命名实体识别方法 |
CN112015871A (zh) * | 2020-10-30 | 2020-12-01 | 中南大学 | 基于事件集远程监督的人物关系自动标注方法 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
CN112101009A (zh) * | 2020-09-23 | 2020-12-18 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
CN112417888A (zh) * | 2020-11-26 | 2021-02-26 | 江苏网谱数据科技有限公司 | 一种结合BiLSTM-CRF算法与R-BERT算法解析稀疏语义关系的方法 |
CN112613305A (zh) * | 2020-12-27 | 2021-04-06 | 北京工业大学 | 基于循环神经网络的中文事件抽取方法 |
-
2021
- 2021-05-31 CN CN202110602698.4A patent/CN113220871B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
CN111680511A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种多神经网络协作的军事领域命名实体识别方法 |
CN112101009A (zh) * | 2020-09-23 | 2020-12-18 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
CN112015871A (zh) * | 2020-10-30 | 2020-12-01 | 中南大学 | 基于事件集远程监督的人物关系自动标注方法 |
CN112417888A (zh) * | 2020-11-26 | 2021-02-26 | 江苏网谱数据科技有限公司 | 一种结合BiLSTM-CRF算法与R-BERT算法解析稀疏语义关系的方法 |
CN112613305A (zh) * | 2020-12-27 | 2021-04-06 | 北京工业大学 | 基于循环神经网络的中文事件抽取方法 |
Non-Patent Citations (6)
Title |
---|
RUI XIONG: "Chinese Conference Event Named Entity Recognition Based on BERT-BiLSTM-CRF", 《ICBDT \'20: PROCEEDINGS OF THE 3RD INTERNATIONAL CONFERENCE ON BIG DATA TECHNOLOGIES》, pages 188 * |
SHENGXIN GAO 等: "Research on Relation Extraction Method of Chinese Electronic Medical Records Based on BERT", 《ICCAI \'20: PROCEEDINGS OF THE 2020 6TH INTERNATIONAL CONFERENCE ON COMPUTING AND ARTIFICIAL INTELLIGENCE》, pages 487 * |
刘娜娜 等: "基于短语成分表示的中文关系抽取", 《数据采集与处理》, no. 03, pages 449 - 457 * |
刘忠宝 等: "《史记》历史事件自动抽取与事理图谱构建研究", 《图书情报工作》, pages 116 - 124 * |
姚博文 等: "基于预训练和多层次信息的中文人物关系抽取模型", 《计算机应用》, pages 3637 - 3644 * |
王明波 等: "基于双向GRU和PCNN的人物关系抽取", 《电子设计工程》, pages 160 - 165 * |
Also Published As
Publication number | Publication date |
---|---|
CN113220871B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
Makav et al. | A new image captioning approach for visually impaired people | |
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
CN107918782A (zh) | 一种生成描述图像内容的自然语言的方法与系统 | |
CN110069778A (zh) | 中文融入嵌入词位置感知的商品情感分析方法 | |
CN110059185A (zh) | 一种医学文档专业词汇自动化标注方法 | |
CN109766544A (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN110765769B (zh) | 一种基于子句特征的实体属性依赖情感分析方法 | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN110263319A (zh) | 一种基于网页文本的学者观点抽取方法 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN112347766A (zh) | 一种处理微博文本认知歪曲的多标签分类方法 | |
CN112966508A (zh) | 一种通用自动术语提取方法 | |
Errami et al. | Sentiment Analysis onMoroccan Dialect based on ML and Social Media Content Detection | |
Hasnat et al. | Understanding sarcasm from reddit texts using supervised algorithms | |
Pham et al. | Double Trouble: How to not explain a text classifier's decisions using counterfactuals synthesized by masked language models? | |
CN113220871A (zh) | 一种基于深度学习的文学人物关系识别方法 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
Guan | TSIA team at FakeDeS 2021: Fake News Detection in Spanish Using Multi-Model Ensemble Learning. | |
CN115146031A (zh) | 一种基于深度学习和辅助特征的短文本立场检测方法 | |
CN113282746B (zh) | 一种网络媒体平台变体评论对抗文本生成方法 | |
CN107832304A (zh) | 一种基于消息文本判断用户性别的方法和系统 | |
CN114020917A (zh) | 基于自注意力机制与卷积神经网络的新闻文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230907 Address after: No.99, Shanhai Road, Rizhao City, Shandong Province 276826 Applicant after: Shandong Foreign Language Vocational and Technical University Address before: 100083 No. 15, Haidian District, Beijing, Xueyuan Road Applicant before: BEIJING LANGUAGE AND CULTURE University |
|
GR01 | Patent grant | ||
GR01 | Patent grant |