CN113220871B - 一种基于深度学习的文学人物关系识别方法 - Google Patents

一种基于深度学习的文学人物关系识别方法 Download PDF

Info

Publication number
CN113220871B
CN113220871B CN202110602698.4A CN202110602698A CN113220871B CN 113220871 B CN113220871 B CN 113220871B CN 202110602698 A CN202110602698 A CN 202110602698A CN 113220871 B CN113220871 B CN 113220871B
Authority
CN
China
Prior art keywords
character
sentence
entity
vector
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110602698.4A
Other languages
English (en)
Other versions
CN113220871A (zh
Inventor
刘忠宝
赵文娟
荀恩东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Foreign Language Vocational And Technical University
Original Assignee
Shandong Foreign Language Vocational And Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Foreign Language Vocational And Technical University filed Critical Shandong Foreign Language Vocational And Technical University
Priority to CN202110602698.4A priority Critical patent/CN113220871B/zh
Publication of CN113220871A publication Critical patent/CN113220871A/zh
Application granted granted Critical
Publication of CN113220871B publication Critical patent/CN113220871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于深度学习的文学人物关系识别方法,属于自然语言处理技术领域,该方法首先将文学文本进行分割得到一系列句子,即语料集;其次对语料集进行人物实体识别,再筛选出语料集中包含人物实体的句子,组成子语料集;再次利用RBERT+BiLSTM模型对子语料集进行人物关系抽取;接着计算出人物实体在同一句子之间的共现频数;然后根据人物关系和共现频数构建人物图谱;并且根据人物图谱进行社区发现;最后将人物图谱进行可视化。本发明提出的RBERT+BiLSTM模型不仅可以计算出人物实体的实体向量,还可以计算出对应句子的句子向量,将二者进行结合来计算人物关系,因此本方法在计算人物关系时,充分考虑句子的语义,以此来适用于文学作品。

Description

一种基于深度学习的文学人物关系识别方法
技术领域
本发明涉及一种基于深度学习的文学人物关系识别方法,属于自然语言处理技术领域。
背景技术
目前,为了挖掘文学文本的有效知识,需要分析文学文本中各人物之间的人物关系,而人物关系是一种重要的知识获取手段,是指从自然语言文本中提取出两个人物实体之间所存在的语义关系,如从句子“我跟了太太十来年,这会子撵出去,我还见人不见人呢!”王夫人固然是个宽仁慈厚的人,从来不曾打过丫头们一下,今忽见金钏儿行此无耻之事,此乃平生最恨者,故气忿不过,打了一下,骂了几句”中,能够确定两个人物实体“王夫人”和“金钏儿”,并分析出“王夫人”和“金钏儿”之间的人物关系“主仆”,而目前的人物关系识别方法则利用传统PCNN(piecewise convolutional neural networks,PCNN)模型对传统卷积神经网络(convolutional neural networks,CNN)的池化层进行改进,利用改进过的传统卷积神经网络对人物关系进行挖掘,主要步骤为通过两个实体位置将feature map分为三段进行池化,分别将其分解为(实体前,实体间,实体后)其目的是更好地捕获两个实体间的结构化信息。使用注意力机制,通过建立句子级注意力机制减轻错误标签问题。但是,这一类模型并未充分考虑句子的语义,对于文学作品并不适用,同时文学作品往往人物较多,关系复杂,如《红楼梦》中人物就已达到721人,分布于书中各个章节且关系错综复杂,目前的人物关系识别方法无法充分展现文学作品的复杂人物关系。
发明内容
为解决上述现有技术中存在的技术问题,本发明提供了一种基于深度学习的文学人物关系识别方法,本方法采用RBERT+BiLSTM模型对文学作品的人物关系进行抽取,而RBERT+BiLSTM模型不仅计算出人物实体的实体向量,还计算出对应句子的句子向量,并将实体向量和句子向量进行融化,然后以融化后的向量出计算人物关系,同时以人物识别、关系抽取、关系密切度和人物社区发现这四个维度进行了人物关系研究,来充分展示人物之间的关系、密切度和人物团体。
实现本发明目的的技术方案为,一种基于深度学习的文学人物关系识别方法,至少包括如下步骤:
(1)将文学文本进行分割得到一系列句子,即语料集;
(2)对语料集进行人物实体识别,再筛选出语料集中包含人物实体的句子,组成子语料集;
(3.1)利用RBERT+BiLSTM模型对子语料集进行人物关系抽取;
(3.2)计算出人物实体在同一句子之间的共现频数;
(4)根据人物关系和共现频数构建人物图谱;
(5)根据人物图谱进行社区发现;
(6)将人物图谱进行可视化。
对上述技术方案的进一步改进为:所述步骤(1)中以文学文本中的句号为分割线对文学文本进行分割。
且所述步骤(2)中以自然语言处理工具HANNLP对语料集进行人物实体识别。
且所述HANNLP的人名词典包括中国古代人名库。
且所述步骤(2)中组成子语料集后,利用文言文回译的方法进行数据增强。
且所述步骤(3)中RBERT+BiLSTM模型的模型结构为:位于最底层p1的RBERT模型分别连接位于第2层p2的BiLSTM模型和位于第2层p2的编码层,BiLSTM模型和编码层共同连接位于第3层p3的全连接激活层,全连接激活层连接位于第4层p4的特征融合层,特征融合层连接位于第5层p5的全连接层,全连接层连接位于最顶层p6的softmax层。
且所述步骤(3)中子语料集进入RBERT+BiLSTM模型之前,就在每一句子前添加[CLS]分类分隔符,并在每一句子中的人物实体前后插入相同的特殊字符,同时相同句子中不同人物实体前后插入的特殊字符不同。
且所述步骤(3.1)中人物关系抽取具体步骤为:
(3.1.1)利用RBERT模型将子语料集中某一句子进行向量化处理,得到该句子的隐藏状态out=[h1,h2…hn];
式中:h为单个字的向量,n为该句子的字数;
(3.1.2)再将该句子的隐藏状态输入BiLSTM模型中训练得到该句子的句子向量H;
(3.1.3)编码层对该句子的隐藏状态进行计算,得到该句子中不同人物实体的实体向量He1和He2,其计算公式如下:
式中,Hi,...,Hj为人物实体e1的向量表示,Hk,...,Hm为人物实体e2的向量表示,i为人物实体e1的首字在该句子中的位置序号,j为人物实体e1的尾字在该句子中的位置序号,k为人物实体e2的首字在该句子中的位置序号,m为人物实体e2的尾字在该句子中的位置序号,W1、b1、W2、b2为共享参数,
(3.1.4)全连接激活层将句子向量H进行处理,使句子向量H的维度与实体向量的维度相同,其计算公式如下:
H′=W3(tanh(H))+b3
式中,H′为处理后的句子向量,W3、b3为共享参数,
(3.1.5)特征融合层利用加法连接将实体向量He1和He2与处理后的句子向量H′进行融合得到融合向量S,其计算公式如下:
S=He1+He2+H′
式中,He1为人物实体e1的实体向量,He2为人物实体e2的实体向量,H′为处理后的句子向量;
(3.1.6)全连接层将融合向量S进行全连接处理,其计算公式如下:
S′=W4S+b4
式中,S为融合向量,W4、b4为共享参数,
(3.1.7)通过softmax层来计算人物实体e1和人物实体e2的人物关系;
p=softmax(S′)
式中,S′全连接处理后的融合向量;
(3.1.8)重复上述步骤直至子语料集中所有句子的所有人物实体的人物关系均被获得。
且所述步骤(5)中社区发现的具体步骤如下:
(5.1)人物节点初始化:将每个人物实体当作一个单独的社区;
(5.2)人物节点移动:移动人物实体节点到其邻居节点所在社区,计算移动过程中社区模块度增量,若模块度增量最大,则将该人物节点融入这个社区;
(5.3)对每个人物节点按照步骤(5.2)执行,直到所属社区不再改变;
(5.4)社区重构,将变化后的社区,社区内节点边的权重更新为新节点环的权重,社区间的变的权重更新为新节点边的权重;
(5.5)将重构后的社区看作新的节点,按照步骤(5.2)重复进行,直至整个社区模块度增量不再变化。
且所述步骤(6)中人物图谱进行可视化采用节点代表人物实体,其节点大小代表人物实体影响力,各节点之间连接有关系连接线,关系连接线的粗细代表人物实体之间密切度的大小。
由上述技术方案可知:(1)本发明提出的RBERT+BiLSTM模型不仅可以计算出人物实体的实体向量,还可以计算出对应句子的句子向量,将二者进行结合来计算人物关系,因此本方法在计算人物关系时,充分考虑句子的语义,以此来适用于文学作品;
(2)特征融合层采用加法连接,因为句子向量所具有的有效特征超过实体向量,所以采用加法更加有效的保留更重要的特征,来提高模型计算的准确率;
(3)全连接激活层将句子向量进行处理,使句子向量的维度与实体向量的维度相同,来使实体与句子的隐层向量更好的融合;
(4)以人物识别、关系抽取、关系密切度和人物社区发现这四个维度来展示人物之间关系、密切度和人物团体,以此为文学研究提供充分的资料。
附图说明
图1为本发明提供的一种基于深度学习的文学人物关系识别方法的流程结构示意图;
图2为本发明提供的一种基于深度学习的文学人物关系识别方法中RBERT+BiLSTM模型的结构示意图;
图3为本发明的BiLSTM模型结构示意图;
图4为本发明的可视化后人物图谱;
具体实施方式
下面结合附图和实施例对本发明进行详细具体说明,本发明的内容不局限于以下实施例。
本实施例中选取的文学作品为《红楼梦》,《红楼梦》中人物数量较多,人物分布于书中各个章节且关系错综复杂,方便体现本方法对文学作品中人物关系的处理以及展示。
参考图1,一种基于深度学习的文学人物关系识别方法,至少包括如下步骤:
通过python程序,并以句号为分割线对《红楼梦》进行分割,得到一系列句子,即语料集,在本实施例中还将构建的语料集进行整理,删除序列极短或许过长的句子,将句子进行shuffle。
将整理好的句子,输入预处理python脚本中对语料集进行人物实体识别,由于《红楼梦》中实体众多,且分布不不均匀。为提高实体识别效率,本实施例采用HANNLP的中文人名接口进行人物识别。为了提升实体的准确性,将中国古代人名库加入到HANNLP的人名词典中并且提升其频率,以提升人名识别准确率。其中python数据处理程序脚本中用NER=HanLP.newSegment().enableNameRecognize(True)接口进行人物识别。例如:“我跟了太太十来年,这会子撵出去,我还见人不见人呢!”王夫人固然是个宽仁慈厚的人,从来不曾打过丫头们一下,今忽见金钏儿行此无耻之事,此乃平生最恨者,故气忿不过,打了一下,骂了几句。”识别为[我/rr,跟/p,了/ule,太太/n,十/m,来年/t,,/w,这/rzv,会子/n,撵出去/v,,/w,我/rr,还/d,见/v,人/n,不见/v,人/n,呢/y,!/w,”/w,王夫人/nr,固然/c,是/vshi,个/q,宽/a,仁慈/a,厚/a,的/ude1,人/n,,/w,从来/d,不曾/d,打过/v,丫头/n,们/k,一下/m,,/w,今/tg,忽/d,见/v,金钏/nr,儿/ng,行/ng,此/rzs,无耻/a,之事/r,,/w,此/rzs,乃/v,平生/n,最恨/nz,者/k,,/w,故/c,气忿/nz,不过/c,,/w,打/v,了/ule,一下/m,,/w,骂/v,了/ule,几/d,句/q,/w]其中rr:人称代词;p:介词;ule:了等语气词;n:名词;m:数词;t:时间词;nr:为人物名称;w:标点符号;rzv:谓词性指示代词;v:动词;y:语气词;c:连词;vshi:动词“是”;q:量词;,a:形容词,ude1:的地;k:后缀;tg:时间词性语素;ng:名词性语素;rzs:处所指示代词;r:代词;nz:其他专名;
识别结果为:“王夫人”,“金钏”;再筛选出语料集中包含人物实体的句子,组成子语料集;并将识别出的人物实体放入人物字典。
再通过文言文回译的方法,对子语料集中的句子进行数据增强,且数据增强不影响关系标签的分布情况。
表1
如表1所示,文言文回译是将文言文翻译成白话文,再将白话文译回文言文,
利用RBERT+BiLSTM模型对子语料集进行人物关系抽取;
参考图2,RBERT+BiLSTM模型的模型结构为:位于最底层p1的RBERT模型分别连接位于第2层p2的BiLSTM模型和位于第2层p2的编码层,BiLSTM模型和编码层共同连接位于第3层p3的全连接激活层,全连接激活层连接位于第4层p4的特征融合层,特征融合层连接位于第5层p5的全连接层,全连接层连接位于最顶层p6的softmax层。
人物关系抽取具体步骤为:子语料集进入RBERT+BiLSTM模型之前,就在每一句子前添加[CLS]分类分隔符,并在每一句子中的人物实体前后插入相同的特殊字符,同时相同句子中不同人物实体前后插入的特殊字符不同。在图2中,句子“薛姨妈还有一女,比薛蟠小两岁,乳名宝钗,生得肌骨莹润,举止娴雅”,为了充分体现人物实体信息的特殊性,在句子中加“$”和“#”的特殊字符进行实体的标志,在句子开头添加[CLS]分类分隔符,即[CLS]$薛姨妈$还有一女,比薛蟠小两岁,乳名#宝钗#,生得肌骨莹润,举止娴雅,并将该句子放入RBERT模型中进行向量化处理,得到该句子的隐藏状态out=[h1,h2...hn];其中Hi,...,Hj的表示实体e1,即薛姨妈,Hk,...,Hm,表示实体e2,即宝钗;
再将该句子的隐藏状态输入BiLSTM模型中训练得到该句子的句子向量H;
参考图3,BiLSTM模型即双向LSTM模型,该模型通过引入门结构来决定在训练期间需要保留或遗忘的信息。LSTM由输入门it、输出门ot和遗忘门ft以及记忆单元ct组成。其中,遗忘门用来控制历史信息,输入门用来控制当前信息,输出门用来确定下一个隐藏层状态,记忆单元用来保存历史信息。LSTM的工作流程由以下计算公式
it=sigmoid(Wi *[ht-1,xt]+bi)
ct=ft*ct-1+it*tanh(Wc*[ht-1,xt]+bc)
其中sigmoid和tanh函数为激活函数,xt时刻的输入,ht表示隐藏层单元,Wi、Wf、Wo、Wc和bi、bf、bo、be分别表示对应的权重矩阵和偏置。通过前向和后向向量连接。
H=[h1,h2,h3,h4,h5……hn]
目前的模型不会充分考虑句子的语义,对于文学作品并不适用,而本发明提出的RBERT+BiLSTM模型中利用BiLSTM模型计算出对应句子的句子向量,来充分考虑句子的语义;
编码层对该句子的隐藏状态进行计算,得到该句子中不同人物实体的实体向量He1和He2,其计算公式如下:
式中,Hi,...,Hj为人物实体e1的向量表示,Hk,...,Hm为人物实体e2的向量表示,i为人物实体e1的首字在该句子中的位置序号,j为人物实体e1的尾字在该句子中的位置序号,k为人物实体e2的首字在该句子中的位置序号,m为人物实体e2的尾字在该句子中的位置序号,W1、b1、W2、b2为共享参数,R为实数集,d1为人物实体e1的维度,d2为人物实体e2的维度;
全连接激活层将句子量向H进行处理,使句子向量H的维度与实体向量的维度相同,使两个实体与句子的隐层向量更好的融合,其计算公式如下:
H′=W3(tanh(H))+b3
式中,H′为处理后的句子向量,W3、b3为共享参数,R为实数集,d3为句子量向H的维度;
特征融合层利用加法连接将实体向量He1和He2与处理后的句子向量H′进行融合得到融合向量S,其计算公式如下:
S=He1+He2+H′
式中,He1为人物实体e1的实体向量,He2为人物实体e2的实体向量,H′为处理后的句子向量;
目前RBERT模型采用concat连接方式,因为句子向量所具有的有效特征超过实体向量,而concat会保留大量的无效特征,并且维度更大,更加消耗硬件算力,而本发明中特征融合层采用加法连接,对比于RBERT模型的concat连接方式,减少了无关特征的维度,加速了模型的计算;
全连接层将融合向量S进行全连接处理,其计算公式如下:
S′=W4S+b4
式中,S为融合向量,W4、b4为共享参数,R为实数集,d4为融合向量S的维度;
通过softmax层来计算人物实体e1和人物实体e2的人物关系;
p=softmax(S′)
式中,S′全连接处理后的融合向量;
重复上述步骤直至子语料集中所有句子的所有人物实体的人物关系均被获得。
再计算出人物实体在同一句子之间的共现频数;通过关系的密切程度来体现不同人物的亲疏。
具体为同时出现在在同一个自然段出现不同的两人则两人关系加1,然后遍历全文获得全部的人物共现。
具体算法如下:
输入:按自然段分隔的红楼梦文本
输出:人物共现字典
创建一个关系字典relationship={}
第一步:for line in f:循环读取文本
创建一个临时列表peoplelist=[]
第二步:遍历自然段获取本段中的人物列表peoplelist
第三步:构建共现人物字典
先判断人物是否在列表里,如果人物相同,则跳过,如果没有两个字典的值,则创建并赋值1,否则共现关系加1
根据人物关系和共现频数构建人物图谱,即将人物之间标明对应关系和共现频数;
根据人物图谱进行社区发现,社区发现具体步骤如下
人物节点初始化:将每个人物实体当作一个单独的社区;
人物节点移动:移动人物实体节点到其邻居节点所在社区,计算移动过程中社区模块度增量,若模块度增量最大,则将该人物节点融入这个社区;
对每个人物节点按照人物节点移动执行,直到所属社区不再改变;
社区重构,将变化后的社区,社区内节点边的权重更新为新节点环的权重,社区间的变的权重更新为新节点边的权重;
将重构后的社区看作新的节点,按照人物节点移动重复进行,直至整个社区模块度增量不再变化。
本方法采用了目前主流的无监督社区发现算法Louvain进行《红楼梦》的社区发现。Louvain算法是基于模块度的社区发现算法,该算法可以快速发现层次性的社区结构,其原理是最大化整个社区网络的模块度。
模块度:是目前常用的一种衡量网络社区结构强度的方法,表示社区内紧密程度的值Q
其中,Aij节点i和节点j之间边的权重,ki=∑jAij表示所有节点与i相连的边的权重之和;ci表示节点i所属的社区;表示所有边的权重之和。
公式16化简后表示为:
其中∑in表示社区c内的边的权重之和,∑tot表示社区c内边权重和加上社区c与其他社区连边的权重和。
模块度增量:
其中ki,in表示社区内所有节点与节点i连边权重之和,
ki表示所有与节点i相连的边的权重之和。
对红楼梦中频数≥50且共现频数>=100的人物,进行社区发现,结果如下表2所示。
表2
通过对红楼梦的社区发现,可以看出红楼梦分为4个社区团体,团体1:以贾母,凤姐为核心的贾府的主要权势人物构成的团体;团体2:以宝玉为绝对核心的团体;团体3:薛家团体;团体4:黛玉为核心的团体;
本发明不仅仅展示了人物之间关系,通过人物识别、关系抽取、关系密切度和人物社区发现这四个维度来展示人物之间关系、密切度和人物团体,以此为文学研究提供充分的资料。
参考图4,将人物图谱进行可视化,采用节点代表人物实体,其节点大小代表人物实体影响力,各节点之间连接有关系连接线,连接线标明人物之间的关系,若无明显的人物关系,则利用unknow代替,关系连接线的粗细代表人物实体之间密切度的大小。通过对人物图谱的可视化,来清楚、充分展现文学作品的复杂人物关系。

Claims (8)

1.一种基于深度学习的文学人物关系识别方法,其特征在于至少包括如下步骤:
(1)将文学文本进行分割得到一系列句子,即语料集;
(2)对语料集进行人物实体识别,再筛选出语料集中包含人物实体的句子,组成子语料集;
(3.1)利用RBERT+BiLSTM模型对子语料集进行人物关系抽取,RBERT+BiLSTM模型的模型结构为:位于最底层p1的RBERT模型分别连接位于第2层p2的BiLSTM模型和位于第2层p2的编码层,BiLSTM模型和编码层共同连接位于第3层p3的全连接激活层,全连接激活层连接位于第4层p4的特征融合层,特征融合层连接位于第5层p5的全连接层,全连接层连接位于最顶层p6的softmax层,人物关系抽取具体步骤为:
(3.1.1)利用RBERT模型将子语料集中某一句子进行向量化处理,得到该句子的隐藏状态out=[h1,h2…hn];
式中:h为单个字的向量,n为该句子的字数;
(3.1.2)再将该句子的隐藏状态输入BiLSTM模型中训练得到该句子的句子向量H;
(3.1.3)编码层对该句子的隐藏状态进行计算,得到该句子中不同人物实体的实体向量He1和He2,其计算公式如下:
式中,Hi,…,Hj为人物实体e1的向量表示,Hk,...,Hm为人物实体e2的向量表示,i为人物实体e1的首字在该句子中的位置序号,j为人物实体e1的尾字在该句子中的位置序号,k为人物实体e2的首字在该句子中的位置序号,m为人物实体e2的尾字在该句子中的位置序号,W1、b1、W2、b2为共享参数,d1为人物实体e1的维度,d2为人物实体e2的维度;
(3.1.4)全连接激活层将句子向量H进行处理,使句子向量H的维度与实体向量的维度相同,其计算公式如下:
H′=W3(tanh(H))+b3
式中,H′为处理后的句子向量,W3、b3为共享参数,d3为句子量向H的维度;
(3.1.5)特征融合层利用加法连接将实体向量He1和He2与处理后的句子向量H′进行融合得到融合向量S,其计算公式如下:
S=He1+He2+H′
式中,He1为人物实体e1的实体向量,He2为人物实体e2的实体向量,H′为处理后的句子向量;
(3.1.6)全连接层将融合向量S进行全连接处理,其计算公式如下:
S′=W4S+b4
式中,S为融合向量,W4、b4为共享参数,d4为融合向量S的维度;
(3.1.7)通过softmax层来计算人物实体e1和人物实体e2的人物关系;
p=softmax(S′)
式中,S′全连接处理后的融合向量;
(3.1.8)重复上述步骤直至子语料集中所有句子的所有人物实体的人物关系均被获得;
(3.2)计算出人物实体在同一句子之间的共现频数;
(4)根据人物关系和共现频数构建人物图谱;
(5)根据人物图谱进行社区发现;
(6)将人物图谱进行可视化。
2.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(1)中以文学文本中的句号为分割线对文学文本进行分割。
3.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(2)中以自然语言处理工具HANNLP对语料集进行人物实体识别。
4.根据权利要求3所述的基于深度学习的文学人物关系识别方法,其特征在于:所述HANNLP的人名词典包括中国古代人名库。
5.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(2)中组成子语料集后,利用文言文回译的方法进行数据增强。
6.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(3)中子语料集进入RBERT+BiLSTM模型之前,就在每一句子前添加[CLS]分类分隔符,并在每一句子中的人物实体前后插入相同的特殊字符,同时相同句子中不同人物实体前后插入的特殊字符不同。
7.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(5)中社区发现的具体步骤如下:
(5.1)人物节点初始化:将每个人物实体当作一个单独的社区;
(5.2)人物节点移动:移动人物实体节点到其邻居节点所在社区,计算移动过程中社区模块度增量,若模块度增量最大,则将该人物节点融入这个社区;
(5.3)对每个人物节点按照步骤(5.2)执行,直到所属社区不再改变;
(5.4)社区重构,将变化后的社区,社区内节点边的权重更新为新节点环的权重,社区间的变的权重更新为新节点边的权重;
(5.5)将重构后的社区看作新的节点,按照步骤(5.2)重复进行,直至整个社区模块度增量不再变化。
8.根据权利要求1所述的基于深度学习的文学人物关系识别方法,其特征在于:所述步骤(6)中人物图谱进行可视化采用节点代表人物实体,其节点大小代表人物实体影响力,各节点之间连接有关系连接线,关系连接线的粗细代表人物实体之间密切度的大小。
CN202110602698.4A 2021-05-31 2021-05-31 一种基于深度学习的文学人物关系识别方法 Active CN113220871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110602698.4A CN113220871B (zh) 2021-05-31 2021-05-31 一种基于深度学习的文学人物关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110602698.4A CN113220871B (zh) 2021-05-31 2021-05-31 一种基于深度学习的文学人物关系识别方法

Publications (2)

Publication Number Publication Date
CN113220871A CN113220871A (zh) 2021-08-06
CN113220871B true CN113220871B (zh) 2023-10-20

Family

ID=77081823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110602698.4A Active CN113220871B (zh) 2021-05-31 2021-05-31 一种基于深度学习的文学人物关系识别方法

Country Status (1)

Country Link
CN (1) CN113220871B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110991165A (zh) * 2019-12-12 2020-04-10 智器云南京信息科技有限公司 文本中人物关系提取方法及装置、计算机设备和存储介质
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
CN112015871A (zh) * 2020-10-30 2020-12-01 中南大学 基于事件集远程监督的人物关系自动标注方法
CN112084790A (zh) * 2020-09-24 2020-12-15 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112101009A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112417888A (zh) * 2020-11-26 2021-02-26 江苏网谱数据科技有限公司 一种结合BiLSTM-CRF算法与R-BERT算法解析稀疏语义关系的方法
CN112613305A (zh) * 2020-12-27 2021-04-06 北京工业大学 基于循环神经网络的中文事件抽取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110991165A (zh) * 2019-12-12 2020-04-10 智器云南京信息科技有限公司 文本中人物关系提取方法及装置、计算机设备和存储介质
CN111680511A (zh) * 2020-04-21 2020-09-18 华东师范大学 一种多神经网络协作的军事领域命名实体识别方法
CN112101009A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112084790A (zh) * 2020-09-24 2020-12-15 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112015871A (zh) * 2020-10-30 2020-12-01 中南大学 基于事件集远程监督的人物关系自动标注方法
CN112417888A (zh) * 2020-11-26 2021-02-26 江苏网谱数据科技有限公司 一种结合BiLSTM-CRF算法与R-BERT算法解析稀疏语义关系的方法
CN112613305A (zh) * 2020-12-27 2021-04-06 北京工业大学 基于循环神经网络的中文事件抽取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
《史记》历史事件自动抽取与事理图谱构建研究;刘忠宝 等;《图书情报工作》;116-124 *
Rui Xiong.Chinese Conference Event Named Entity Recognition Based on BERT-BiLSTM-CRF.《ICBDT '20: Proceedings of the 3rd International Conference on Big Data Technologies》.2020,188–191. *
Shengxin Gao 等.Research on Relation Extraction Method of Chinese Electronic Medical Records Based on BERT.《ICCAI '20: Proceedings of the 2020 6th International Conference on Computing and Artificial Intelligence》.2020, 487–490. *
基于双向GRU和PCNN的人物关系抽取;王明波 等;《电子设计工程》;160-165 *
基于短语成分表示的中文关系抽取;刘娜娜 等;《数据采集与处理》(第03期);449-457 *
基于预训练和多层次信息的中文人物关系抽取模型;姚博文 等;《计算机应用》;3637-3644 *

Also Published As

Publication number Publication date
CN113220871A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Biten et al. Good news, everyone! context driven entity-aware captioning for news images
Mathews et al. Semstyle: Learning to generate stylised image captions using unaligned text
CN106446526B (zh) 电子病历实体关系抽取方法及装置
He et al. Cross-modal retrieval via deep and bidirectional representation learning
Lund Modelling parsing constraints with high-dimensional context space
Al-Muzaini et al. Automatic Arabic image captioning using RNN-LSTM-based language model and CNN
CN107480132A (zh) 一种基于图像内容的古诗词生成方法
CN107918782A (zh) 一种生成描述图像内容的自然语言的方法与系统
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
Tang et al. Deep sequential fusion LSTM network for image description
Jin et al. Combining cnns and pattern matching for question interpretation in a virtual patient dialogue system
CN109165040A (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
Errami et al. Sentiment Analysis onMoroccan Dialect based on ML and Social Media Content Detection
CN112966508A (zh) 一种通用自动术语提取方法
CN114254645A (zh) 一种人工智能辅助写作系统
Shanto et al. Cyberbullying detection using deep learning techniques on bangla facebook comments
CN113220871B (zh) 一种基于深度学习的文学人物关系识别方法
CN112562809A (zh) 一种基于电子病历文本进行辅助诊断的方法及系统
Tao et al. Chinese embedding via stroke and glyph information: A dual-channel view
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Potash et al. Simihawk at semeval-2016 task 1: A deep ensemble system for semantic textual similarity
Leemans Vil: a visual inter lingua
CN109215797B (zh) 基于扩展关联规则的中医医案非分类关系抽取方法及系统
Nitsche et al. Comparison of neural document classification models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230907

Address after: No.99, Shanhai Road, Rizhao City, Shandong Province 276826

Applicant after: Shandong Foreign Language Vocational and Technical University

Address before: 100083 No. 15, Haidian District, Beijing, Xueyuan Road

Applicant before: BEIJING LANGUAGE AND CULTURE University

GR01 Patent grant
GR01 Patent grant