CN110852104B - 家谱的识别方法及装置、存储介质、处理器 - Google Patents

家谱的识别方法及装置、存储介质、处理器 Download PDF

Info

Publication number
CN110852104B
CN110852104B CN201911067405.6A CN201911067405A CN110852104B CN 110852104 B CN110852104 B CN 110852104B CN 201911067405 A CN201911067405 A CN 201911067405A CN 110852104 B CN110852104 B CN 110852104B
Authority
CN
China
Prior art keywords
word
component
dependency
triplet
word component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911067405.6A
Other languages
English (en)
Other versions
CN110852104A (zh
Inventor
吴信东
钟凌峰
朱毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201911067405.6A priority Critical patent/CN110852104B/zh
Publication of CN110852104A publication Critical patent/CN110852104A/zh
Application granted granted Critical
Publication of CN110852104B publication Critical patent/CN110852104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种家谱的识别方法及装置、存储介质、处理器。其中,该方法包括:获取待识别家谱对应的文本信息;依据文本信息构建待识别家谱对应的知识图谱,其中,知识图谱为待识别家谱中带有属性的人物实体与人物实体之间的关系构成的有向图,属性为人物实体的个人信息;依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性。本申请解决了现阶段修缮家谱时,无法有效提取古籍文档中家谱人物之间的关系与人物属性的提取的技术问题。

Description

家谱的识别方法及装置、存储介质、处理器
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种家谱的识别方法及装置、存储介质、处理器。
背景技术
中华文化源远流长,家谱是记录了一个家族生息与发展的家族百科全书。修缮家谱不仅是传承家族历史的传统美德,而且还能促进社会学与历史学等相关学科的发展。
解决家谱信息获取,常见技术是建立在线修谱系统,在已有的在线修谱系统中,用户通过已设计好数据库的在线修谱系统录入家族人物的姓名,生平与亲属关系等信息,同时通过该系统与来自不同地区的亲属协作修谱。这类修谱系统相比纸质家谱更为方便,极大地提高了效率。此类修谱系统可以是类似调查问卷格式的信息,但无法对已有的家谱古籍资料文本进行自动录入。如果录入者要将已有的家谱古籍资料手工录入系统,则需要将大量的时间耗费在格式整理的工作与人物关系建立中。
针对人物关系与属性提取的技术主要包括以下三种:
(1)采用基于规则的传统方法,这一方法的核心思想是通过手工编写的模板与匹配规则来抽取非结构化数据中描述人物关系与属性的三元组,这一方法可以抽取一部分格式固定的文本,但手工编写模板的过程耗时费力,抽取精度有限,难以直接运用到家谱人物属性与关系的抽取中。
(2)采用知识工程方法构建专家系统。这一方案可以系统地提高抽取特殊文本内容中人物属性与关系三元组的精度与效率,但需要具有一定的相关背景知识的领域专家与具有丰富知识工程经验的知识工程专家同时参与到技术方案中,因此需要投入大量的经济与时间成本。
(3)采用机器学习技术实现人物属性与关系自动抽取,这是一种新的研究方向。常用的方法包括:本体学习,基于SVM方法,采用神经网络的抽取方法,使用聚类的方法等。使用这类方法解决关系与属性抽取问题无需相关领域背景知识与该领域的专家协助,因此可降低经济成本,但这类方法暂无成熟的使用经验,使用SVM模型需要解决维数灾难问题,神经网络的训练存在模型收敛与泛化问题,聚类方法要合理的考虑特征选取问题而本体学习方法的研究仍处在初始阶段。因此设计此类模型需要相当水平的计算机科学知识基础与技巧,否则识别精度与效率难于提升,故也无法直接应用在家谱人物属性与关系的抽取中。
针对现阶段修缮家谱时,无法有效提取古籍文档中家谱人物之间的关系与人物属性的提取的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种家谱的识别方法及装置、存储介质、处理器,以至少解决现阶段修缮家谱时,无法有效提取古籍文档中家谱人物之间的关系与人物属性的提取的技术问题。
根据本申请实施例的一个方面,提供了一种家谱的识别方法,包括:获取待识别家谱对应的文本信息;依据文本信息构建待识别家谱对应的知识图谱,其中,知识图谱为待识别家谱中带有属性的人物实体与人物实体之间的关系构成的有向图,属性为人物实体的个人信息;依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性。
可选地,依据文本信息构建待识别家谱对应的知识图谱,包括:对文本信息中的语句进行分词及依存句法分析处理,得到多个标注依存关系的词成分,词成分包括:序号、词干、词性、依存关系以及词成分的依存成分;确定每个词成分对应的依存词集,每个词成分对应的依存词集为依存于该词成分的所有词成分的集合;依据多个标注依存关系的词成分和每个词成分对应的依存词集确定人物实体的信息集合。
可选地,依据多个标注依存关系的词成分和每个词成分对应的依存词集生成人物实体的信息集合,包括:从多个标注依存关系的词成分和每个词成分对应的依存词集中提取人物实体的候选信息,候选信息中包括人物实体的重复信息;整合候选信息,生成人物实体的信息集合。
可选地,从多个标注依存关系的词成分和每个词成分对应的依存词集中提取人物实体的候选信息,包括:判断依存词集中任意一个词成分和其依存于的成分词之间的依存关系所属的类型;依据类型确定人物实体的候选信息对应的三元组,三元组由三个词成分组成,其中,三个词成分中的第二词成分为名词或动词,三个词成分中的第一词成分和第三词成分满足第二词成分对应的关系。
可选地,依据类型确定人物实体的候选信息对应的三元组,包括:如果类型为如下至少之一:状中结构、动宾结构及动补结构,将依存词集中任意一个词成分作为三元组的第二词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第三词成分;如果类型为主谓结构,将依存词集中任意一个词成分作为三元组的第一词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第二词成分;如果类型为定中结构,且依存词集中任意一个词成分的词性为人物实体的名称,将依存词集中任意一个词成分作为三元组的第二词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第三词成分;如果类型为定中结构,且依存词集中任意一个词成分的词性为名词,依存词集中任意一个词成分依存于的成分词的词性不是名词,将依存词集中任意一个词成分作为三元组的第二词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第一词成分;如果类型为定中结构,且依存词集中任意一个词成分的词性为名词,依存词集中任意一个词成分依存于的成分词的词性也是名词,将依存词集中任意一个词成分作为三元组的第二词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第三词成分;如果类型为并列关系,且依存词集中任意一个词成分的词性不为动词,依存词集中任意一个词成分的序号小于依存词集中任意一个词成分依存于的词成分的序号,将依存词集中任意一个词成分或者依存词集中任意一个词成分依存于的词成分作为三元组的第一词成分,将依存词集中任意一个词成分依存于的成分词依存于的词成分作为三元组的第二词成分;如果类型为并列关系,且依存词集中任意一个词成分的词性不为动词,依存词集中任意一个词成分的序号大于或等于依存词集中任意一个词成分依存于的词成分的序号,将依存词集中任意一个词成分或者依存词集中任意一个词成分依存于的词成分作为三元组的第三词成分,将依存词集中任意一个词成分依存于的词成分依存于的词成分作为三元组的第二词成分。
可选地,整合候选信息,生成人物实体的信息集合,包括如下至少之一:比对候选信息对应的三元组中任意两个三元组;如果任意两个三元组的第二词成分相同,将任意两个三元组合并为一个三元组,作为人物实体的信息集合对应的三元组;如果任意两个三元组的第一三元组的第三词成分与任意两个三元组的第二三元组的第二词成分相同,将第一三元组的第一词成分与第二三元组的第一词成分合并作为第二三元组的第一词成分,将修改后的第二三元组作为人物实体的信息集合对应的三元组。
可选地,依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性之后,方法还包括:判断人物实体的信息集合对应的三元组的第三词成分的词性所属的类型;如果类型为人物实体的名称或者名词,且人物实体的信息集合对应的三元组的第二词成分为描述人物实体之间关系的名词或动词,将人物实体的信息集合对应的三元组作为人物实体之间的关系对应的三元组;否则,将人物实体的信息集合对应的三元组作为人物实体的属性对应的三元组。
根据本申请实施例的另一方面,还提供了一种家谱的识别装置,包括:获取模块,用于获取待识别家谱对应的文本信息;构建模块,用于依据文本信息构建待识别家谱对应的知识图谱,其中,知识图谱为待识别家谱中带有属性的人物实体与人物实体之间的关系构成的有向图,属性为人物实体的个人信息;确定模块,用于依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性。
根据本申请实施例的再一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序运行时控制存储介质所在的设备执行以上的家谱的识别方法。
根据本申请实施例的再一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行以上的家谱的识别方法。
在本申请实施例中,采用获取待识别家谱对应的文本信息;依据文本信息构建待识别家谱对应的知识图谱,其中,知识图谱为待识别家谱中带有属性的人物实体与人物实体之间的关系构成的有向图,属性为人物实体的个人信息;依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性的方式,通过构建家谱文档语料库,使用中文自然语言处理方法解析家谱语句中的依存句法结构自动分析家谱的人物与其对应关系,整理人物属性及人物之间的对应关系,从而实现了有效地提高了处理包括古籍家谱文档等家谱数据的处理效率,并且降低了修缮家谱的成本的技术效果,进而解决了现阶段修缮家谱时,无法有效提取古籍文档中家谱人物之间的关系与人物属性的提取的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种家谱的识别方法的流程图;
图2是根据本申请实施例的一种家谱知识图谱的示意图;
图3是根据本申请实施例的一种家谱知识获取技术的结构框架图;
图4是根据本申请实施例的一种家谱数据获取与知识图谱建立的流程图;
图5是根据本申请实施例的一种家谱的识别装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种家谱的识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种家谱的识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取待识别家谱对应的文本信息。
步骤S104,依据文本信息构建待识别家谱对应的知识图谱,其中,知识图谱为待识别家谱中带有属性的人物实体与人物实体之间的关系构成的有向图,属性为人物实体的个人信息。
知识图谱是由带有属性的实体与实体之间的关系构成的有向图,图2是根据本申请实施例的一种家谱知识图谱的示意图,如图2所示,图2的左侧包括人物节点与人物间对应关系,右侧是人物属性。
步骤S106,依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性。
图3是根据本申请实施例的一种家谱知识获取技术的结构框架图,包括:人物实体识别,人物关系抽取以及属性抽取。知识获取是构建家谱知识图谱过程中至关重要的核心技术,为了有效提取记载家谱人物的数据,首先应当进行人物实体识别,知晓人物传记中的传主与关联人物姓名,确定家谱信息中所描述的人物实体;而后提取家谱信息中描述人物间亲属关系,夫妻关系的信息,这一过程通过人物关系抽取技术实现;同时分析记载详细的家谱人物系纪中还包括的人物字号,生卒等信息,抽取这些资料则依靠人物属性抽取技术示。
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和自然语言之间的相互作用的领域,中文自然语言处理是自然语言处理的一个重要分支。
中文分词是汉语信息处理必不可少的技术。由于汉语词汇间没有分隔符,因此切分出语句中的词汇,进行词性标注是进行中文语义分析的基础。同时为了理解中文语句的语法成分,确定句子的句法结构或者句子中词汇之间的依存关系是进行中文语言进一步解析的必要过程。这一解释句法结构的技术即为依存句法分析技术,目前常见的处理工具包括:Jieba分词,IKAnalyzer,HanLP等工具。
通过上述步骤,通过构建家谱文档语料库,使用中文自然语言处理方法解析家谱语句中的依存句法结构自动分析家谱的人物与其对应关系,整理人物属性及人物之间的对应关系,从而实现了有效地提高了处理包括古籍家谱文档等家谱数据的处理效率,并且降低了修缮家谱的成本的技术效果。
根据本申请的一个可选的实施例,步骤S104可以通过以下方法实现:对文本信息中的语句进行分词及依存句法分析处理,得到多个标注依存关系的词成分,词成分包括:序号、词干、词性、依存关系以及词成分的依存成分;确定每个词成分对应的依存词集,每个词成分对应的依存词集为依存于该词成分的所有词成分的集合;依据多个标注依存关系的词成分和每个词成分对应的依存词集确定人物实体的信息集合。
依存句法分析旨在提取语句的句法结构,明确语句中各词的语法结构与其相依存的成分。一个标注了依存关系的词成分是一个五元组:W=<O,L,P,D,Md>,其中O表示序号,L表示词干,P表示词性,D,Md分别表示依存关系类型与依存成分(词成分)。其中每个词只依存一个成分,一个句子中只有一个成分(核心成分)不依存其他成分,核心成分左右两侧无依存关系发生。一个由n个标注了依存关系的词成分组成的句子S是一个词表:S={W1,W2,W3,...,Wn}。
对于词成分W,分别记OW,LW,PW,DW,MdW为该词的序号,词干,词性,依存关系与依存成分。若输入经过了依存句法分析的语句S,一个成分词h的依存词集定义为:LDh={h,Wk1,Wk2,...,Wkm},在其中,
Figure BDA0002259817530000061
同时
Figure BDA0002259817530000062
Figure BDA0002259817530000063
则,即除去词h外,LD中所有词均依存于h。在本申请实施例中,提取人物关系属性与自身属性的关键在于提取句子S中除标点符号外所有词成分的依存词集。记提取到的依存词集为:
Figure BDA0002259817530000064
在本申请实施例中,为了获得一个词间接依存的谓语成分,定义函数
Figure BDA0002259817530000071
如下:
Figure BDA0002259817530000072
MdW为W的依存成分
Figure BDA0002259817530000073
W,
Figure BDA0002259817530000074
或PW=v
Figure BDA0002259817530000075
Figure BDA0002259817530000076
复合n次的复合函数,定义函数ψ如下:
Figure BDA0002259817530000077
N为使
Figure BDA0002259817530000078
Figure BDA0002259817530000079
的最小正整数。
在一个依存句法分析树中各成分若非核心成分,则该成分必依存于另一成分,因此以
Figure BDA00022598175300000710
函数进行多次复合以追溯词W的依存成分,直到找到其依存的核心成分或依存的最近谓语词为止。
表1是依存关系类型表,如表1所示,使用的标注词性规范参考北京大学现代汉语语料库基本加工规范(常用词性标注:n表示名词,v表示动词,m表示数量词,ns表示地名词,nh表示人物名词,t代表时间词)。
表1依存关系类型表
Figure BDA00022598175300000711
根据本申请的一个可选的实施例,依据多个标注依存关系的词成分和每个词成分对应的依存词集生成人物实体的信息集合,包括:从多个标注依存关系的词成分和每个词成分对应的依存词集中提取人物实体的候选信息,候选信息中包括人物实体的重复信息;整合候选信息,生成人物实体的信息集合。
在本申请的一些可选的实施例,从多个标注依存关系的词成分和每个词成分对应的依存词集中提取人物实体的候选信息,包括:判断依存词集中任意一个词成分和其依存于的成分词之间的依存关系所属的类型;依据类型确定人物实体的候选信息对应的三元组,三元组由三个词成分组成,其中,三个词成分中的第二词成分为名词或动词,三个词成分中的第一词成分和第三词成分满足第二词成分对应的关系。
根据本申请的一个可选的实施例,依据类型确定人物实体的候选信息对应的三元组,包括:如果类型为如下至少之一:状中结构、动宾结构及动补结构,将依存词集中任意一个词成分作为三元组的第二词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第三词成分;如果类型为主谓结构,将依存词集中任意一个词成分作为三元组的第一词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第二词成分;如果类型为定中结构,且依存词集中任意一个词成分的词性为人物实体的名称,将依存词集中任意一个词成分作为三元组的第二词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第三词成分;如果类型为定中结构,且依存词集中任意一个词成分的词性为名词,依存词集中任意一个词成分依存于的成分词的词性不是名词,将依存词集中任意一个词成分作为三元组的第二词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第一词成分;如果类型为定中结构,且依存词集中任意一个词成分的词性为名词,依存词集中任意一个词成分依存于的成分词的词性也是名词,将依存词集中任意一个词成分作为三元组的第二词成分,将依存词集中任意一个词成分依存于的词成分作为三元组的第三词成分;如果类型为并列关系,且依存词集中任意一个词成分的词性不为动词,依存词集中任意一个词成分的序号小于依存词集中任意一个词成分依存于的词成分的序号,将依存词集中任意一个词成分或者依存词集中任意一个词成分依存于的词成分作为三元组的第一词成分,将依存词集中任意一个词成分依存于的成分词依存于的词成分作为三元组的第二词成分;如果类型为并列关系,且依存词集中任意一个词成分的词性不为动词,依存词集中任意一个词成分的序号大于或等于依存词集中任意一个词成分依存于的词成分的序号,将依存词集中任意一个词成分或者依存词集中任意一个词成分依存于的词成分作为三元组的第三词成分,将依存词集中任意一个词成分依存于的词成分依存于的词成分作为三元组的第二词成分。
一个家谱人物的关系属性是一个三元组R=<E1,r,E2>,其中E1,E2,r∈S。三元组R表示E1,E2为满足关系r的实体。若在一个关系R中r,E1,E2有为空集
Figure BDA0002259817530000081
称R为非完全关系,反之则称为完全关系。
在本申请实施例中,记提取到的候选关系序列表为RC,其中RC可表示为<R1,R2...,Rl>,Ri表示关系,而Rl则为序列表尾端本方案的候选关系的提取按照下述方式进行:
Figure BDA0002259817530000091
Figure BDA0002259817530000092
Figure BDA0002259817530000093
而后针对每个满足wki≠h的成分词
Figure BDA0002259817530000094
进行判断:
(1)若
Figure BDA0002259817530000095
或VOB或CMP,则
添加关系
Figure BDA0002259817530000096
到RC尾端后,其中
Figure BDA0002259817530000097
针对状中、动宾和动补关系,提取信息:<?,动词,宾语>,<?,动词,补语>,<?,修饰词,状语>,例如:<?,生子,张三>,<?,生于,康熙年>,<?,高中,进士>,其中?表示不确定者。
(2)若
Figure BDA0002259817530000098
添加关系
Figure BDA0002259817530000099
到RC尾端后,其中
Figure BDA00022598175300000910
针对主谓关系:提取信息:<主语,谓语,?>例如:<张三,生子,?>
(3)若
Figure BDA00022598175300000911
如果
Figure BDA00022598175300000912
添加关系
Figure BDA00022598175300000913
到RC尾端后;
如果
Figure BDA00022598175300000914
Figure BDA00022598175300000915
添加关系
Figure BDA00022598175300000916
到RC尾端后;
如果
Figure BDA00022598175300000917
Figure BDA00022598175300000918
添加关系
Figure BDA00022598175300000919
到RC尾端后;
其中
Figure BDA00022598175300000920
针对定中关系提取信息:<名词,定语,?>或<?,定语,名词>。例如:定语和被修饰的名词均为一般名词:<?,子,三>,被修饰名词为人名:<?,三子,克长>,定语为一般名词同时被修饰名词为非一般名词:<康熙年,进士,?>。
(4)若
Figure BDA0002259817530000101
Figure BDA0002259817530000102
则令K=ψ(hi)
如果
Figure BDA0002259817530000103
添加关系
Figure BDA0002259817530000104
到RC尾端后
添加关系
Figure BDA0002259817530000105
到RC尾端后
如果
Figure BDA0002259817530000106
添加关系
Figure BDA0002259817530000107
到RC尾端后
添加关系
Figure BDA0002259817530000108
到RC尾端后
其中
Figure BDA0002259817530000109
针对并列关系:提取信息:<?,谓语词,并列成分>或<并列成分,谓语词,?>,例如:<李氏,生子,?>,<吴克远,生子,?>;<?,生子,来云>,<吴克远,生子,来法>。
在本申请的一些可选的实施例中,整合候选信息,生成人物实体的信息集合,包括如下至少之一:比对候选信息对应的三元组中任意两个三元组;如果任意两个三元组的第二词成分相同,将任意两个三元组合并为一个三元组,作为人物实体的信息集合对应的三元组;如果任意两个三元组的第一三元组的第三词成分与任意两个三元组的第二三元组的第二词成分相同,将第一三元组的第一词成分与第二三元组的第一词成分合并作为第二三元组的第一词成分,将修改后的第二三元组作为人物实体的信息集合对应的三元组。
针对提取到的候选关系序列为RC,取Ri,Rj∈RC,其中i<j
记Ri=<ei1,ri,ei2>,Rj=<ej1,rj,ej2>
(1)若ri=rj,则
如果
Figure BDA00022598175300001010
Figure BDA00022598175300001011
则令ei1=ej1
如果
Figure BDA0002259817530000111
Figure BDA0002259817530000112
则令ej1=ei1
如果
Figure BDA0002259817530000113
Figure BDA0002259817530000114
则令ei2=ej2
如果
Figure BDA0002259817530000115
Figure BDA0002259817530000116
则令ej2=ei2
本步骤旨在整理合人物信息,例如:<张三,生子,?>与<?,生子,张四>可合并为<张三,生子,张四>。
(2)若ei2=rj,则
如果
Figure BDA0002259817530000117
Figure BDA0002259817530000118
则令ej1=ei1
如果
Figure BDA0002259817530000119
Figure BDA00022598175300001110
则令ei1=ej1
例如,<张三,育,长子>与<?,长子,张四>可合并为<张三,长子,张四>。
在本申请的一个可选的实施例中,步骤S106执行完成之后,判断人物实体的信息集合对应的三元组的第三词成分的词性所属的类型;如果类型为人物实体的名称或者名词,且人物实体的信息集合对应的三元组的第二词成分为描述人物实体之间关系的名词或动词,将人物实体的信息集合对应的三元组作为人物实体之间的关系对应的三元组;否则,将人物实体的信息集合对应的三元组作为人物实体的属性对应的三元组。
在本申请实施例中,令PeopleRelation为整理得到的人物关系集,PeopleProp为整理得到的人物属性集
令Rk∈RC,k=1,…,|Rk|,若Rk为完全关系,则
记Rk=<ek1,rk,ek2>
Figure BDA00022598175300001111
Figure BDA00022598175300001112
且rk为描述人物实体之间关系的名词或动词
令PeopleRelation=PeopleRelation∪Rk
否则,
令PeopleProp=PeopleProp∪Rk
本步骤旨在整理人物关系信息,其中将属于人物间关系(例如:<张三,儿子,张四>)加入PeopleRelation;将属于人物属性信息(例如:<张三,生于,浙江>)加入PeopleProp。
下面以一个具体的应用实例对上述方法进行说明,输入家谱文本数据:孔洸,宗伦长子,字以思,生于康熙丙子年十二月。配严道若长女康熙戊寅年生,生子二:孟恩、孟思。公卒于乾隆辛酉年。妣卒于乾隆辛酉年。公妣合葬三孙名敦。进行分词与依存句法分析步骤后得到下表2中的结果:
表2依存句法分析结果表
Figure BDA0002259817530000121
Figure BDA0002259817530000131
最终通过本申请提供的上述技术方案提取到如下关系:
PeopleRelation={<宗伦,长子,孔洸>,<严道若,长女,配>,<配,子,孟恩>,<配,子,孟思>};
PeopleProp={<孔洸,字,以思>,<孔洸,生于,康熙>,<孔洸,生于,丙子年>,<孔洸,生于,十二月>,<配,生,康熙>,<配,生,寅年>,<配,生,子>,<配,子,二>,<公,卒于,乾隆>,<公,卒于,辛酉年>,<妣,卒于,乾隆>,<妣,卒于,辛酉年>,<公,合葬,三孙名敦>,<妣,合葬,三孙名敦>}。
上述由描述词组成的三元组即为传记人物实体孔洸的关系与属性抽取结果.
相比传统修订纸质家谱的方案,本申请提供的技术方案可以极大地提高修谱效率,针对已有的修谱系统,本方案可以有效地实现家谱古籍文档的自动录入,通过自动抽取人物间关系与人物生平,卒葬等数据,减轻了家谱信息采集者与修谱工作参与者录入数据的大量负担,同时协助数据分析师高效地构建知识图谱。最后本方法可依据提取的属性与人物关系高效地实现知识图谱的自动生成,不必过多地依靠计算机科学知识基础与技巧进行识别精度的调整优化。
图4是根据本申请实施例的一种家谱数据获取与知识图谱建立的流程图,如图4所示,包括以下步骤:
步骤S402,载入家谱数据相关语料库与模型;
步骤S404,输入家谱语句;
步骤S406,对家谱语句进行分词与依存句法分析处理;
步骤S408,提取家谱语句中各词间依存关系;
步骤S410,识别传记人物实体生成人物候选关系对;
步骤S412,组合人物候选关系对;
步骤S414,判断输入的数据是否还有未处理的,如果判断结为否,执行步骤S416;如果判断结果为是,执行步骤S406;
步骤S416,输出关系三元组。
需要说明的是,图4所示实施例的优选实施方式可以参见图1所示实施例的相关描述,此处不再赘述。
图5是根据本申请实施例的一种家谱的识别装置的结构图,如图5所示,该装置包括:
获取模块50,用于获取待识别家谱对应的文本信息。
构建模块52,用于依据文本信息构建待识别家谱对应的知识图谱,其中,知识图谱为待识别家谱中带有属性的人物实体与人物实体之间的关系构成的有向图,属性为人物实体的个人信息。
确定模块54,用于依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性。
需要说明的是,图5所示实施例的优选实施方式可以参见图1所示实施例的相关描述此处不再赘述。
本申请实施例还提供了一种存储介质,存储介质包括存储的程序,其中,程序运行时控制存储介质所在的设备执行以上的家谱的识别方法。
存储介质用于存储执行以下功能的程序:获取待识别家谱对应的文本信息;依据文本信息构建待识别家谱对应的知识图谱,其中,知识图谱为待识别家谱中带有属性的人物实体与人物实体之间的关系构成的有向图,属性为人物实体的个人信息;依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性。
本申请实施例还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行以上的家谱的识别方法。
处理器用于运行执行以下功能的程序:获取待识别家谱对应的文本信息;依据文本信息构建待识别家谱对应的知识图谱,其中,知识图谱为待识别家谱中带有属性的人物实体与人物实体之间的关系构成的有向图,属性为人物实体的个人信息;依据知识图谱确定待识别家谱中人物实体之间的关系以及人物实体的属性。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (6)

1.一种家谱的识别方法,其特征在于,包括:
获取待识别家谱对应的文本信息;
依据所述文本信息构建所述待识别家谱对应的知识图谱,其中,所述知识图谱为所述待识别家谱中带有属性的人物实体与所述人物实体之间的关系构成的有向图,所述属性为所述人物实体的个人信息;
依据所述知识图谱确定所述待识别家谱中人物实体之间的关系以及所述人物实体的属性;
依据所述文本信息构建所述待识别家谱对应的知识图谱,包括:对所述文本信息中的语句进行分词及依存句法分析处理,得到多个标注依存关系的词成分,所述词成分包括:序号、词干、词性、依存关系以及所述词成分的依存成分;确定每个所述词成分对应的依存词集,每个所述词成分对应的依存词集为依存于该词成分的所有词成分的集合;依据所述多个标注依存关系的词成分和每个所述词成分对应的依存词集确定所述人物实体的信息集合;
依据所述多个标注依存关系的词成分和每个所述词成分对应的依存词集生成所述人物实体的信息集合,包括:从所述多个标注依存关系的词成分和每个所述词成分对应的依存词集中提取所述人物实体的候选信息,所述候选信息中包括所述人物实体的重复信息;整合所述候选信息,生成所述人物实体的信息集合;
从所述多个标注依存关系的词成分和每个所述词成分对应的依存词集中提取所述人物实体的候选信息,包括:判断所述依存词集中任意一个词成分和其依存于的成分词之间的依存关系所属的类型;依据所述类型确定所述人物实体的候选信息对应的三元组,所述三元组由三个词成分组成,其中,所述三个词成分中的第二词成分为名词或动词,所述三个词成分中的第一词成分和第三词成分满足所述第二词成分对应的关系;
依据所述类型确定所述人物实体的候选信息对应的三元组,包括:
如果所述类型为如下至少之一:状中结构、动宾结构及动补结构,将所述依存词集中任意一个词成分作为所述三元组的第二词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第三词成分;
如果所述类型为主谓结构,将所述依存词集中任意一个词成分作为所述三元组的第一词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第二词成分;
如果所述类型为定中结构,且所述依存词集中任意一个词成分的词性为所述人物实体的名称,将所述依存词集中任意一个词成分作为所述三元组的第二词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第三词成分;
如果所述类型为定中结构,且所述依存词集中任意一个词成分的词性为名词,所述依存词集中任意一个词成分依存于的成分词的词性不是名词,将所述依存词集中任意一个词成分作为所述三元组的第二词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第一词成分;
如果所述类型为定中结构,且所述依存词集中任意一个词成分的词性为名词,所述依存词集中任意一个词成分依存于的成分词的词性也是名词,将所述依存词集中任意一个词成分作为所述三元组的第二词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第三词成分;
如果所述类型为并列关系,且所述依存词集中任意一个词成分的词性不为动词,所述依存词集中任意一个词成分的序号小于所述依存词集中任意一个词成分依存于的词成分的序号,将所述依存词集中任意一个词成分或者所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第一词成分,将所述依存词集中任意一个词成分依存于的成分词依存于的词成分作为所述三元组的第二词成分;
如果所述类型为并列关系,且所述依存词集中任意一个词成分的词性不为动词,所述依存词集中任意一个词成分的序号大于或等于所述依存词集中任意一个词成分依存于的词成分的序号,将所述依存词集中任意一个词成分或者所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第三词成分,将所述依存词集中任意一个词成分依存于的词成分依存于的词成分作为所述三元组的第二词成分。
2.根据权利要求1所述的方法,其特征在于,整合所述候选信息,生成所述人物实体的信息集合,包括如下至少之一:
比对所述候选信息对应的三元组中任意两个三元组;
如果所述任意两个三元组的第二词成分相同,将所述任意两个三元组合并为一个三元组,作为所述人物实体的信息集合对应的三元组;
如果所述任意两个三元组的第一三元组的第三词成分与所述任意两个三元组的第二三元组的第二词成分相同,将所述第一三元组的第一词成分与所述第二三元组的第一词成分合并作为所述第二三元组的第一词成分,将修改后的所述第二三元组作为所述人物实体的信息集合对应的三元组。
3.根据权利要求2所述的方法,其特征在于,依据所述知识图谱确定所述待识别家谱中人物实体之间的关系以及所述人物实体的属性之后,所述方法还包括:
判断所述人物实体的信息集合对应的三元组的第三词成分的词性所属的类型;
如果所述类型为所述人物实体的名称或者名词,且所述人物实体的信息集合对应的三元组的第二词成分为描述人物实体之间关系的名词或动词,将所述人物实体的信息集合对应的三元组作为所述人物实体之间的关系对应的三元组;否则,将所述人物实体的信息集合对应的三元组作为所述人物实体的属性对应的三元组。
4.一种家谱的识别装置,其特征在于,包括:
获取模块,用于获取待识别家谱对应的文本信息;
构建模块,用于依据所述文本信息构建所述待识别家谱对应的知识图谱,其中,所述知识图谱为所述待识别家谱中带有属性的人物实体与所述人物实体之间的关系构成的有向图,所述属性为所述人物实体的个人信息;
确定模块,用于依据所述知识图谱确定所述待识别家谱中人物实体之间的关系以及所述人物实体的属性;
所述构建模块,还用于对所述文本信息中的语句进行分词及依存句法分析处理,得到多个标注依存关系的词成分,所述词成分包括:序号、词干、词性、依存关系以及所述词成分的依存成分;确定每个所述词成分对应的依存词集,每个所述词成分对应的依存词集为依存于该词成分的所有词成分的集合;依据所述多个标注依存关系的词成分和每个所述词成分对应的依存词集确定所述人物实体的信息集合;
所述构建模块,还用于从所述多个标注依存关系的词成分和每个所述词成分对应的依存词集中提取所述人物实体的候选信息,所述候选信息中包括所述人物实体的重复信息;整合所述候选信息,生成所述人物实体的信息集合;
所述构建模块,还用于判断所述依存词集中任意一个词成分和其依存于的成分词之间的依存关系所属的类型;依据所述类型确定所述人物实体的候选信息对应的三元组,所述三元组由三个词成分组成,其中,所述三个词成分中的第二词成分为名词或动词,所述三个词成分中的第一词成分和第三词成分满足所述第二词成分对应的关系;
所述构建模块,还用于通过以下方法确定所述人物实体的候选信息对应的三元组:
如果所述类型为如下至少之一:状中结构、动宾结构及动补结构,将所述依存词集中任意一个词成分作为所述三元组的第二词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第三词成分;
如果所述类型为主谓结构,将所述依存词集中任意一个词成分作为所述三元组的第一词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第二词成分;
如果所述类型为定中结构,且所述依存词集中任意一个词成分的词性为所述人物实体的名称,将所述依存词集中任意一个词成分作为所述三元组的第二词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第三词成分;
如果所述类型为定中结构,且所述依存词集中任意一个词成分的词性为名词,所述依存词集中任意一个词成分依存于的成分词的词性不是名词,将所述依存词集中任意一个词成分作为所述三元组的第二词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第一词成分;
如果所述类型为定中结构,且所述依存词集中任意一个词成分的词性为名词,所述依存词集中任意一个词成分依存于的成分词的词性也是名词,将所述依存词集中任意一个词成分作为所述三元组的第二词成分,将所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第三词成分;
如果所述类型为并列关系,且所述依存词集中任意一个词成分的词性不为动词,所述依存词集中任意一个词成分的序号小于所述依存词集中任意一个词成分依存于的词成分的序号,将所述依存词集中任意一个词成分或者所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第一词成分,将所述依存词集中任意一个词成分依存于的成分词依存于的词成分作为所述三元组的第二词成分;如果所述类型为并列关系,且所述依存词集中任意一个词成分的词性不为动词,所述依存词集中任意一个词成分的序号大于或等于所述依存词集中任意一个词成分依存于的词成分的序号,将所述依存词集中任意一个词成分或者所述依存词集中任意一个词成分依存于的词成分作为所述三元组的第三词成分,将所述依存词集中任意一个词成分依存于的词成分依存于的词成分作为所述三元组的第二词成分。
5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时控制存储介质所在的设备执行权利要求1至3中任意一项所述的家谱的识别方法。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的家谱的识别方法。
CN201911067405.6A 2019-11-04 2019-11-04 家谱的识别方法及装置、存储介质、处理器 Active CN110852104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911067405.6A CN110852104B (zh) 2019-11-04 2019-11-04 家谱的识别方法及装置、存储介质、处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911067405.6A CN110852104B (zh) 2019-11-04 2019-11-04 家谱的识别方法及装置、存储介质、处理器

Publications (2)

Publication Number Publication Date
CN110852104A CN110852104A (zh) 2020-02-28
CN110852104B true CN110852104B (zh) 2023-05-09

Family

ID=69598943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911067405.6A Active CN110852104B (zh) 2019-11-04 2019-11-04 家谱的识别方法及装置、存储介质、处理器

Country Status (1)

Country Link
CN (1) CN110852104B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213127A1 (en) * 2016-01-24 2017-07-27 Matthew Charles Duncan Method and System for Discovering Ancestors using Genomic and Genealogic Data
CN106202034B (zh) * 2016-06-29 2019-05-28 齐鲁工业大学 一种基于依存约束和知识的形容词词义消歧方法和装置
CN110347894A (zh) * 2019-05-31 2019-10-18 平安科技(深圳)有限公司 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110852104A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
CN100371927C (zh) 使用机器翻译技术标识释义的方法和系统
Woodsend et al. Generation with quasi-synchronous grammar
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
CN106446148A (zh) 一种基于聚类的文本查重方法
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
KR20110009205A (ko) 컴퓨터와의 자연어 의사소통 시스템 및 방법
Abdelnabi et al. Generating UML class diagram using NLP techniques and heuristic rules
CN109947897B (zh) 司法案件事件树构建方法
CN109101551B (zh) 一种问答知识库的构建方法及装置
Roller et al. Cross-lingual candidate search for biomedical concept normalization
CN111078893A (zh) 一种大规模高效获取识别对话意图用语料的方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
Lo et al. Cool English: A grammatical error correction system based on large learner corpora
CN112668281A (zh) 基于模板的语料自动化扩充方法、装置、设备及介质
CN110852104B (zh) 家谱的识别方法及装置、存储介质、处理器
Tian et al. Adapting word embeddings to traceability recovery
US11593564B2 (en) Systems and methods for extracting patent document templates from a patent corpus
CN104866607B (zh) 一种东巴文释读数据库建立方法
CN109657207B (zh) 条款的格式化处理方法和处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant