CN110390024B

CN110390024B - 家谱数据的处理方法及装置、处理器

Info

Publication number: CN110390024B
Application number: CN201910640336.7A
Authority: CN
Inventors: 吴信东; 李娇; 周鹏
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2022-05-17
Anticipated expiration: 2039-07-16
Also published as: CN110390024A

Abstract

本发明公开了一种家谱数据的处理方法及装置、处理器。其中，该方法包括：读取家谱集合中的家谱数据，其中，家谱集合至少包括：目标家谱和非目标家谱，家谱数据中至少包括：人物信息和属性信息，属性信息至少包括：属性值；确定目标家谱中人物一的信息和非目标家谱中人物二的信息；判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则；若人物一的信息和人物二的信息满足候选实体规则库中的规则，则计算人物一和人物二之间的人物相似度；若人物相似度大于预设相似度，则确定人物一与人物二为同一人；在人物一与所述人物二为同一人时，将人物一与人物二的属性值进行融合处理，得到目标家谱。

Description

家谱数据的处理方法及装置、处理器

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种家谱数据的处理方法及装置、处理器。

背景技术

相关技术中，很多同姓家庭来自于同一家族，在长时间的姓氏信息记载过程中，形成了多种多样的家谱，而当前的家谱数据繁杂、没有统一的数据处理方式，同一个人在不同的家谱中可能表达为不同姓氏、年代的信息，让家谱数据处理者无法理清人物之间的关联关系；而且，当前在数据处理方面，无法针对碎片化的家谱数据进行有效的数据融合(即确定人物是否为同一人，并将人物数据进行融合处理)。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种家谱数据的处理方法及装置、处理器，以至少解决相关技术中无法将家谱数据进行融合处理的技术问题。

根据本发明实施例的一个方面，提供了一种家谱数据的处理方法，包括：读取家谱集合中的家谱数据，其中，所述家谱集合至少包括：目标家谱和非目标家谱，所述家谱数据中至少包括：人物信息和属性信息，所述属性信息至少包括：属性值；确定所述目标家谱中人物一的信息和所述非目标家谱中人物二的信息；判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则；若所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的规则，则计算所述人物一和所述人物二之间的人物相似度；若所述人物相似度大于预设相似度，则确定所述人物一与所述人物二为同一人；在所述人物一与所述人物二为同一人时，将所述人物一与所述人物二的属性值进行融合处理，得到目标家谱。

可选地，在读取家谱集合中的家谱数据的步骤之前，所述处理方法还包括：确定所述候选实体规则库中的第一规则，其中，所述第一规则是确定两个人物的姓和名是否相同；确定所述候选实体规则库中的第二规则，其中，所述第二规则是确定两个人物的姓相同，且名部分相同；确定所述候选实体规则库中的第三规则，其中，所述第三规则是确定两个人物的姓相同，且一个人物的名或号与另一个人物相同；确定所述候选实体规则库中的第四规则，其中，所述第四规则是确定两个人物的姓不相同，且一个人物的名相同；以所述第一规则、所述第二规则、所述第三规则和所述第四规则，构建所述候选实体规则库；在构建所述候选实体规则库之后，所述处理方法还包括：初始化属性库，其中，所述属性库中至少包含姓名信息和性别信息；构建属性拆分规则库以及等价属性库；基于所述属性库、所述属性拆分规则库、所述等价属性库以及所述候选实体规则库，构建目标家谱数据库。

可选地，判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则的步骤，包括：判断所述人物一的信息和所述人物二的信息是否满足所述候选实体规则库中的任一规则，其中，所述规则包括：所述第一规则、所述第二规则、所述第三规则、所述第四规则；若所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的任一规则，则确定所述人物二是所述人物一的候选实体，所述人物一和所述人物二构成候选实体对；若所述人物一的信息和所述人物二的信息不满足所述候选实体规则库中的任一规则，则确定所述人物二不是所述人物一的候选实体。

可选地，计算所述人物一和所述人物二之间的人物相似度的步骤，包括：在所述人物一和所述人物二构成候选实体对时，使用预设距离编辑法计算所述人物一的信息和所述人物二的信息的字符串相似度，其中，所述字符串相似度至少包括：姓名相似度；使用预设词向量模型将所述人物一和所述人物二的属性信息构建为特征向量，并计算两个向量之间的余弦相似度，将所述余弦相似度作为所述人物一和所述人物二之间的属性相似度；基于所述姓名相似度的权重一和所述属性相似度的权重二，计算所述人物一和所述人物二之间的语义相似度；计算所述人物一与所述人物二之间的关系相似度；基于所述语义相似度的权重三和所述关系相似度的权重四，计算所述人物一和所述人物二之间的人物相似度。

可选地，计算所述人物一与所述人物二之间的关系相似度的步骤，包括：通过下述公式计算所述关系相似度：

其中，Rel(e_ij，e_xy)表示关系相似度，R(e_ij)代表人物一的亲属关系，|R(e_ij)∩R(e_xy)|表示所述人物一和所述人物二相同的人物关系数量，|R(e_ij)∪R(e_xy)|表示所述人物一和所述人物二所拥有的人物关系数量总和。

可选地，在所述人物一与所述人物二为同一人时，将所述人物一与所述人物二的属性值进行融合处理，得到目标家谱的步骤，包括：判断所述属性信息中所述人物一与所述人物二的属性值是否存在于属性库中；若所述属性值不存在于所述属性库中，则将所述属性值添加至所述属性库中，以更新所述属性库；基于更新后的属性库，得到凝练家谱人物的所述目标家谱，其中，所述目标家谱中的数据格式为对齐后实体数据格式。

可选地，将所述属性值添加至所述属性库中的步骤，包括：判断所述属性信息是否满足属性拆分规则库中的规则；若满足属性拆分规则库中的规则，对所述属性信息按规则进行拆分；判断所述属性信息中是否含有等价属性词；若所述属性信息中含有等价属性词，将所述等价属性词更改为标准属性名称，其中，所述等价属性词存储于等价属性库中；将不存在于所述属性库中的属性值添加至所述属性库中。

可选地，读取家谱集合中的家谱数据的步骤，包括：遍历读取所述家谱集合中的家谱数据；在确定家谱为所述目标家谱时，读取所述目标家谱中人物信息和属性信息；循环读取所述家谱集合，直至读取完毕。

根据本发明实施例的另一方面，还提供了一种家谱数据的处理装置，包括：读取单元，用于读取家谱集合中的家谱数据，其中，所述家谱集合至少包括：目标家谱和非目标家谱，所述家谱数据中至少包括：人物信息和属性信息，所述属性信息至少包括：属性值；第一确定单元，用于确定所述目标家谱中人物一的信息和所述非目标家谱中人物二的信息；判断单元，用于判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则；计算单元，用于在所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的规则时，计算所述人物一和所述人物二之间的人物相似度；第二确定单元，用于在所述人物相似度大于预设相似度时，确定所述人物一与所述人物二为同一人；融合单元，用于在所述人物一与所述人物二为同一人时，将所述人物一与所述人物二的属性值进行融合处理，得到目标家谱。

可选地，所述处理装置还包括：第三确定单元，用于在读取家谱集合中的家谱数据的步骤之前，确定所述候选实体规则库中的第一规则，其中，所述第一规则是确定两个人物的姓和名是否相同；第四确定单元，用于确定所述候选实体规则库中的第二规则，其中，所述第二规则是确定两个人物的姓相同，且名部分相同；第五确定单元，用于确定所述候选实体规则库中的第三规则，其中，所述第三规则是确定两个人物的姓相同，且一个人物的名或号与另一个人物相同；第六确定单元，用于确定所述候选实体规则库中的第四规则，其中，所述第四规则是确定两个人物的姓不相同，且一个人物的名相同；第一构建单元，用于以所述第一规则、所述第二规则、所述第三规则和所述第四规则，构建所述候选实体规则库；初始化单元，用于在构建所述候选实体规则库之后，初始化属性库，其中，所述属性库中至少包含姓名信息和性别信息；构建属性拆分规则库以及等价属性库；第二构建单元，用于基于所述属性库、所述属性拆分规则库、所述等价属性库以及所述候选实体规则库，构建目标家谱数据库。

可选地，所述判断单元包括：第一判断模块，用于判断所述人物一的信息和所述人物二的信息是否满足所述候选实体规则库中的任一规则，其中，所述规则包括：所述第一规则、所述第二规则、所述第三规则、所述第四规则；第一确定模块，用于在所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的任一规则时，确定所述人物二是所述人物一的候选实体，所述人物一和所述人物二构成候选实体对；第二确定模块，用于在所述人物一的信息和所述人物二的信息不满足所述候选实体规则库中的任一规则时，则确定所述人物二不是所述人物一的候选实体。

可选地，所述计算单元包括：第一计算模块，用于在所述人物一和所述人物二构成候选实体对时，使用预设距离编辑法计算所述人物一的信息和所述人物二的信息的字符串相似度，其中，所述字符串相似度至少包括：姓名相似度；第二计算模块，用于使用预设词向量模型将所述人物一和所述人物二的属性信息构建为特征向量，并计算两个向量之间的余弦相似度，将所述余弦相似度作为所述人物一和所述人物二之间的属性相似度；第三计算模块，用于基于所述姓名相似度的权重一和所述属性相似度的权重二，计算所述人物一和所述人物二之间的语义相似度；第四计算模块，用于计算所述人物一与所述人物二之间的关系相似度；第五计算模块，用于基于所述语义相似度的权重三和所述关系相似度的权重四，计算所述人物一和所述人物二之间的人物相似度。

可选地，所述第四计算模块包括：第一计算子模块，用于通过下述公式计算所述关系相似度：

可选地，所述融合单元包括：第二判断模块，用于在确定所述人物一与所述人物二为同一人之后，判断所述属性信息中所述人物一与所述人物二的属性值是否存在于属性库中；添加模块，用于在所述属性值不存在于所述属性库中时，则将所述属性值添加至所述属性库中，以更新所述属性库；第三确定模块，用于基于更新后的属性库，得到凝练家谱人物的所述目标家谱，其中，所述目标家谱中的数据格式为对齐后实体数据格式。

可选地，所述添加模块包括：第一判断子模块，用于判断所述属性信息是否满足属性拆分规则库中的规则；拆分子模块，用于在满足属性拆分规则库中的规则时，对所述属性信息按规则进行拆分；第二判断子模块，用于判断所述属性信息中是否含有等价属性词；更改模块，用于在所述属性信息中含有等价属性词时，将所述等价属性词更改为标准属性名称，其中，所述等价属性词存储于等价属性库中；添加子模块，用于将不存在与所述属性库中的属性值添加至所述属性库中。

可选地，所述读取单元，包括：遍历模块，用于遍历读取所述家谱集合中的家谱数据；在确定家谱为所述目标家谱时，读取所述目标家谱中人物信息和属性信息；循环模块，用于循环读取所述家谱集合，直至读取完毕。

根据本发明实施例的另一方面，还提供了一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的家谱数据的处理方法。

在本发明实施例中，采用读取家谱集合中的家谱数据，其中，家谱集合至少包括：目标家谱和非目标家谱，家谱数据中至少包括：人物信息和属性信息，属性信息至少包括：属性值，然后确定目标家谱中人物一的信息和非目标家谱中人物二的信息，判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则，若人物一的信息和人物二的信息满足候选实体规则库中的规则，则计算人物一和人物二之间的人物相似度，若人物相似度大于预设相似度，则确定人物一与人物二为同一人；在人物一与人物二为同一人时，将人物一与人物二的属性值进行融合处理，得到目标家谱。在该实施例中，可以实现家谱数据中人物之间的实体对齐，准确高效的从不同家谱数据源中识别出相同人物，然后将相同人物的属性进行融合，凝练出通过整体数据格式描述家谱人物的目标家谱，可以保证融合结果的全面性和准确性，从而解决相关技术中无法将家谱数据进行融合处理的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的家谱数据的处理方法的流程图；

图2是根据本发明实施例的一种可选的家谱数据的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于用户理解本发明，下面对本发明各实施例中涉及的部分术语和名词做出解释：

家谱，又称族谱、宗谱，是一种以表谱形式，记载一个家族的世系繁衍和重要人物的事迹的书。

人类智能，Human Intelligence，简称HI。

人工智能，Artificial Intelligence，简称AI，研究、模拟、延伸和扩展人的智能的理论、方法、技术及应用的方式。

组织智能，Organizational Intelligence，简称OI。

本发明下述各实施例中可实现对家谱数据的处理，可实现家谱数据的融合，其重点包括两部分：1)，实体对齐：找出不同家谱数据源中的相同实体，即找出至少两份家谱数据中指示的相同人物(如下述确定人物一与人物二为同一人)；2)，属性融合，通过对不同数据源中实体属性的融合，凝练出关于实体描述的整体数据格式(如下述将属性值添加至属性库中、将属性信息中的属性名称前添加农历以及将等价属性词更改为标准属性名称)。下面通过各个实施例来说明本发明。

实施例一

根据本发明实施例，提供了一种家谱数据的处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的家谱数据的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，读取家谱集合中的家谱数据，其中，家谱集合至少包括：目标家谱和非目标家谱，家谱数据中至少包括：人物信息和属性信息，属性信息至少包括：属性值；

步骤S104，确定目标家谱中人物一的信息和非目标家谱中人物二的信息；

步骤S106，判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则；

步骤S108，若人物一的信息和人物二的信息满足候选实体规则库中的规则，则计算人物一和人物二之间的人物相似度；

步骤S110，若人物相似度大于预设相似度，则确定人物一与人物二为同一人；

步骤S112，在人物一与人物二为同一人时，将人物一与人物二的属性值进行融合处理，得到目标家谱。

通过上述步骤，可以采用读取家谱集合中的家谱数据，其中，家谱集合至少包括：目标家谱和非目标家谱，家谱数据中至少包括：人物信息和属性信息，属性信息至少包括：属性值，然后确定目标家谱中人物一的信息和非目标家谱中人物二的信息，判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则，若人物一的信息和人物二的信息满足候选实体规则库中的规则，则计算人物一和人物二之间的人物相似度，若人物相似度大于预设相似度，则确定人物一与人物二为同一人；在人物一与人物二为同一人时，将人物一与人物二的属性值进行融合处理，得到目标家谱。在该实施例中，可以实现家谱数据中人物之间的实体对齐，准确高效的从不同家谱数据源中识别出相同人物，然后将相同人物的属性进行融合，凝练出通过整体数据格式描述家谱人物的目标家谱，可以保证融合结果的全面性和准确性，从而解决相关技术中无法将家谱数据进行融合处理的技术问题。

下面对本发明上述各步骤进行详细说明。

假设有N个来自不同数据源的碎片化家谱数据集合E，将第i份家谱记为E_i，i＝1，2，...，N，定义第i份家谱中的第j个实体(即家谱人物，下面将实体用人物代替)为e_ij。每一个家谱的数据中至少包括：人物信息和属性信息，人物信息对应可包括但不限于：实体e_ij，而属性信息可以包括但不限于：该实体e_ij的属性名称(例如，性别、出生日期)和属性值(例如，“男”、“2000年12月1日”)，其中，实体e_ij的属性名称集合可简单记为

定义e_ij的第k个属性名称为

而实体e_ij的属性值集合可记为

定义e_ij的第k个属性值为

本发明实施例可以通过引入人工智能HI和组织智能OI，构建目标家谱数据库。在本发明实施例中，读取家谱集合中的家谱数据的步骤之前，还包括：确定候选实体规则库中的第一规则，其中，第一规则是确定两个人物的姓和名是否相同；确定候选实体规则库中的第二规则，其中，第二规则是确定两个人物的姓相同，且名部分相同；确定候选实体规则库中的第三规则，其中，第三规则是确定两个人物的姓相同，且一个人物的名或号与另一个人物相同；确定候选实体规则库中的第四规则，其中，第四规则是确定两个人物的姓不相同，且一个人物的名相同；以第一规则、第二规则、第三规则和第四规则，构建候选实体规则库；在构建候选实体规则库之后，处理方法还包括：初始化属性库，其中，属性库中至少包含姓名信息和性别信息；构建属性拆分规则库以及等价属性库；基于属性库、属性拆分规则库、等价属性库以及候选实体规则库，构建目标家谱数据库。

即构建候选实体规则库。具体规则如下：

第一规则：两个人物姓和名完全相同，同名人物为相同人物是家谱数据中最常见的情况；

第二规则：两个人物姓相同，名部分相同，家谱中的人物姓名通常由“姓+辈份+名”组成，但有时人物姓名仅为“姓+名”。例如，“吴自忠”的辈份为“自”，则“吴忠”可能也指代“吴自忠”。

第三规则：两个人物姓相同，一人的名与另一人的字或号完全相同，在一些家谱中，会存在以人物的字或号表示人物的情况。例如，唐朝诗人“李白”字“太白”，因此“李太白”也指代“李白”。

第四规则：两个人物姓不同，名完全相同，随着时间的推移，“姓氏改易”现象经常发生，皇室赐姓、家族迁徙、人物过继等情况均会导致姓氏的变化，因此，同一人物在不同时期可能具有不同的姓氏，出现同名不同姓的情况。

通过上述四个规则，可以大致筛选出不同家谱数据源中的家谱同一人物。

在得到候选实体规则库后，可以实现初始化属性库以及构建属性拆分规则库及等价属性库。其中，在本发明实施例中属性库可以简单记为Pro，属性库中包含姓名、性别等基础属性。

对于等价属性库，可包含等价的属性，如下表1示出了部分等价属性库：

表1

标准属性	等价属性
		姓名	姓名、中文名、中文姓名
职务	职务、官职
		出生日期	出生日期、出生年月日、出生年月
过世日期	过世日期、过世年月日、过世年月、逝世日期
		……	……

通过前述处理方式，可以得到候选实体库、属性库Pro、属性拆分规则库及等价属性库。

在构建完成上述各个数据库后，可以利用这些数据库完成数据读取、实体对齐以及属性融合。

步骤S102，读取家谱集合中的家谱数据，其中，家谱集合至少包括：目标家谱和非目标家谱，家谱数据中至少包括：人物信息和属性信息，属性信息至少包括：属性值。

在本发明实施中，读取家谱集合中的家谱数据的步骤，包括：遍历读取家谱集合中的家谱数据；在确定家谱为目标家谱时，读取目标家谱中人物信息和属性信息；循环读取家谱集合，直至读取完毕。

在本发明实施例中，定义家谱集合为E，将读取的目标家谱定义为E_i，而非目标家谱定义为E_x，该非目标家谱E_x可以理解为家谱集合E中除家谱E_i以外的其余家谱，包括与家谱E_i同姓及不同姓的家谱。

在读取得到目标家谱E_i后，可遍历读取家谱E_i中的人物信息，将读取的人物记为e_ij；同时，遍历读取家谱E_x中的人物二信息，将读取的人物记为e_xy。

步骤S104，确定目标家谱中人物一的信息和非目标家谱中人物二的信息。

上述家谱E_i的人物e_ij可以理解为人物一，而非目标家谱E_x中的人物e_xy可理解为人物二。

步骤S106，判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则。

作为本发明一可选的实施例，判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则的步骤，包括：判断人物一的信息和人物二的信息是否满足候选实体规则库中的任一规则，其中，规则包括：第一规则、第二规则、第三规则、第四规则；若人物一的信息和人物二的信息满足候选实体规则库中的任一规则，则确定人物二是人物一的候选实体，人物一和人物二构成候选实体对；若人物一的信息和人物二的信息不满足候选实体规则库中的任一规则，则确定人物二不是人物一的候选实体。

结合上述定义的内容，可以判断e_ij和e_xy是否满足候选实体规则库中的规则，若e_i和e_xy满足规则库中任一规则，则e_xy是e_ij的候选实体，二者构成候选实体对；若e_ij和e_x不满足上述规则，则e_xy不是e_ij的候选实体。

在确定候选实体对后，可以计算两个人物之间的人物相似度，通过人物相似度来判断两个人物是否为同一人。

步骤S108，若人物一的信息和人物二的信息满足候选实体规则库中的规则，则计算人物一和人物二之间的人物相似度。

作为本发明一种可选的实施例，计算人物一和人物二之间的人物相似度的步骤，包括：在人物一和人物二构成候选实体对时，使用预设距离编辑法计算人物一的信息和人物二的信息的字符串相似度，其中，字符串相似度至少包括：姓名相似度；使用预设词向量模型将人物一和人物二的属性信息构建为特征向量，并计算两个向量之间的余弦相似度，将余弦相似度作为人物一和人物二之间的属性相似度；基于姓名相似度的权重一和属性相似度的权重二，计算人物一和人物二之间的语义相似度；计算人物一与人物二之间的关系相似度；基于语义相似度的权重三和关系相似度的权重四，计算人物一和人物二之间的人物相似度。

结合上述定义的内容，可计算e_ij和e_xy之间的姓名相似度N(e_ij，e_xy)。

其中，预设距离编辑法可以为Levenshtein编辑距离的方法；而预设词向量模型可以包括但不限于：Word2Vec等词向量模型，在本发明实施例中对该词向量模型和距离编辑法不做具体限定，以便于使用的方式为准。使用预设词向量模型对应的算法将人物e_ij和e_xy的属性信息构建为特征向量，之后计算两个向量之间的余弦相似度，计算结果即为人物e_ij和e_xy之间的属性相似度E(e_ij，e_xy)。

在得到上述姓名相似度和属性相似度之后，可以计算两个人物之间的语义相似度，结合上述定义内容，人物e_ij和e_xy之间的语义相似度φ(e_ij，e_xy)计算公式如下述公式(1)所示：

φ(e_ij，e_xy)＝αN(e_ij，e_xy)+βE(e_ij，e_xy) (1)

式(1)中，e_ij和e_xy表示家谱中的人物，N(e_ij，e_xy)表示人物e_ij和e_xy的姓名相似度，E(e_ij，e_xy)表示人物e_ij和e_xy的属性相似度，α和β分别为字符串相似度和属性相似度的权重，用来平衡二者在语义相似度测量中的重要程度。

然后可以计算人物e_ij和e_xy之间的关系相似度，可选地，计算人物一与人物二之间的关系相似度的步骤，包括：通过下述公式计算关系相似度：

其中，Rel(e_ij，e_xy)表示关系相似度，R(e_ij)代表人物一的亲属关系，|R(e_ij)∩R(e_xy)}表示人物一和人物二相同的人物关系数量，|R(e_ij)∪R(e_xy)|表示人物一和人物二所拥有的人物关系数量总和。

在得到上述人物一与人物二之间的关系相似度和语义相似度后，可以计算两者之间的人物相似度Sim(e_ij，e_xy)，计算公式如下述公式(2)所示：

Sim(e_ij，e_xy)＝γφ(e_ij，e_xy)+δRel(e_ij，e_xy) (2)

式(2)中，φ(e_ij，e_xy)表示人物e_ij和e_xy之间的语义相似度，Rel(e_ij，e_xy)表示人物e_ij和e_xy之间的关系相似度，γ和δ分别为语义相似度和关系相似度的权重。

通过上述实施步骤，可以计算两个人物之间的人物相似度，然后可以该人物相似度与预设相似度进行比较。

步骤S110，若人物相似度大于预设相似度，则确定人物一与人物二为同一人。

即在确定人物相似度大于预设相似度时，说明两个人物相同，之后可以将这两个人物的属性值进行融合；若确定人物相似度小于预设相似度，则说明两个人物不相同，仅需要在数据库中记录两个人物的属性信息即可。

作为本发明一种可选的实施例，在确定人物一与人物二为同一人之后，可以先读取家谱人物e_ij的属性信息，将读取的属性记为

直至属性读取完毕。可选地，在人物一与人物二为同一人时，将人物一与人物二的属性值进行融合处理，得到目标家谱的步骤，包括：判断属性信息中人物一与人物二的属性值是否存在于属性库中；若属性值不存在于属性库中，则将属性值添加至属性库中，以更新属性库；基于更新后的属性库，得到凝练家谱人物的目标家谱，其中，目标家谱中的数据格式为对齐后实体数据格式。

在本发明实施例中，将属性值添加至属性库中的步骤，包括：判断属性信息是否满足属性拆分规则库中的规则；若满足属性拆分规则库中的规则，对属性信息按规则进行拆分；判断属性信息中是否含有等价属性词；若属性信息中含有等价属性词，将等价属性词更改为标准属性名称，其中，等价属性词存储于等价属性库中；将不存在于属性库中的属性值添加至属性库中。

即可以读取属性拆分规则库，判断属性信息是否满足规则库中的规则，若满足，则按规则对属性进行拆分；然后读取等价属性库，判断等价属性库中是否存在其等价属性；若存在等价属性，则将该属性名称更改为标准属性名称；判断该属性是否存在于属性库Pro中，若不存在，则添加至属性库Pro中。

通过上述实施例，可以实现不同家谱数据源中的实体对齐，并在实现实体对齐后完成相同人物之间的属性融合，不仅能够准确高效地从海量家谱数据中识别出相同人物，识别出名称不同却含义相同的属性，并对其进行合并，并对名称相同但含义不同的属性进行，并对其进行拆分；可以结合人类智能HI、人工智能AI和组织智能OI，实现智能模型的协同工作，从多源、碎片化的数据中凝练出关于实体描述的整体数据格式，不仅可以有效地实现碎片化家谱数据的融合，还有助于打破各孤立家谱数据相互隔离的封闭状态，有利于充分挖掘家谱数据多方面的潜在价值。

下面通过另一个实施例来说明本发明。

实施例二

图2是根据本发明实施例的一种可选的家谱数据的处理装置的示意图，如图2所示，该处理装置可以包括：读取单元21，第一确定单元22，判断单元23，计算单元24，第二确定单元25，融合单元26，其中，

读取单元21，用于读取家谱集合中的家谱数据，其中，家谱集合至少包括：目标家谱和非目标家谱，家谱数据中至少包括：人物信息和属性信息，属性信息至少包括：属性值；

第一确定单元22，用于确定目标家谱中人物一的信息和非目标家谱中人物二的信息；

判断单元23，用于判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则；

计算单元24，用于在人物一的信息和人物二的信息满足候选实体规则库中的规则时，计算人物一和人物二之间的人物相似度；

第二确定单元25，用于在人物相似度大于预设相似度时，确定人物一与人物二为同一人；

融合单元26，用于在人物一与人物二为同一人时，将人物一与人物二的属性值进行融合处理，得到目标家谱。

上述家谱数据的处理装置，可以通过读取单元21读取家谱集合中的家谱数据，其中，家谱集合至少包括：目标家谱和非目标家谱，家谱数据中至少包括：人物信息和属性信息，属性信息至少包括：属性值，然后通过第一确定单元22确定目标家谱中人物一的信息和非目标家谱中人物二的信息，通过判断单元23判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则，通过计算单元24在人物一的信息和人物二的信息满足候选实体规则库中的规则时，计算人物一和人物二之间的人物相似度，通过第二确定单元25在人物相似度大于预设相似度时，确定人物一与人物二为同一人，最后通过融合单元26在人物一与人物二为同一人时，将人物一与人物二的属性值进行融合处理，得到目标家谱。在该实施例中，可以实现家谱数据中人物之间的实体对齐，准确高效的从不同家谱数据源中识别出相同人物，然后将相同人物的属性进行融合，凝练出通过整体数据格式描述家谱人物的目标家谱，可以保证融合结果的全面性和准确性，从而解决相关技术中无法将家谱数据进行融合处理的技术问题。

可选地，家谱数据的处理装置还包括：第三确定单元，用于在读取家谱集合中的家谱数据的步骤之前，确定所述候选实体规则库中的第一规则，其中，所述第一规则是确定两个人物的姓和名是否相同；第四确定单元，用于确定所述候选实体规则库中的第二规则，其中，所述第二规则是确定两个人物的姓相同，且名部分相同；第五确定单元，用于确定所述候选实体规则库中的第三规则，其中，所述第三规则是确定两个人物的姓相同，且一个人物的名或号与另一个人物相同；第六确定单元，用于确定所述候选实体规则库中的第四规则，其中，所述第四规则是确定两个人物的姓不相同，且一个人物的名相同；第一构建单元，用于以所述第一规则、所述第二规则、所述第三规则和所述第四规则，构建所述候选实体规则库；初始化单元，用于在构建所述候选实体规则库之后，初始化属性库，其中，所述属性库中至少包含姓名信息和性别信息；构建属性拆分规则库以及等价属性库；第二构建单元，用于基于所述属性库、所述属性拆分规则库、所述等价属性库以及所述候选实体规则库，构建目标家谱数据库。

在本发明实施例中，判断单元包括：第一判断模块，用于判断人物一的信息和人物二的信息是否满足候选实体规则库中的任一规则，其中，规则包括：第一规则、第二规则、第三规则、第四规则；第一确定模块，用于在人物一的信息和人物二的信息满足候选实体规则库中的任一规则时，确定人物二是人物一的候选实体，人物一和人物二构成候选实体对；第二确定模块，用于在人物一的信息和人物二的信息不满足候选实体规则库中的任一规则时，则确定人物二不是人物一的候选实体。

另一种可选地，计算单元包括：第一计算模块，用于在人物一和人物二构成候选实体对时，使用预设距离编辑法计算人物一的信息和人物二的信息的字符串相似度，其中，字符串相似度至少包括：姓名相似度；第二计算模块，用于使用预设词向量模型将人物一和人物二的属性信息构建为特征向量，并计算两个向量之间的余弦相似度，将余弦相似度作为人物一和人物二之间的属性相似度；第三计算模块，用于基于姓名相似度的权重一和属性相似度的权重二，计算人物一和人物二之间的语义相似度；第四计算模块，用于计算人物一与人物二之间的关系相似度；第五计算模块，用于基于语义相似度的权重三和关系相似度的权重四，计算人物一和人物二之间的人物相似度。

在本发明实施例中，第四计算模块包括：第一计算子模块，用于通过下述公式计算关系相似度：

其中，Rel(e_ij，e_xy)表示关系相似度，R(e_ij)代表人物一的亲属关系，|R(e_ij)∩R(e_xy)|表示人物一和人物二相同的人物关系数量，|R(e_ij)∪R(e_xy)|表示人物一和人物二所拥有的人物关系数量总和。

另一种可选的，可选地，融合单元包括：第二判断模块，用于在确定人物一与人物二为同一人之后，判断属性信息中人物一与人物二的属性值是否存在于属性库中；添加模块，用于在属性值不存在于属性库中时，则将属性值添加至属性库中，以更新属性库；第三确定模块，用于基于更新后的属性库，得到凝练家谱人物的目标家谱，其中，目标家谱中的数据格式为对齐后实体数据格式。

可选地，添加模块包括：第一判断子模块，用于判断属性信息是否满足属性拆分规则库中的规则；拆分子模块，用于在满足属性拆分规则库中的规则时，对属性信息按规则进行拆分；第二判断子模块，用于判断属性信息中是否含有等价属性词；更改模块，用于在属性信息中含有等价属性词时，将等价属性词更改为标准属性名称，其中，等价属性词存储于等价属性库中；添加子模块，用于将不存在与属性库中的属性值添加至属性库中。

可选地，读取单元，包括：遍历模块，用于遍历读取家谱集合中的家谱数据；在确定家谱为目标家谱E1时，读取目标家谱中人物信息和属性信息；循环模块，用于循环读取家谱集合，直至读取完毕。

上述的家谱数据的处理装置还可以包括处理器和存储器，上述读取单元21，第一确定单元22，判断单元23，计算单元24，第二确定单元25，融合单元26等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来确定人物一与人物二为同一人，实现家谱数据的实体对齐。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本发明实施例的另一方面，还提供了一种处理器，其特征在于，处理器用于运行程序，其中，程序运行时执行上述任意一项的家谱数据的处理方法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：读取家谱集合中的家谱数据，其中，家谱集合至少包括：目标家谱和非目标家谱，家谱数据中至少包括：人物信息和属性信息，属性信息至少包括：属性值；确定目标家谱中人物一的信息和非目标家谱中人物二的信息；判断人物一的信息和人物二的信息是否满足候选实体规则库中的规则；若人物一的信息和人物二的信息满足候选实体规则库中的规则，则计算人物一和人物二之间的人物相似度；若人物相似度大于预设相似度，则确定人物一与人物二为同一人；在人物一与人物二为同一人时，将人物一与人物二的属性值进行融合处理，得到目标家谱。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种家谱数据的处理方法，其特征在于，包括：

读取家谱集合中的家谱数据，其中，所述家谱集合至少包括：目标家谱和非目标家谱，所述家谱数据中至少包括：人物信息和属性信息，所述属性信息至少包括：属性值；

确定所述目标家谱中人物一的信息和所述非目标家谱中人物二的信息；

判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则；

若所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的规则，则计算所述人物一和所述人物二之间的人物相似度；

若所述人物相似度大于预设相似度，则确定所述人物一与所述人物二为同一人；

在所述人物一与所述人物二为同一人时，将所述人物一与所述人物二的属性值进行融合处理，得到目标家谱；

计算所述人物一和所述人物二之间的人物相似度的步骤，包括：在所述人物一和所述人物二构成候选实体对时，使用预设距离编辑法计算所述人物一的信息和所述人物二的信息的字符串相似度，其中，所述字符串相似度至少包括：姓名相似度；使用预设词向量模型将所述人物一和所述人物二的属性信息构建为特征向量，并计算两个向量之间的余弦相似度，将所述余弦相似度作为所述人物一和所述人物二之间的属性相似度；基于所述姓名相似度的权重一和所述属性相似度的权重二，计算所述人物一和所述人物二之间的语义相似度；计算所述人物一与所述人物二之间的关系相似度；基于所述语义相似度的权重三和所述关系相似度的权重四，计算所述人物一和所述人物二之间的人物相似度；

在读取家谱集合中的家谱数据的步骤之前，所述处理方法还包括：确定所述候选实体规则库中的第一规则，其中，所述第一规则是确定两个人物的姓和名是否相同；确定所述候选实体规则库中的第二规则，其中，所述第二规则是确定两个人物的姓相同，且名部分相同；确定所述候选实体规则库中的第三规则，其中，所述第三规则是确定两个人物的姓相同，且一个人物的名或号与另一个人物相同；确定所述候选实体规则库中的第四规则，其中，所述第四规则是确定两个人物的姓不相同，且一个人物的名相同；以所述第一规则、所述第二规则、所述第三规则和所述第四规则，构建所述候选实体规则库；在构建所述候选实体规则库之后，所述处理方法还包括：初始化属性库，其中，所述属性库中至少包含姓名信息和性别信息；构建属性拆分规则库以及等价属性库；基于所述属性库、所述属性拆分规则库、所述等价属性库以及所述候选实体规则库，构建目标家谱数据库；

判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则的步骤，包括：判断所述人物一的信息和所述人物二的信息是否满足所述候选实体规则库中的任一规则，其中，所述规则包括：所述第一规则、所述第二规则、所述第三规则、所述第四规则；若所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的任一规则，则确定所述人物二是所述人物一的候选实体，所述人物一和所述人物二构成候选实体对；若所述人物一的信息和所述人物二的信息不满足所述候选实体规则库中的任一规则，则确定所述人物二不是所述人物一的候选实体。

2.根据权利要求1所述的处理方法，其特征在于，计算所述人物一与所述人物二之间的关系相似度的步骤，包括：

通过下述公式计算所述关系相似度：

其中，Rel(e_ij，e_xy)表示关系相似度，R(e_ij)代表人物一的亲属关系，|R(e_ij)∩R(e_xy)|表示所述人物一和所述人物二相同的人物关系数量，|R(e_ij)∪R(exy)表示所述人物一和所述人物二所拥有的人物关系数量总和。

3.根据权利要求1所述的处理方法，其特征在于，在所述人物一与所述人物二为同一人时，将所述人物一与所述人物二的属性值进行融合处理，得到目标家谱的步骤，包括：

判断所述属性信息中所述人物一与所述人物二的属性值是否存在于属性库中；

若所述属性值不存在于所述属性库中，则将所述属性值添加至所述属性库中，以更新所述属性库；

基于更新后的属性库，得到凝练家谱人物的所述目标家谱，其中，所述目标家谱中的数据格式为对齐后实体数据格式。

4.根据权利要求3所述的处理方法，其特征在于，将所述属性值添加至所述属性库中的步骤，包括：

判断所述属性信息是否满足属性拆分规则库中的规则；

若满足属性拆分规则库中的规则，对所述属性信息按规则进行拆分；

判断所述属性信息中是否含有等价属性词；

若所述属性信息中含有等价属性词，将所述等价属性词更改为标准属性名称，其中，所述等价属性词存储于等价属性库中；

将不存在于所述属性库中的属性值添加至所述属性库中。

5.根据权利要求1所述的处理方法，其特征在于，读取家谱集合中的家谱数据的步骤，包括：

遍历读取所述家谱集合中的家谱数据；

在确定家谱为所述目标家谱时，读取所述目标家谱中人物信息和属性信息；

循环读取所述家谱集合，直至读取完毕。

6.一种家谱数据的处理装置，其特征在于，包括：

读取单元，用于读取家谱集合中的家谱数据，其中，所述家谱集合至少包括：目标家谱和非目标家谱，所述家谱数据中至少包括：人物信息和属性信息，所述属性信息至少包括：属性值；

第一确定单元，用于确定所述目标家谱中人物一的信息和所述非目标家谱中人物二的信息；

判断单元，用于判断所述人物一的信息和所述人物二的信息是否满足候选实体规则库中的规则；

计算单元，用于在所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的规则时，计算所述人物一和所述人物二之间的人物相似度；

第二确定单元，用于在所述人物相似度大于预设相似度时，确定所述人物一与所述人物二为同一人；

融合单元，用于在所述人物一与所述人物二为同一人时，将所述人物一与所述人物二的属性值进行融合处理，得到目标家谱；

所述计算单元包括：第一计算模块，用于在所述人物一和所述人物二构成候选实体对时，使用预设距离编辑法计算所述人物一的信息和所述人物二的信息的字符串相似度，其中，所述字符串相似度至少包括：姓名相似度；第二计算模块，用于使用预设词向量模型将所述人物一和所述人物二的属性信息构建为特征向量，并计算两个向量之间的余弦相似度，将所述余弦相似度作为所述人物一和所述人物二之间的属性相似度；第三计算模块，用于基于所述姓名相似度的权重一和所述属性相似度的权重二，计算所述人物一和所述人物二之间的语义相似度；第四计算模块，用于计算所述人物一与所述人物二之间的关系相似度；第五计算模块，用于基于所述语义相似度的权重三和所述关系相似度的权重四，计算所述人物一和所述人物二之间的人物相似度；

所述处理装置还包括：第三确定单元，用于在读取家谱集合中的家谱数据的步骤之前，确定所述候选实体规则库中的第一规则，其中，所述第一规则是确定两个人物的姓和名是否相同；第四确定单元，用于确定所述候选实体规则库中的第二规则，其中，所述第二规则是确定两个人物的姓相同，且名部分相同；第五确定单元，用于确定所述候选实体规则库中的第三规则，其中，所述第三规则是确定两个人物的姓相同，且一个人物的名或号与另一个人物相同；第六确定单元，用于确定所述候选实体规则库中的第四规则，其中，所述第四规则是确定两个人物的姓不相同，且一个人物的名相同；第一构建单元，用于以所述第一规则、所述第二规则、所述第三规则和所述第四规则，构建所述候选实体规则库；初始化单元，用于在构建所述候选实体规则库之后，初始化属性库，其中，所述属性库中至少包含姓名信息和性别信息；构建属性拆分规则库以及等价属性库；第二构建单元，用于基于所述属性库、所述属性拆分规则库、所述等价属性库以及所述候选实体规则库，构建目标家谱数据库；

所述判断单元包括：第一判断模块，用于判断所述人物一的信息和所述人物二的信息是否满足所述候选实体规则库中的任一规则，其中，所述规则包括：所述第一规则、所述第二规则、所述第三规则、所述第四规则；第一确定模块，用于在所述人物一的信息和所述人物二的信息满足所述候选实体规则库中的任一规则时，确定所述人物二是所述人物一的候选实体，所述人物一和所述人物二构成候选实体对；第二确定模块，用于在所述人物一的信息和所述人物二的信息不满足所述候选实体规则库中的任一规则时，则确定所述人物二不是所述人物一的候选实体。

7.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的家谱数据的处理方法。