CN111858784A

CN111858784A - 一种基于transH的人员亲属关系预测方法

Info

Publication number: CN111858784A
Application number: CN202010705719.0A
Authority: CN
Inventors: 曾伟英; 霍凯亮; 陈昌明
Original assignee: Guangdong Kejie Communication Information Technology Co ltd
Current assignee: Guangdong Kejie Communication Information Technology Co ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-30

Abstract

一种基于transH的人员亲属关系预测方法，包括如下步骤：步骤A：采集原始数据，从原始数据中个提取户籍关系、婚姻关系和亲子关系；步骤B：以户籍关系、婚姻关系和亲子关系为基础对原始数据进行补充缺失的亲属关系；步骤C：建立transH模型，将每个亲属关系以关系三元组(h，r，t)的形式进行训练，将h和t在特定的关系r中映射到超平面w_r中，得到所有的关系三元组(h，r，t)和超平面w_r的关系向量d_r，根据关系向量d_r进行亲属关系预测，获取关系三元组(h，r，t)的数据；步骤D：将获取的关系三元组(h，r，t)的数据，导入NE04J形成亲属关系图谱。

Description

一种基于transH的人员亲属关系预测方法

技术领域

本发明涉及智能信息处理技术领域，尤其涉及一种基于transH的人员亲属关系预测方法。

背景技术

由于在户籍关系数据中，表述户籍成员之间的关系比较单一，仅仅呈现户籍户主对其成员的关系称呼，故在建立人员关系知识图方面显得极为片面，无法实现人员关系知识的全面涵盖。

发明内容

本发明的目的在于针对背景技术中的缺陷，提出一种基于transH的人员亲属关系预测方法。

为达此目的，本发明采用以下技术方案：

一种基于transH的人员亲属关系预测方法，其特征在于：包括如下步骤：

步骤A：采集原始数据，从原始数据中个提取户籍关系、婚姻关系和亲子关系；

步骤B：以户籍关系、婚姻关系和亲子关系为基础对原始数据进行补充缺失的亲属关系；

步骤C：建立transH模型，将每个亲属关系以关系三元组(h，r，t)的形式进行训练，将h和t在特定的关系r中映射到超平面w_r中，得到所有的关系三元组(h，r，t)和超平面w_r的关系向量d_r，具体的，有以下公式成立：

h_⊥+d_r＝t_⊥；

其中，h表示主实体，t表示客实体，r表示主实体和客实体的关系，该关系不可逆；

h_⊥表示主实体h在超平面w_r上的投影，t_⊥表示客实体t在超平面w_r上的投影；

h_wr表示主实体在超平面w投影的法向量；

t_wr表示客实体在超平面w投影的法向量；

hw表示主实体在超平面w的向量；

tw表示客实体在超平面w的向量；

w^T表示超平面矩阵的转置矩阵；

根据关系向量d_r进行亲属关系预测，获取关系三元组(h，r，t)的数据；

步骤D：将获取的关系三元组(h，r，t)的数据，导入NE04J形成亲属关系图谱。

2、根据权利要求1所述一种基于transH的人员亲属关系预测方法，其特征在于：

所述步骤B包括：

步骤B1：建立二维数据表，所述二维数据表的每行数据录入一个人的信息，新增二维数据表的字段，对二维数据表中代表婚姻关系和亲子关系的行进行编码标记；

步骤B2：提取个人姓氏和提取户主的配偶姓氏，将所提取的户主的配偶姓氏定义为母系姓氏；

步骤B3：根据婚姻关系、亲子关系以及成员与户主之间的户籍关系，对原始数据扩充所缺失的部分亲属关系；

步骤B4：统一亲属关系中，对于相同的亲属关系的称呼。

3、根据权利要求1所述一种基于transH的人员亲属关系预测方法，其特征在于：

所述步骤C包括：

步骤C1：设置transH模型的配置文件，所述配置文件向transH模型传递模型参数，所述模型参数包括学习率、样本区别最小距离、计算距离的范数级别和正负样本的采样方式；

步骤C2：对关系三元组(h，r，t)中的所有主实体、客实体以及主实体和客实体的关系进行唯一编码；

步骤C3：根据关系三元组获取主实体和客实体的打分函数，打分函数如下：

其中：f_r(h,t)表示正确的主实体和客实体的打分函数；

||..||₂表示L2范数距离；

dr为映射到超平面的关系向量；

hw表示主实体在超平面w的向量；

tw表示客实体在超平面w的向量；

w^T表示超平面矩阵的转置矩阵；

步骤C4：根据打分函数，获取样本损失函数，样本损失函数如下：

其中：γ表示为正负样例的最大距离；

h’表示错误主实体，t’表示错误客实体，r’表示错误的主实体和客实体的关系

S表示实体集合，(h，r，t)∈s表示正确实体集合，(h’，r’，t’)∈s’表示错误实体集合；

步骤C5：使用随机梯度法迭代求取主实体h、客实体t、超平面w_r和超平面w_r的关系向量d_r；

f_r(h,t)表示正确的主实体和客实体的打分函数；

f_r(h',t')表示错误的主实体和客实体的打分函数；

步骤C6：求取与关系向量d_r余弦相似度最小的向量，该向量即为所预测的亲属关系。

4、根据权利要求1所述一种基于transH的人员亲属关系预测方法，其特征在于：

所述步骤D包括：

步骤D1：预先根据人员身份信息生成连接节点；

步骤D2：对获取的关系三元组(h，r，t)的数据，生成关系数据并进行加工，匹配人员的身份信息；

步骤D3：人员身份信息中的身份证号码作为连接键，将关系数据生成节点之间的桥梁，完成可视化。

有益效果：

本发明通过对原始数据进行如下改造：

(1)对原始数据未体现的关系进行扩充；

(2)清洗原始数据中错误、模棱两可的关系；

(3)将搭建户籍之间桥梁(婚姻、亲子)；

(4)形成格式化数据后进行transH拟合；

(5)利用拟合出来的实体、关系向量进行余弦相似度预测；

使得对于人员关系的建立无需过度依赖逻辑理解，大大节省时间成本，同时减少因逻辑误区而造成关系建立错误等现象的出现。

附图说明

图1是本发明其中一个实施例的三元组在超平面的关系投影图；

图2是本发明其中一个实施例的三元组在超平面的投影图；

图3是本发明其中一个实施例的NE04J形成亲属关系图；

图4是本发明中亲属关系预测的模型图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

本发明的一种基于transH的人员亲属关系预测方法，包括如下步骤：

由于原始数据缺少部分亲属关系，包括常见的但是较为复杂的亲属关系，如果需要预测数据集中此部分关系，则需要有一定的先验数据做训练样本。此部分关系数据只能通过联合亲子、婚姻关系标注。实际操作中，使用python第三方库pandas的map方法批量进行标注，建立关系。

优选的，所述步骤B包括：

步骤B1：建立二维数据表，所述二维数据表的每行数据录入一个人的信息，保证二维数据表内的每一行代表一个人的信息，新增二维数据表的字段，对二维数据表中代表婚姻关系和亲子关系的行进行编码标记；

具体的，提取个人姓名的首字，复姓提取前两个汉字，作为个人姓氏，同时提取女户主姓氏或者男户主配偶姓氏，定义为母系姓氏；

在此特别针对补充，联姻上的关系，因为此类比较少见，原始数据中没有，比如同一对姊妹的丈夫，他们之间应该是“连襟”关系，对此可以额外建立该种“连襟关系”。

同时户籍表当中存在很多边界模糊的关系，比如“堂哥或表哥”、“儿子或侄子”类似的填写方式，可以通过使用步骤B3中的姓氏和亲子关系去修正。(一般堂哥姓氏与本人必定一致，而儿子的数据则会和本人有相同的亲子编码标记，在步骤B1中实现。)

步骤B4：统一亲属关系中，对于相同的亲属关系的称呼，如“父亲”和“爸爸”统一称为父亲。

步骤C：如图1和图2所示，建立transH模型，将每个亲属关系以关系三元组(h，r，t)的形式进行训练，将h和t在特定的关系r中映射到超平面w_r中，得到所有的关系三元组(h，r，t)和超平面w_r的关系向量d_r，具体的，有以下公式成立：

h_⊥+d_r＝t_⊥；

h_wr表示主实体在超平面w投影的法向量；

t_wr表示客实体在超平面w投影的法向量；

hw表示主实体在超平面w的向量；

tw表示客实体在超平面w的向量；

w^T表示超平面矩阵的转置矩阵；

优选的，所述步骤C包括：

其中：f_r(h,t)表示正确的主实体和客实体的打分函数；

||..||₂表示范数距离；

dr为映射到超平面的关系向量；

hw表示主实体在超平面w的向量；

tw表示客实体在超平面w的向量；

w^T表示超平面矩阵的转置矩阵；

其中：γ表示为正负样例的最大距离；

f_r(h,t)表示正确的主实体和客实体的打分函数；

f_r(h',t')表示错误的主实体和客实体的打分函数；

步骤D：如图3所示，将获取的关系三元组(h，r，t)的数据，导入NE04J形成亲属关系图谱。

优选的，所述步骤D包括：

步骤D1：预先根据人员身份信息生成连接节点；

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种基于transH的人员亲属关系预测方法，其特征在于：包括如下步骤：

h_⊥+d_r＝t_⊥；

h_wr表示主实体在超平面w投影的法向量；

t_wr表示客实体在超平面w投影的法向量；

hw表示主实体在超平面w的向量；

tw表示客实体在超平面w的向量；

w^T表示超平面矩阵的转置矩阵；

2.根据权利要求1所述一种基于transH的人员亲属关系预测方法，其特征在于：

所述步骤B包括：

步骤B4：统一亲属关系中，对于相同的亲属关系的称呼。

3.根据权利要求1所述一种基于transH的人员亲属关系预测方法，其特征在于：

所述步骤C包括：

其中：f_r(h,t)表示正确的主实体和客实体的打分函数；

||..||₂表示L2范数距离；

dr为映射到超平面的关系向量；

hw表示主实体在超平面w的向量；

tw表示客实体在超平面w的向量；

w^T表示超平面矩阵的转置矩阵；

其中：γ表示为正负样例的最大距离；

h’表示错误主实体，t’表示错误客实体，r’表示错误的主实体和客实体的关系；

f_r(h,t)表示正确的主实体和客实体的打分函数；

f_r(h',t')表示错误的主实体和客实体的打分函数；

4.根据权利要求1所述一种基于transH的人员亲属关系预测方法，其特征在于：

所述步骤D包括：

步骤D1：预先根据人员身份信息生成连接节点；