CN111858784A - 一种基于transH的人员亲属关系预测方法 - Google Patents

一种基于transH的人员亲属关系预测方法 Download PDF

Info

Publication number
CN111858784A
CN111858784A CN202010705719.0A CN202010705719A CN111858784A CN 111858784 A CN111858784 A CN 111858784A CN 202010705719 A CN202010705719 A CN 202010705719A CN 111858784 A CN111858784 A CN 111858784A
Authority
CN
China
Prior art keywords
relationship
entity
relation
hyperplane
guest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010705719.0A
Other languages
English (en)
Inventor
曾伟英
霍凯亮
陈昌明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Kejie Communication Information Technology Co ltd
Original Assignee
Guangdong Kejie Communication Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Kejie Communication Information Technology Co ltd filed Critical Guangdong Kejie Communication Information Technology Co ltd
Priority to CN202010705719.0A priority Critical patent/CN111858784A/zh
Publication of CN111858784A publication Critical patent/CN111858784A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于transH的人员亲属关系预测方法,包括如下步骤:步骤A:采集原始数据,从原始数据中个提取户籍关系、婚姻关系和亲子关系;步骤B:以户籍关系、婚姻关系和亲子关系为基础对原始数据进行补充缺失的亲属关系;步骤C:建立transH模型,将每个亲属关系以关系三元组(h,r,t)的形式进行训练,将h和t在特定的关系r中映射到超平面wr中,得到所有的关系三元组(h,r,t)和超平面wr的关系向量dr,根据关系向量dr进行亲属关系预测,获取关系三元组(h,r,t)的数据;步骤D:将获取的关系三元组(h,r,t)的数据,导入NE04J形成亲属关系图谱。

Description

一种基于transH的人员亲属关系预测方法
技术领域
本发明涉及智能信息处理技术领域,尤其涉及一种基于transH的人员亲属关系预测方法。
背景技术
由于在户籍关系数据中,表述户籍成员之间的关系比较单一,仅仅呈现户籍户主对其成员的关系称呼,故在建立人员关系知识图方面显得极为片面,无法实现人员关系知识的全面涵盖。
发明内容
本发明的目的在于针对背景技术中的缺陷,提出一种基于transH的人员亲属关系预测方法。
为达此目的,本发明采用以下技术方案:
一种基于transH的人员亲属关系预测方法,其特征在于:包括如下步骤:
步骤A:采集原始数据,从原始数据中个提取户籍关系、婚姻关系和亲子关系;
步骤B:以户籍关系、婚姻关系和亲子关系为基础对原始数据进行补充缺失的亲属关系;
步骤C:建立transH模型,将每个亲属关系以关系三元组(h,r,t)的形式进行训练,将h和t在特定的关系r中映射到超平面wr中,得到所有的关系三元组(h,r,t)和超平面wr的关系向量dr,具体的,有以下公式成立:
h+dr=t
Figure DA00025946816551984
Figure DA00025946816552017
其中,h表示主实体,t表示客实体,r表示主实体和客实体的关系,该关系不可逆;
h表示主实体h在超平面wr上的投影,t表示客实体t在超平面wr上的投影;
hwr表示主实体在超平面w投影的法向量;
twr表示客实体在超平面w投影的法向量;
hw表示主实体在超平面w的向量;
tw表示客实体在超平面w的向量;
wT表示超平面矩阵的转置矩阵;
根据关系向量dr进行亲属关系预测,获取关系三元组(h,r,t)的数据;
步骤D:将获取的关系三元组(h,r,t)的数据,导入NE04J形成亲属关系图谱。
2、根据权利要求1所述一种基于transH的人员亲属关系预测方法,其特征在于:
所述步骤B包括:
步骤B1:建立二维数据表,所述二维数据表的每行数据录入一个人的信息,新增二维数据表的字段,对二维数据表中代表婚姻关系和亲子关系的行进行编码标记;
步骤B2:提取个人姓氏和提取户主的配偶姓氏,将所提取的户主的配偶姓氏定义为母系姓氏;
步骤B3:根据婚姻关系、亲子关系以及成员与户主之间的户籍关系,对原始数据扩充所缺失的部分亲属关系;
步骤B4:统一亲属关系中,对于相同的亲属关系的称呼。
3、根据权利要求1所述一种基于transH的人员亲属关系预测方法,其特征在于:
所述步骤C包括:
步骤C1:设置transH模型的配置文件,所述配置文件向transH模型传递模型参数,所述模型参数包括学习率、样本区别最小距离、计算距离的范数级别和正负样本的采样方式;
步骤C2:对关系三元组(h,r,t)中的所有主实体、客实体以及主实体和客实体的关系进行唯一编码;
步骤C3:根据关系三元组获取主实体和客实体的打分函数,打分函数如下:
Figure BDA0002594681650000031
其中:fr(h,t)表示正确的主实体和客实体的打分函数;
||..||2表示L2范数距离;
dr为映射到超平面的关系向量;
hw表示主实体在超平面w的向量;
tw表示客实体在超平面w的向量;
wT表示超平面矩阵的转置矩阵;
步骤C4:根据打分函数,获取样本损失函数,样本损失函数如下:
Figure BDA0002594681650000032
其中:γ表示为正负样例的最大距离;
h’表示错误主实体,t’表示错误客实体,r’表示错误的主实体和客实体的关系
S表示实体集合,(h,r,t)∈s表示正确实体集合,(h’,r’,t’)∈s’表示错误实体集合;
步骤C5:使用随机梯度法迭代求取主实体h、客实体t、超平面wr和超平面wr的关系向量dr
fr(h,t)表示正确的主实体和客实体的打分函数;
fr(h',t')表示错误的主实体和客实体的打分函数;
步骤C6:求取与关系向量dr余弦相似度最小的向量,该向量即为所预测的亲属关系。
4、根据权利要求1所述一种基于transH的人员亲属关系预测方法,其特征在于:
所述步骤D包括:
步骤D1:预先根据人员身份信息生成连接节点;
步骤D2:对获取的关系三元组(h,r,t)的数据,生成关系数据并进行加工,匹配人员的身份信息;
步骤D3:人员身份信息中的身份证号码作为连接键,将关系数据生成节点之间的桥梁,完成可视化。
有益效果:
本发明通过对原始数据进行如下改造:
(1)对原始数据未体现的关系进行扩充;
(2)清洗原始数据中错误、模棱两可的关系;
(3)将搭建户籍之间桥梁(婚姻、亲子);
(4)形成格式化数据后进行transH拟合;
(5)利用拟合出来的实体、关系向量进行余弦相似度预测;
使得对于人员关系的建立无需过度依赖逻辑理解,大大节省时间成本,同时减少因逻辑误区而造成关系建立错误等现象的出现。
附图说明
图1是本发明其中一个实施例的三元组在超平面的关系投影图;
图2是本发明其中一个实施例的三元组在超平面的投影图;
图3是本发明其中一个实施例的NE04J形成亲属关系图;
图4是本发明中亲属关系预测的模型图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本发明的一种基于transH的人员亲属关系预测方法,包括如下步骤:
步骤A:采集原始数据,从原始数据中个提取户籍关系、婚姻关系和亲子关系;
步骤B:以户籍关系、婚姻关系和亲子关系为基础对原始数据进行补充缺失的亲属关系;
由于原始数据缺少部分亲属关系,包括常见的但是较为复杂的亲属关系,如果需要预测数据集中此部分关系,则需要有一定的先验数据做训练样本。此部分关系数据只能通过联合亲子、婚姻关系标注。实际操作中,使用python第三方库pandas的map方法批量进行标注,建立关系。
优选的,所述步骤B包括:
步骤B1:建立二维数据表,所述二维数据表的每行数据录入一个人的信息,保证二维数据表内的每一行代表一个人的信息,新增二维数据表的字段,对二维数据表中代表婚姻关系和亲子关系的行进行编码标记;
步骤B2:提取个人姓氏和提取户主的配偶姓氏,将所提取的户主的配偶姓氏定义为母系姓氏;
具体的,提取个人姓名的首字,复姓提取前两个汉字,作为个人姓氏,同时提取女户主姓氏或者男户主配偶姓氏,定义为母系姓氏;
步骤B3:根据婚姻关系、亲子关系以及成员与户主之间的户籍关系,对原始数据扩充所缺失的部分亲属关系;
在此特别针对补充,联姻上的关系,因为此类比较少见,原始数据中没有,比如同一对姊妹的丈夫,他们之间应该是“连襟”关系,对此可以额外建立该种“连襟关系”。
同时户籍表当中存在很多边界模糊的关系,比如“堂哥或表哥”、“儿子或侄子”类似的填写方式,可以通过使用步骤B3中的姓氏和亲子关系去修正。(一般堂哥姓氏与本人必定一致,而儿子的数据则会和本人有相同的亲子编码标记,在步骤B1中实现。)
步骤B4:统一亲属关系中,对于相同的亲属关系的称呼,如“父亲”和“爸爸”统一称为父亲。
步骤C:如图1和图2所示,建立transH模型,将每个亲属关系以关系三元组(h,r,t)的形式进行训练,将h和t在特定的关系r中映射到超平面wr中,得到所有的关系三元组(h,r,t)和超平面wr的关系向量dr,具体的,有以下公式成立:
h+dr=t
Figure BDA0002594681650000071
Figure BDA0002594681650000072
其中,h表示主实体,t表示客实体,r表示主实体和客实体的关系,该关系不可逆;
h表示主实体h在超平面wr上的投影,t表示客实体t在超平面wr上的投影;
hwr表示主实体在超平面w投影的法向量;
twr表示客实体在超平面w投影的法向量;
hw表示主实体在超平面w的向量;
tw表示客实体在超平面w的向量;
wT表示超平面矩阵的转置矩阵;
根据关系向量dr进行亲属关系预测,获取关系三元组(h,r,t)的数据;
优选的,所述步骤C包括:
步骤C1:设置transH模型的配置文件,所述配置文件向transH模型传递模型参数,所述模型参数包括学习率、样本区别最小距离、计算距离的范数级别和正负样本的采样方式;
步骤C2:对关系三元组(h,r,t)中的所有主实体、客实体以及主实体和客实体的关系进行唯一编码;
步骤C3:根据关系三元组获取主实体和客实体的打分函数,打分函数如下:
Figure BDA0002594681650000073
其中:fr(h,t)表示正确的主实体和客实体的打分函数;
||..||2表示范数距离;
dr为映射到超平面的关系向量;
hw表示主实体在超平面w的向量;
tw表示客实体在超平面w的向量;
wT表示超平面矩阵的转置矩阵;
步骤C4:根据打分函数,获取样本损失函数,样本损失函数如下:
Figure BDA0002594681650000081
其中:γ表示为正负样例的最大距离;
h’表示错误主实体,t’表示错误客实体,r’表示错误的主实体和客实体的关系
S表示实体集合,(h,r,t)∈s表示正确实体集合,(h’,r’,t’)∈s’表示错误实体集合;
步骤C5:使用随机梯度法迭代求取主实体h、客实体t、超平面wr和超平面wr的关系向量dr
fr(h,t)表示正确的主实体和客实体的打分函数;
fr(h',t')表示错误的主实体和客实体的打分函数;
步骤C6:求取与关系向量dr余弦相似度最小的向量,该向量即为所预测的亲属关系。
步骤D:如图3所示,将获取的关系三元组(h,r,t)的数据,导入NE04J形成亲属关系图谱。
优选的,所述步骤D包括:
步骤D1:预先根据人员身份信息生成连接节点;
步骤D2:对获取的关系三元组(h,r,t)的数据,生成关系数据并进行加工,匹配人员的身份信息;
步骤D3:人员身份信息中的身份证号码作为连接键,将关系数据生成节点之间的桥梁,完成可视化。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (4)

1.一种基于transH的人员亲属关系预测方法,其特征在于:包括如下步骤:
步骤A:采集原始数据,从原始数据中个提取户籍关系、婚姻关系和亲子关系;
步骤B:以户籍关系、婚姻关系和亲子关系为基础对原始数据进行补充缺失的亲属关系;
步骤C:建立transH模型,将每个亲属关系以关系三元组(h,r,t)的形式进行训练,将h和t在特定的关系r中映射到超平面wr中,得到所有的关系三元组(h,r,t)和超平面wr的关系向量dr,具体的,有以下公式成立:
h+dr=t
Figure FDA0002594681640000011
Figure FDA0002594681640000012
其中,h表示主实体,t表示客实体,r表示主实体和客实体的关系,该关系不可逆;
h表示主实体h在超平面wr上的投影,t表示客实体t在超平面wr上的投影;
hwr表示主实体在超平面w投影的法向量;
twr表示客实体在超平面w投影的法向量;
hw表示主实体在超平面w的向量;
tw表示客实体在超平面w的向量;
wT表示超平面矩阵的转置矩阵;
根据关系向量dr进行亲属关系预测,获取关系三元组(h,r,t)的数据;
步骤D:将获取的关系三元组(h,r,t)的数据,导入NE04J形成亲属关系图谱。
2.根据权利要求1所述一种基于transH的人员亲属关系预测方法,其特征在于:
所述步骤B包括:
步骤B1:建立二维数据表,所述二维数据表的每行数据录入一个人的信息,新增二维数据表的字段,对二维数据表中代表婚姻关系和亲子关系的行进行编码标记;
步骤B2:提取个人姓氏和提取户主的配偶姓氏,将所提取的户主的配偶姓氏定义为母系姓氏;
步骤B3:根据婚姻关系、亲子关系以及成员与户主之间的户籍关系,对原始数据扩充所缺失的部分亲属关系;
步骤B4:统一亲属关系中,对于相同的亲属关系的称呼。
3.根据权利要求1所述一种基于transH的人员亲属关系预测方法,其特征在于:
所述步骤C包括:
步骤C1:设置transH模型的配置文件,所述配置文件向transH模型传递模型参数,所述模型参数包括学习率、样本区别最小距离、计算距离的范数级别和正负样本的采样方式;
步骤C2:对关系三元组(h,r,t)中的所有主实体、客实体以及主实体和客实体的关系进行唯一编码;
步骤C3:根据关系三元组获取主实体和客实体的打分函数,打分函数如下:
Figure FDA0002594681640000031
其中:fr(h,t)表示正确的主实体和客实体的打分函数;
||..||2表示L2范数距离;
dr为映射到超平面的关系向量;
hw表示主实体在超平面w的向量;
tw表示客实体在超平面w的向量;
wT表示超平面矩阵的转置矩阵;
步骤C4:根据打分函数,获取样本损失函数,样本损失函数如下:
Figure FDA0002594681640000032
其中:γ表示为正负样例的最大距离;
h’表示错误主实体,t’表示错误客实体,r’表示错误的主实体和客实体的关系;
S表示实体集合,(h,r,t)∈s表示正确实体集合,(h’,r’,t’)∈s’表示错误实体集合;
步骤C5:使用随机梯度法迭代求取主实体h、客实体t、超平面wr和超平面wr的关系向量dr
fr(h,t)表示正确的主实体和客实体的打分函数;
fr(h',t')表示错误的主实体和客实体的打分函数;
步骤C6:求取与关系向量dr余弦相似度最小的向量,该向量即为所预测的亲属关系。
4.根据权利要求1所述一种基于transH的人员亲属关系预测方法,其特征在于:
所述步骤D包括:
步骤D1:预先根据人员身份信息生成连接节点;
步骤D2:对获取的关系三元组(h,r,t)的数据,生成关系数据并进行加工,匹配人员的身份信息;
步骤D3:人员身份信息中的身份证号码作为连接键,将关系数据生成节点之间的桥梁,完成可视化。
CN202010705719.0A 2020-07-21 2020-07-21 一种基于transH的人员亲属关系预测方法 Pending CN111858784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010705719.0A CN111858784A (zh) 2020-07-21 2020-07-21 一种基于transH的人员亲属关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010705719.0A CN111858784A (zh) 2020-07-21 2020-07-21 一种基于transH的人员亲属关系预测方法

Publications (1)

Publication Number Publication Date
CN111858784A true CN111858784A (zh) 2020-10-30

Family

ID=73000798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010705719.0A Pending CN111858784A (zh) 2020-07-21 2020-07-21 一种基于transH的人员亲属关系预测方法

Country Status (1)

Country Link
CN (1) CN111858784A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946695A (zh) * 2021-12-20 2022-01-18 山东新希望六和集团有限公司 动物系谱的生成方法、装置及计算机设备
CN113961724A (zh) * 2021-12-22 2022-01-21 山东新希望六和集团有限公司 动物系谱的更新方法、装置及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843923A (zh) * 2016-03-25 2016-08-10 博康智能网络科技股份有限公司 一种基于户籍信息数据的亲属关系分析方法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110378489A (zh) * 2019-07-30 2019-10-25 哈尔滨工程大学 基于实体超平面投影的知识表示学习模型
CN110532398A (zh) * 2019-07-24 2019-12-03 西安交通大学 基于多任务联合神经网络模型的家族图谱自动构建方法
CN110647620A (zh) * 2019-09-23 2020-01-03 中国农业大学 一种基于置信超平面和词典信息的知识图谱表示学习方法
CN110852107A (zh) * 2019-11-08 2020-02-28 北京明略软件系统有限公司 一种关系提取方法、装置、及存储介质
CN110909881A (zh) * 2019-11-01 2020-03-24 中电科大数据研究院有限公司 一种面向跨媒体知识推理任务的知识表示方法
CN111159431A (zh) * 2019-12-30 2020-05-15 深圳Tcl新技术有限公司 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN111680163A (zh) * 2020-04-21 2020-09-18 国网内蒙古东部电力有限公司 一种面向电力科技成果的知识图谱可视化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843923A (zh) * 2016-03-25 2016-08-10 博康智能网络科技股份有限公司 一种基于户籍信息数据的亲属关系分析方法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110532398A (zh) * 2019-07-24 2019-12-03 西安交通大学 基于多任务联合神经网络模型的家族图谱自动构建方法
CN110378489A (zh) * 2019-07-30 2019-10-25 哈尔滨工程大学 基于实体超平面投影的知识表示学习模型
CN110647620A (zh) * 2019-09-23 2020-01-03 中国农业大学 一种基于置信超平面和词典信息的知识图谱表示学习方法
CN110909881A (zh) * 2019-11-01 2020-03-24 中电科大数据研究院有限公司 一种面向跨媒体知识推理任务的知识表示方法
CN110852107A (zh) * 2019-11-08 2020-02-28 北京明略软件系统有限公司 一种关系提取方法、装置、及存储介质
CN111159431A (zh) * 2019-12-30 2020-05-15 深圳Tcl新技术有限公司 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN111680163A (zh) * 2020-04-21 2020-09-18 国网内蒙古东部电力有限公司 一种面向电力科技成果的知识图谱可视化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHEN WANG ET AL.: "Knowledge Graph Embedding by Translating on Hyperplanes", 《PROCEEDINGS OF THE TWENTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, pages 1112 - 1119 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946695A (zh) * 2021-12-20 2022-01-18 山东新希望六和集团有限公司 动物系谱的生成方法、装置及计算机设备
CN113961724A (zh) * 2021-12-22 2022-01-21 山东新希望六和集团有限公司 动物系谱的更新方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN110334219B (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
WO2021135910A1 (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN112765370B (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN114090783A (zh) 一种异构知识图谱融合方法及系统
CN111858784A (zh) 一种基于transH的人员亲属关系预测方法
CN111914550B (zh) 一种面向限定领域的知识图谱更新方法及系统
CN110647620A (zh) 一种基于置信超平面和词典信息的知识图谱表示学习方法
WO2023124191A1 (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN113641805B (zh) 结构化问答模型的获取方法、问答方法及对应装置
CN110580339B (zh) 一种医疗术语知识库完善的方法和装置
WO2022262320A1 (zh) 基于知识图谱的配电网cim模型信息补全方法及系统
CN116680377B (zh) 基于日志反馈的中文医学术语自适应对齐方法
CN110246572A (zh) 一种基于词向量的医疗分诊方法及系统
CN110909881A (zh) 一种面向跨媒体知识推理任务的知识表示方法
CN115083599A (zh) 一种基于知识图谱的病状初步诊断及治疗方法
CN115658927A (zh) 一种面向时序知识图谱的无监督实体对齐方法及装置
Wang et al. Food image recognition and food safety detection method based on deep learning
CN103440292B (zh) 基于比特向量的多媒体信息检索方法和系统
CN112084319B (zh) 一种基于动作的关系网络视频问答系统及方法
CN114359656A (zh) 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备
CN116029394B (zh) 自适应文本情感识别模型训练方法、电子设备及存储介质
CN113761867A (zh) 地址识别方法、装置、计算机设备及存储介质
CN117252204A (zh) 一种联邦对比对抗知识蒸馏的机器账号检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination