CN113326377B - 一种基于企业关联关系的人名消歧方法及系统 - Google Patents
一种基于企业关联关系的人名消歧方法及系统 Download PDFInfo
- Publication number
- CN113326377B CN113326377B CN202110616330.3A CN202110616330A CN113326377B CN 113326377 B CN113326377 B CN 113326377B CN 202110616330 A CN202110616330 A CN 202110616330A CN 113326377 B CN113326377 B CN 113326377B
- Authority
- CN
- China
- Prior art keywords
- node
- personal
- nodes
- homonymous
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于企业关联关系的人名消歧方法。构建反映企业关联关系的知识图谱。将知识图谱划分为一个或多个连通子图。根据查询时输入的人名以及企业名,在各连通子图中查找查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询输入个人节点;在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将路径最短的前k个样本输入预定义或已训练好的判别模型,得到唯一候选同名节点对。若判别模型输出的唯一的候选同名节点对的预测值大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人。本申请使用多种不同策略方法对目标同名个人节点对进行人名消歧。
Description
技术领域
本申请涉及一种企业知识图谱(knowledge graph)构建与应用领域,尤其涉及一种企业知识图谱的构建过程中董事、监事、高管、法人代表等同名个人节点的歧义性消除和处理的方法。
背景技术
人名消歧(personal name disambiguation)旨在消除不同环境下人名的歧义性,把相同的人名按照现实世界的不同实体进行分类,从而将信息有效地组织和聚类(cluster)后提供给用户。有效的人名消歧是企业知识图谱构建过程中必不可少的环节,该问题在搜索引擎检索、数据挖掘、人名知识库构建等领域中普遍存在。
目前,主要可以使用基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的等多种人名消歧方法来解决人名歧义的问题。并且,国内外学者提出了许多人名消歧算法,随着数据规模的日趋庞大,以及使用场景的多样性,以上方法都有其各自的特点与不足,并不存在一种可以解决各种人名消歧问题的普适算法。
随着海量数据的增长,计算能力以及基础算法的迭代提升,基于数据驱动的机器学习预测模型系统受到越来越广泛的应用,解决了越来越多的实际问题。并且,图卷积网络(graph convolutional network,GCN)是传统卷积神经网络(convolutional neuralnetwork,CNN)在图(graph)结构数据上的一个变体,可以直接应用于图结构数据,可以很好地对局部图结构与节点特征进行编码,被广泛应用于节点分类、链接预测、图嵌入表示等任务中,为处理大型图结构数据提供一种有效手段。
发明内容
本申请所要解决的技术问题是解决企业知识图谱中的多个同名节点的歧义性问题,合并优化同名个人节点,提升搜索结果的准确性,提升查询业务匹配的准确性。
为解决上述技术问题,本申请提供了一种基于企业关联关系的人名消歧方法,包括如下步骤。步骤S10:构建反映企业关联关系的知识图谱;所构建的知识图谱中,节点包括企业节点和个人节点,边包括企业节点与企业节点之间的边、企业节点与个人节点之间的边。步骤S20:将知识图谱划分为一个或多个连通子图。步骤S30:根据查询时输入的人名以及企业名,在各连通子图中查找与该企业名对应的企业节点,称为查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询时输入的人名的个人节点,称为查询输入个人节点;查询输入个人节点与查询输入企业节点具有唯一对应关系;在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对,每个同名个人节点对作为单个样本,将路径最短的前k个样本输入预定义或已训练好的判别模型,判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对。步骤S40:若判别模型输出的唯一的候选同名节点对的预测值大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。
本申请所依据的原理是:当两个个人之间的关联企业的关系越多、关联关系越重要、关系路径距离越近,则这两个个人为同一个自然人的可能性越高。其重点在于利用已有企业节点与企业节点的关联关系,以及企业节点与个人节点的唯一对应关系合理构建反映企业关联关系的知识图谱,并通过企业关联关系知识图谱,使用多种不同策略方法对同名个人节点对进行判决,生成基于数据驱动的人名消歧系统。
进一步地,所述步骤S10进一步包括如下步骤。步骤S12:抽取用于构建知识图谱的数据,包括抽取企业关联图谱数据、抽取历史标记数据;所述企业关联图谱数据包括企业的名称、个人的姓名、企业和企业的关系数据、企业和个人的关系数据,作为知识图谱中的节点和边的属性;所述历史标记数据是指当前已通过实名认证的个人的带有个人标识的同名数据集,用作机器学习模型的监督训练评估的标记数据。步骤S14:对数据进行预处理,包括数据清洗、标记数据集划分、自定义图谱关系权重。步骤S16:部署构建反映企业关联关系的知识图谱。这是一种优选的具体实现方式。
进一步地,在步骤S20之后、步骤S30之前还包括步骤S24。步骤S24:采用谱聚类的算法对部分或全部的连通子图再次进行划分,从而使得再次划分后的子图更小。这是一个可选步骤,可以进一步减小图计算规模和存储空间,提升计算效率,降低硬件资源需求。
进一步地,所述步骤S30中,首先在具有查询输入企业节点的连通子图中,寻找查询输入个人节点的所有同名的个人节点;随后计算所有的同名个人节点与查询输入企业节点的最短路径,从所有的同名个人节点中选出“最短路径”最短的前k个同名个人节点与查询输入个人节点构成k个同名个人节点对,这k个同名个人节点对构成候选同名节点对集;通过以下三种判别模型的任意一种从候选同名节点对集中计算得到唯一候选同名节点对——基于人工规则的相似度计算模型、基于二分类器的判别模型、基于卷积图神经网络的端到端模型;对于基于人工规则的相似度计算模型,预测值是相似度计算结果;对于基于逐对PairWise二分类器的判别模型或基于卷积图神经网络的端到端模型,预测值是模型输出的概率值。基于人工规则的相似度计算模型利用专家经验和数据分析结果,直接量化定义同名个人节点对的相似度计算公式。基于二分类器的判别模型挖掘同名个人节点对知识图谱路径与属性特征,如最短路径集合,并使用常用机器学习算法构建分类器模型。基于图卷积网络的端到端模型直接对量化好的企业关联图谱构建图卷积网络模型,直接进行端到端的训练模型。
进一步地,所述步骤S30中,所述基于人工规则的相似度计算模型中,先进行最短路径计算以找到候选同名节点对集;在候选同名节点对集的k个同名个人节点对中,每一个同名个人节点对由查询输入个人节点和通过计算最短路径找到的节点二组成,节点二有k个;与每个节点二具有最短路径的企业节点作为该节点二唯一对应的企业节点;将查询输入企业节点与“每个节点二唯一对应的企业节点”的企业相似度,作为候选同名节点对集的k个同名个人节点对中的每一个同名个人节点对中的两个个人节点的相似度;将两个个人节点的相似度最高的那一对同名个人节点对作为唯一的候选同名节点对。
进一步地,企业的相似度计算公式如下所示;
其中,Se表示两个企业节点的相似度,ni为两个企业节点同时连接的同名个人节点的数目,N为两个企业节点所连接的个人节点的总数,k为相同名字的自然人的数目,si和e分别表示两个企业节点的地址、电话、邮件字段特征的对应权重和取值。
进一步地,所述基于二分类器的判别模型主要包括最短路径计算、特征提取、模型训练、模型预测的具体实现模块;所述最短路径计算模块实现了知识图谱中的企业节点到对应同名个人节点的最短路径计算;所述特征提取模块用于提取最短路径的路径数值化特征作为对应企业节点和个人节点的特征表示向量;所述模型训练模块主要完成机器学习算法模型的训练阶段,并将训练好的最终模型用作最终判定;所述模型预测模块用于完成机器学习算法模型的测试阶段。这是一种优选的具体实现方式。
进一步地,所述最短路径计算通过使用随机抽取同名个人节点的方式,计算近似最短路径,具体包括如下步骤;假设与查询输入个人节点P同名的个人节点数目为N,查询输入企业节点为E。步骤S322:随机抽取M个同名的个人节点Pi,(i=1,2,...,M);其中M小于N。步骤S324:分别计算企业节点E到随机抽取的M个同名的个人节点Pi的最短路径。步骤S326:对M条企业节点E到随机抽取的M个同名的个人节点Pi的最短路径进行升序排序,并取排在前面的K条最短路径;其中K小于M。步骤S328:输出排在前面的K条最短路径。
或者,所述最短路径计算采用迪杰斯特拉算法,直接同时计算企业节点E到所有同名个人节点在限定10度以内的广度优先遍历的过程中,计算排在前面的K条最短路径。
进一步地,所述基于卷积图神经网络的端到端模型中,使用图卷积神经网络构建同名节点的PairWise分类预测模型,采用半监督学习的方式训练网络参数与预测输出,来对知识图谱中的人名歧义进行推断消除。这是一种优选的具体实现方式。
进一步地,所述步骤S40进一步包括如下步骤。步骤S42:若判别模型输出的唯一的候选同名节点对的预测值大于阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。步骤S44:对步骤S30中采用的判别模型进行效果评估,具体评估指标包括模型的召回率,精准率以及时间效率。步骤S46:将查询输入个人节点的人名消岐判定结果同步更新到知识图谱中。或者,省略步骤S44。或者,省略步骤S46。这是一种优选的具体实现方式。
本申请还公开了一种基于企业关联关系的人名消歧系统,包括图谱构建模块、子图划分模块、建模计算模块和判别分析模块。所述图谱构建模块用于构建反映企业关联关系的知识图谱。所述子图划分模块用于将知识图谱划分为一个或多个连通子图。所述建模计算模块用于根据查询时输入的人名以及企业名,在各连通子图中查找查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询输入个人节点;查询输入个人节点与查询输入企业节点具有唯一对应关系;在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对,每个同名个人节点对作为单个样本,将路径最短的前k个样本输入预定义或已训练好的判别模型,判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对。所述判别分析模块用于在判别模型输出的唯一的候选同名节点对的预测值大于某阈值时,判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。
本申请取得的技术效果是解决了知识图谱的构建过程中的同名个人节点的人名消歧问题,其利用企业间的关联关系构建企业关联图谱,通过图挖掘计算同名个人节点间的关联特征,并合理量化,通过基于人工规则的相似度计算模型、基于二分类器的判别模型、基于卷积图神经网络的端到端模型三种方式的一种计算推理出同名个人节点间的相似度或同名个人节点对为同一个自然人的概率值,以实现对企业关联图谱中的人名歧义进行消除。其核心在于企业关联图谱的构建,大规模图计算优化以及三种判别模型的应用。
附图说明
图1是本申请提供的基于企业关联关系的人名消歧方法的流程示意图。
图2是图1中的步骤S10的一个实施例的流程示意图。
图3是图1中的步骤S10构建好的一个知识图谱的示意图。
图4是计算近似最短路径的一个实施例的流程示意图。
图5是图卷积网络的结构示意图。
图6是图1中的步骤S40的一个实施例的流程示意图。
图7是本申请提供的基于企业关联关系的人名消歧系统的结构示意图。
图中附图标记说明:10为图谱构建模块;20为子图划分模块;30为建模计算模块;40为判别分析模块。
具体实施方式
请参阅图1,本申请提供的基于企业关联关系的人名消歧方法包括如下步骤。
步骤S10:构建反映企业关联关系的知识图谱。所构建的知识图谱中,节点(vertex,point)包括企业节点和个人节点。个人节点中含有表示其是否已被标记过的标识,已通过实名认证的个人节点作为已标记的个人节点,未通过实名认证的个人节点作为未标记的个人节点。所构建的知识图谱中,边(edge)包括企业节点与企业节点之间的边、企业节点与个人节点之间的边。每条边用来表征所连接的两个节点之间的所有关系,并量化其重要程度。企业节点与企业节点之间的边的属性包含两个企业节点之间的具体关系列表属性和自定义属性。企业节点与个人节点之间的边的属性包含个人节点在企业节点的角色属性和是否标记属性。已标记的个人节点与企业节点之间的边上的是否标记属性为已标记,未标记的个人节点与企业节点之间的边上的是否标记属性为未标记。
步骤S20:将知识图谱划分为一个或多个连通子图(connected subgraph)。如果任意两个节点之间通过一条或多条边相连接,不考虑边的方向,那么这两个节点就在一个连通子图中;否则这两个节点就在不同的连通子图中。这样就将知识图谱分割为一个或多个相互独立的连通子图。
由于整个知识图谱的数据量较大,直接对全量数据进行计算的成本较高,效率也十分低下,甚至无法在可接受的时间内完成计算。同时,知识图谱的图结构数据存在大量的独立的连通子图,其计算过程也是相对独立,互不影响的,非常适合使用并行计算实现,比如MapReduce软件架构实现,具有十分优异的运算效率。因此,所述步骤S20通过将知识图谱划分成多个独立的连通子图,并对所有子图数据进行并行计算。
步骤S30:根据查询时输入的人名以及企业名,在各连通子图中查找与该企业名对应的企业节点,称为查询输入企业节点。在具有查询输入企业节点的连通子图中生成查询时输入的人名的个人节点,称为查询输入个人节点。查询输入个人节点与查询输入企业节点具有唯一对应关系。在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对,每个同名个人节点对作为单个样本,将路径最短的前k个样本输入预定义或已训练好的判别模型,判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对。整个流程包括:(1)在具有查询输入企业节点的连通子图中,寻找查询输入个人节点的所有同名的个人节点。(2)计算所有的同名个人节点与查询输入企业节点的最短路径,从所有的同名个人节点中选出“最短路径”最短的前k个同名个人节点与查询输入个人节点构成k个同名个人节点对,这k个同名个人节点对构成候选同名节点对集。(3)通过以下三种判别模型的任意一种从候选同名节点对集中计算得到唯一候选同名节点对——基于人工规则的相似度计算模型(简称为相似度计算模型)、基于PairWise(逐对)二分类器的判别模型(简称为机器学习模型)、基于卷积图神经网络的端到端模型(简称为卷积神经网络模型)。节点对在相似度计算模型、机器学习模型、卷积神经网络模型中都是常见结构。对于相似度计算模型,预测值是相似度计算结果。对于机器学习模型或卷积神经网络模型,预测值是模型输出的概率值。
步骤S40:若判别模型输出的唯一的候选同名节点对的预测值大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人。否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。其中,用于判定的阈值例如是一个基于人名频率分布的分段函数,可以通过人名数据统计得到。若一个人名出现次数较多,则所需阈值越高;反之亦然;这样可以提升对常用人名的识别准确率。比如“张伟”是常用人名,则该函数会返回较大的阈值。
请参阅图2,所述步骤S10进一步包括如下步骤。
步骤S12:抽取用于构建知识图谱的数据。这一步具体包括抽取企业关联图谱数据、抽取历史标记数据。所述企业关联图谱数据包括企业的名称、个人的姓名、企业和企业的关系数据、企业和个人的关系数据,作为知识图谱中的节点和边的属性。其中,企业和企业的关系数据又包括股权投资关系、分支机构关系、疑似关系(相同联系电话、相同联系邮箱、相同网站地址、相同注册地址、相同人名的数量等),法律专利文书关系等,作为企业节点与企业节点之间的边的具体关系列表属性。企业和个人的关系数据主要是指个人在企业中的角色即任职关系,作为企业节点与个人节点之间的边的角色属性。所述历史标记数据是指当前已通过实名认证的个人的带有pid(个人id,个人标识)的同名数据集,用作机器学习模型的监督训练评估的标记数据。实验表明,标注数据越多,机器学习模型的效果越好。
步骤S14:对数据进行预处理。这一步具体包括数据清洗、标记数据集划分、自定义图谱关系权重等具体操作。数据清洗主要是指数据去重、非法人名数据过滤、字符编码转码、缺失值填充等,从而得到结构化的数据。标记数据集划分是指通过对已有标记数据集例如按照7:2:1的比例划分,分别用于机器学习模型的训练集、验证集、测试集。自定义图谱关系权重的计算公式如下所示。
其中,CostWeight表示一个企业和另一个企业之间的图谱关系权重,ni表示一个企业和另一个企业的所具有的关系数量,wi表示一个企业和另一个企业的所具有的每种关系的权重。E-E指知识图谱中表示企业节点与企业节点之间的关联关系的边,对应的P-E指知识图谱中表示个人节点与企业节点之间的关联关系的边。该图谱关系权重主要用于最短路径的计算,图谱关系权重值越小,对应的关系越重要。
步骤S16:部署构建反映企业关联关系的知识图谱。可以结合子图划分模块使用分布式图存储结构,合理配置资源,将前面抽取预处理后的边和节点数据初始化知识图谱结构,合理设置索引提升查询速度,并对外提供知识图谱常用查询的接口。
请参阅图3,这是构建好的知识图谱的一个示意图。其中,带有字母E的圆表示企业节点,带有字母P的圆表示个人节点,实线表示企业节点与企业节点之间的边,虚线表示企业节点与个人节点之间的边。当不存在个人节点P3时,双点划线方框表示出两个独立的连通子图。已标记的个人节点P3将原先独立的两个连通子图连接,起到连接两个独立子图的作用,从而增加了图里面的连接关系。
可选地,在步骤S20之后、步骤S30之前还包括步骤S24。步骤S24:采用谱聚类(Spectral Cluster)的算法对部分较复杂的连通子图再次进行划分,从而使得再次划分后的子图更加的精准细致,相似的节点分布在同一个更小的二次划分子图中。谱聚类算法建立在图论中的谱图理论基础上,其本质是将聚类问题转化为图的最优划分问题,是一种点对聚类算法。这用于进一步优化图计算的存储空间与计算效率,减少对计算资源的要求。
所述步骤S30中,所述基于人工规则的相似度计算模型中,先进行最短路径计算以找到候选同名节点对集。在候选同名节点对集的k个同名个人节点对中,每一个同名个人节点对由查询输入个人节点和通过计算最短路径找到的某一个同名个人节点(称为节点二)组成。显然,节点二有k个。与每个节点二具有最短路径的企业节点作为该节点二唯一对应的企业节点。将查询输入企业节点与“每个节点二唯一对应的企业节点”的企业相似度,作为候选同名节点对集的k个同名个人节点对中的每一个同名个人节点对中的两个个人节点的相似度。将两个个人节点的相似度最高的那一对同名个人节点对作为唯一的候选同名节点对,代入步骤S40的判断中。
所述最短路径计算实现了知识图谱中的企业节点到对应同名个人节点的最短路径计算。对于常用名,查询时同名个人节点的数目非常多,直接计算某个企业节点到某个姓名的所有个人节点的最短路径非常耗时,存在效率问题。优选地,通过使用随机抽取同名个人节点的方式,计算近似最短路径。请参阅图4,计算近似最短路径具体包括如下步骤。假设与查询输入个人节点P同名的个人节点数目为N,查询输入企业节点为E。
步骤S322:随机抽取M个同名的个人节点Pi,(i=1,2,...,M)。其中M小于N,优选为M远小于N。
步骤S324:分别计算企业节点E到随机抽取的M个同名的个人节点Pi的最短路径,最短路径的路径权重为该条路径上所有边上的自定义图谱关系权重CostWeight的加权和。
步骤S326:对M条企业节点E到随机抽取的M个同名的个人节点Pi的最短路径进行升序排序,并取排在前面的K条最短路径。其中K小于M,优选为K远小于M。
步骤S328:输出排在前面的K条最短路径。
所述最短路径计算还可采用迪杰斯特拉(Dijkstra)算法,直接同时计算企业节点E到所有同名个人节点在限定10度以内的广度优先遍历的过程中,计算排在前面的K条最短路径。
企业的相似度计算公式如下所示。
其中,Se表示两个企业节点的相似度,ni为两个企业节点所共同连接的某个同名的个人节点的数目,N为两个企业节点所连接的个人节点的总数,k为两个企业节点所共同连接的同名的个人节点的数目,si和e分别表示两个企业节点的地址、电话、邮件等字段特征的对应权重和取值。两个企业节点的相似度越大,表明两个企业的关联关系越强。比如企业节点A连接7个个人节点,分别是a、a、b、b、c、f、f。企业节点B连接6个个人节点,分别是a、c、d、d、f、f。这里,N=13,k=3,这两个企业节点具有三个同名的个人节点,分别是a、c、f。n1=1,表示同名的个人节点a被企业节点A和企业节点B共同连接的数目为1。n2=1,表示同名的个人节点c被企业节点A和企业节点B共同连接的数目为1。n3=2,表示同名的个人节点f被企业节点A和企业节点B共同连接的数目为2。
在基于人工规则的相似度计算模型中,在每一个“候选同名节点对集”内计算完所有同名个人节点对的相似度后,选取相似度最大的一对同名个人节点对,作为步骤S30输出的唯一的候选同名节点对。
所述步骤S30中,所述基于PairWise二分类器的判别模型主要包括最短路径计算、特征提取、模型训练、模型预测等具体实现模块。最短路径计算部分与所述基于人工规则的相似度计算模型中的内容相同,不再赘述。
所述特征提取用于提取最短路径的路径数值化特征作为对应企业节点和个人节点的特征表示向量;主要包括最短路径的具体边权重特征、路径长度特征、最短路径权重特征以及个人节点与企业节点的角色关系特征,还可以进一步取排在前面的K条最短路径进行特征拼接。同时,由于最短路径长度不一致,需要对的所有的提取好的特征进行取零填充对齐,以便输入模型训练测试。
所述模型训练主要完成机器学习模型的训练阶段,并将训练好的最终模型用作最终判定。本实施例中采用LightGBM的GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法作为基础二分类器模型,效率和准确性上都取得了优异的效果,也可以使用其他的机器学习算法替换。利用已有的历史标记数据,对每个同名输入姓名的候选集打标签:若候选同名节点对集中的pid与输入人名的对应pid相同,则标记为1;否则,标记为0。并将标记好的经过特征提取后的数值化特征输入LightGBM分类器模型,进行二分类训练。训练过程中,可能会涉及到LightGBM的模型参数调整与优化。
所述模型预测主要完成机器学习模型的测试阶段,包括待判定人名数据的输入,经过最短路径计算,得到最短K条候选同名节点对集,并特征提取得到数值化特征,输入已训练好的LightGBM算法模型进行二分类预测,取候选同名节点对集中经过机器学习模型输出概率最高的一对同名个人节点对作为步骤S30输出的唯一的候选同名节点对。在步骤S40中,如候选同名节点对的输出概率大于某个阈值t,t可以为定值,t也可以由基于频率分布的分段函数动态确定,则判定该候选同名节点对中的两个同名的个人节点为同一自然人。否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。
所述步骤S30中,所述基于卷积图神经网络的端到端模型中,主要通过使用图卷积神经网络构建同名节点的PairWise分类预测模型,采用半监督学习的方式训练网络参数与预测输出,来对知识图谱中的人名歧义进行推断消除。
所述图卷积神经网络也称图卷积网络,用于直接对图结构数据进行处理计算、迭代训练、以及预测判定。本质上来讲,单层图卷积网络可以看作谱图卷积的局部一阶近似,并通过堆积K层的图卷积网络建立K阶邻居的依赖,等效于K阶近似。首先,根据图结构,构建图卷积模型,并随机初始化所有网络待训练权重。然后,直接输入图数据到图卷积网络进行逐层特征计算,合理调整输出层为同名节点的PairWise二分类网络结构,并使用已标注的数据进行半监督训练,不断迭代,直到网络目标函数收敛。最后,输出候选同名节点对集中所有同名个人节点对的网络预测输出,判定其为同一个人的概率。选其中概率最高的一对同名个人节点对作为唯一的候选同名节点对。
请参阅图5,所述图卷积网络由输入层、隐藏层和输出层构成。本实施例中预测对象为任意两个同名个人节点对,判断其是同一个自然人的概率。因此,需要对最后一个隐藏层的所有输出节点的学习向量进行PairWise两两组合,并计算其向量外积Zij。向量化后,计算输出图卷积网络的输出值Yij。其次,需要利用部分已标记的同名个人节点对的数据对那些没有标注过的PairWise对组合数据进行半监督训练建模,以推断预测同名个人节点对为同一个人的概率。对于一个半监督学习的二分类问题,使用所有带有标签的PairWise节点对的期望交叉熵作为损失函数。最后,对标注数据使用随机梯度下降最优化算法求解网络目标函数中所有权重的解,也可使用其他的改进梯度算法。
请参阅图6,所述步骤S40进一步包括如下步骤。
步骤S42:若判别模型输出的唯一的候选同名节点对的预测值(相似度计算模型输出的相似度计算结果、或机器学习模型输出的概率值、或卷积神经网络模型输出的概率值)大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人。否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。
步骤S44:对步骤S30中所采用的判别模型进行效果评估,具体评估指标包括模型的召回率(recall),精准率(precision)以及时间效率。评估指标的优化要求是保证高精准率的要求下,不断优化提升模型召回率,且时间效率满足应用需求。本实施例测试评估发现,该人名消歧的模型系统不管是存量企业下的人名消歧,还是新企业下的人名消歧,均取得了优异的准确率与召回率,且模型预测时间高效。
步骤S46:将查询输入个人节点的人名消岐判定结果同步更新到知识图谱中,以得到更加实时全面的反映企业关联关系的知识图谱。主要包含两种情况:若查询输入个人节点与知识图谱中的同名个人节点(称为节点三)被判定为属于同一自然人,则在节点三与查询输入企业节点之间增加一条边,该条边的类型为预测类型,表征节点三与查询输入个人节点之间是通过判断预测为同一自然人关系。显然,节点三是节点二中的一个。若查询输入个人节点在已有的知识图谱中未发现被判定为属于同一自然人的同名个人节点,则为查询输入个人节点与其查询输入企业节点之间增加一条边,边的类型为未匹配,表征查询输入个人节点在知识图谱中无被判定为属于同一自然人的同名个人节点。这样,可以不断补充完善知识图谱数据。
其中,步骤S44、步骤S46都是可选的。
请参阅图7,本申请提供的基于企业关联关系的人名消歧系统包括图谱构建模块10、子图划分模块20、建模计算模块30和判别分析模块40,与图1所示方法相对应。所述图谱构建模块10用于构建反映企业关联关系的知识图谱。所述子图划分模块20用于将知识图谱划分为一个或多个连通子图。所述建模计算模块30用于根据查询时输入的人名以及企业名,在各连通子图中查找查询输入企业节点。在具有查询输入企业节点的连通子图中生成查询输入个人节点。查询输入个人节点与查询输入企业节点具有唯一对应关系。在该连通子图中,寻找查询输入个人节点的所有同名个人节点,将查询输入个人节点与找到的每一个同名个人节点组成同名个人节点对,每个同名个人节点对作为单个样本,将路径最短的前k个样本输入预定义或已训练好的判别模型,判别模型输出的预测值最高的同名个人节点对作为唯一候选同名节点对。所述判别分析模块40用于在判别模型输出的唯一的候选同名节点对的预测值大于某阈值时,判定该候选同名节点对中的两个同名的个人节点为同一自然人。否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。
本申请提供了一种基于企业关联关系的人名消歧方法及系统,其有益效果如下。
其一,合理构建反映企业关联关系的知识图谱,便于企业数据的挖掘与分析,通过子图划分可以显著提升大图计算的效率。
其二,基于数据驱动的相似度计算模型、机器学习模型、卷积神经网络模型构建十分方便,可解释性强,易于迭代优化。
其三,与基于人工规则的相似度计算模型相比,采用机器学习模型、卷积神经网络模型训练的方式可以处理更多的特征因素,方便特征挖掘,生成更加全面的判决策略。
其四,卷积神经网络模型实现了对图结构数据的端到端训练预测,避免人工提取特征的依赖,系统更加自动化,泛化能力更强。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于企业关联关系的人名消歧方法,其特征是,包括如下步骤:
步骤S10:构建反映企业关联关系的知识图谱;所构建的知识图谱中,节点包括企业节点和个人节点,边包括企业节点与企业节点之间的边、企业节点与个人节点之间的边;
步骤S20:将知识图谱划分为一个或多个连通子图;
步骤S30:根据查询时输入的人名以及企业名,在各连通子图中查找与该企业名对应的企业节点,称为查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询时输入的人名的个人节点,称为查询输入个人节点;查询输入个人节点与查询输入企业节点具有唯一对应关系;首先在该连通子图中,寻找查询输入个人节点的所有同名个人节点;随后计算所有的同名个人节点与查询输入企业节点的最短路径,从所有的同名个人节点中选出“最短路径”最短的前k个同名个人节点与查询输入个人节点构成k个同名个人节点对,这k个同名个人节点对构成候选同名节点对集;通过以下三种判别模型的任意一种从候选同名节点对集中计算得到预测值最高的同名个人节点对作为唯一候选同名节点对——基于人工规则的相似度计算模型、基于二分类器的判别模型、基于卷积图神经网络的端到端模型;对于基于人工规则的相似度计算模型,预测值是相似度计算结果;对于基于二分类器的判别模型或基于卷积图神经网络的端到端模型,预测值是模型输出的概率值;
所述基于人工规则的相似度计算模型中,先进行最短路径计算以找到候选同名节点对集;在候选同名节点对集的k个同名个人节点对中,每一个同名个人节点对由查询输入个人节点和通过计算最短路径找到的节点二组成,节点二有k个;与每个节点二具有最短路径的企业节点作为该节点二唯一对应的企业节点;将查询输入企业节点与“每个节点二唯一对应的企业节点”的企业相似度,作为候选同名节点对集的k个同名个人节点对中的每一个同名个人节点对中的两个个人节点的相似度;将两个个人节点的相似度最高的那一对同名个人节点对作为唯一的候选同名节点对;
步骤S40:若判别模型输出的唯一的候选同名节点对的预测值大于某阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。
2.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,所述步骤S10进一步包括如下步骤:
步骤S12:抽取用于构建知识图谱的数据,包括抽取企业关联图谱数据、抽取历史标记数据;所述企业关联图谱数据包括企业的名称、个人的姓名、企业和企业的关系数据、企业和个人的关系数据,作为知识图谱中的节点和边的属性;所述历史标记数据是指当前已通过实名认证的个人的带有个人标识的同名数据集,用作机器学习模型的监督训练评估的标记数据;
步骤S14:对数据进行预处理,包括数据清洗、标记数据集划分、自定义图谱关系权重;
步骤S16:部署构建反映企业关联关系的知识图谱。
3.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,在步骤S20之后、步骤S30之前还包括步骤S24;
步骤S24:采用谱聚类的算法对部分或全部的连通子图再次进行划分,从而使得再次划分后的子图更小。
4.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,企业的相似度计算公式如下所示;
其中,Se表示两个企业节点的相似度,ni为两个企业节点同时连接的同名个人节点的数目,N为两个企业节点所连接的个人节点的总数,k为相同名字的自然人的数目,si和e分别表示两个企业节点的地址、电话、邮件字段特征的对应权重和取值。
5.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,所述基于二分类器的判别模型主要包括最短路径计算、特征提取、模型训练、模型预测的具体实现模块;所述最短路径计算模块实现了知识图谱中的企业节点到对应同名个人节点的最短路径计算;所述特征提取模块用于提取最短路径的路径数值化特征作为对应企业节点和个人节点的特征表示向量;所述模型训练模块主要完成机器学习算法模型的训练阶段,并将训练好的最终模型用作最终判定;所述模型预测模块用于完成机器学习算法模型的测试阶段。
6.据权利要求1或5所述的基于企业关联关系的人名消歧方法,其特征是,所述最短路径计算通过使用随机抽取同名个人节点的方式,计算近似最短路径,具体包括如下步骤;假设与查询输入个人节点P同名的个人节点数目为N,查询输入企业节点为E;
步骤S322:随机抽取M个同名的个人节点Pi,(i=1,2,…,M);其中M小于N;
步骤S324:分别计算企业节点E到随机抽取的M个同名的个人节点Pi的最短路径;
步骤S326:对M条企业节点E到随机抽取的M个同名的个人节点Pi的最短路径进行升序排序,并取排在前面的K条最短路径;其中K小于M;
步骤S328:输出排在前面的K条最短路径。
7.据权利要求1或5所述的基于企业关联关系的人名消歧方法,其特征是,所述最短路径计算采用迪杰斯特拉算法,直接同时计算企业节点E到所有同名个人节点在限定10度以内的广度优先遍历的过程中,计算排在前面的K条最短路径。
8.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,所述基于卷积图神经网络的端到端模型中,使用图卷积神经网络构建同名节点的PairWise分类预测模型,采用半监督学习的方式训练网络参数与预测输出,来对知识图谱中的人名歧义进行推断消除。
9.根据权利要求1所述的基于企业关联关系的人名消歧方法,其特征是,所述步骤S40进一步包括如下步骤:
步骤S42:若判别模型输出的唯一的候选同名节点对的预测值大于阈值,则判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人;
步骤S44:对步骤S30中采用的判别模型进行效果评估,具体评估指标包括模型的召回率,精准率以及时间效率;
步骤S46:将查询输入个人节点的人名消岐判定结果同步更新到知识图谱中;
或者,省略步骤S44;
或者,省略步骤S46。
10.一种基于企业关联关系的人名消歧系统,其特征是,包括图谱构建模块、子图划分模块、建模计算模块和判别分析模块;
所述图谱构建模块用于构建反映企业关联关系的知识图谱;
所述子图划分模块用于将知识图谱划分为一个或多个连通子图;
所述建模计算模块用于根据查询时输入的人名以及企业名,在各连通子图中查找查询输入企业节点;在具有查询输入企业节点的连通子图中生成查询输入个人节点;查询输入个人节点与查询输入企业节点具有唯一对应关系;首先在该连通子图中,寻找查询输入个人节点的所有同名个人节点;随后计算所有的同名个人节点与查询输入企业节点的最短路径,从所有的同名个人节点中选出“最短路径”最短的前k个同名个人节点与查询输入个人节点构成k个同名个人节点对,这k个同名个人节点对构成候选同名节点对集;通过以下三种判别模型的任意一种从候选同名节点对集中计算得到预测值最高的同名个人节点对作为唯一候选同名节点对——基于人工规则的相似度计算模型、基于二分类器的判别模型、基于卷积图神经网络的端到端模型;对于基于人工规则的相似度计算模型,预测值是相似度计算结果;对于基于二分类器的判别模型或基于卷积图神经网络的端到端模型,预测值是模型输出的概率值;
所述基于人工规则的相似度计算模型中,先进行最短路径计算以找到候选同名节点对集;在候选同名节点对集的k个同名个人节点对中,每一个同名个人节点对由查询输入个人节点和通过计算最短路径找到的节点二组成,节点二有k个;与每个节点二具有最短路径的企业节点作为该节点二唯一对应的企业节点;将查询输入企业节点与“每个节点二唯一对应的企业节点”的企业相似度,作为候选同名节点对集的k个同名个人节点对中的每一个同名个人节点对中的两个个人节点的相似度;将两个个人节点的相似度最高的那一对同名个人节点对作为唯一的候选同名节点对;
所述判别分析模块用于在判别模型输出的唯一的候选同名节点对的预测值大于某阈值时,判定该候选同名节点对中的两个同名的个人节点为同一自然人;否则,判定该候选同名节点对中的两个同名的个人节点不是同一自然人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616330.3A CN113326377B (zh) | 2021-06-02 | 2021-06-02 | 一种基于企业关联关系的人名消歧方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616330.3A CN113326377B (zh) | 2021-06-02 | 2021-06-02 | 一种基于企业关联关系的人名消歧方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326377A CN113326377A (zh) | 2021-08-31 |
CN113326377B true CN113326377B (zh) | 2023-10-13 |
Family
ID=77423216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110616330.3A Active CN113326377B (zh) | 2021-06-02 | 2021-06-02 | 一种基于企业关联关系的人名消歧方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326377B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962293B (zh) * | 2021-09-29 | 2022-10-14 | 中国科学院计算机网络信息中心 | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 |
CN113609346B (zh) * | 2021-10-08 | 2022-01-07 | 企查查科技有限公司 | 基于企业关联关系的自然人人名消歧方法、设备和介质 |
CN114218447A (zh) * | 2021-12-13 | 2022-03-22 | 支付宝(杭州)信息技术有限公司 | 一种图处理方法和系统 |
CN114254207B (zh) * | 2022-03-02 | 2022-06-21 | 金电联行(北京)信息技术有限公司 | 企业同名高管识别方法、装置、电子设备及存储介质 |
CN115730251A (zh) * | 2022-12-06 | 2023-03-03 | 贝壳找房(北京)科技有限公司 | 关系识别方法 |
CN115934963B (zh) * | 2022-12-26 | 2023-07-18 | 深度(山东)数字科技集团有限公司 | 用于企业金融获客的商业汇票大数据分析方法及应用图谱 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020433A (zh) * | 2019-04-01 | 2019-07-16 | 中科天玑数据科技股份有限公司 | 一种基于企业关联关系的工商高管人名消歧方法 |
CN110489599A (zh) * | 2019-07-08 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 企业关系图谱构建方法、装置、计算机设备以及存储介质 |
CN111241153A (zh) * | 2019-12-31 | 2020-06-05 | 成都数联铭品科技有限公司 | 企业自然人实体综合判断对齐方法及系统 |
CN112287674A (zh) * | 2020-12-17 | 2021-01-29 | 成都数联铭品科技有限公司 | 企业间同名大节点识别方法、系统、电子设备及存储介质 |
CN112364178A (zh) * | 2020-11-08 | 2021-02-12 | 杭州有数金融信息服务有限公司 | 一种基于企业关联知识图谱的企业隐形实控人识别的方法 |
CN112487819A (zh) * | 2020-12-18 | 2021-03-12 | 成都数联铭品科技有限公司 | 一种企业间同名人识别方法、系统、电子设备及存储介质 |
WO2021057427A1 (zh) * | 2019-09-25 | 2021-04-01 | 西安交通大学 | 一种基于PU learning的跨区域企业偷漏税识别方法及系统 |
WO2021088499A1 (zh) * | 2019-11-04 | 2021-05-14 | 西安交通大学 | 一种基于动态网络表征的发票虚开识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10303999B2 (en) * | 2011-02-22 | 2019-05-28 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
-
2021
- 2021-06-02 CN CN202110616330.3A patent/CN113326377B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020433A (zh) * | 2019-04-01 | 2019-07-16 | 中科天玑数据科技股份有限公司 | 一种基于企业关联关系的工商高管人名消歧方法 |
CN110489599A (zh) * | 2019-07-08 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 企业关系图谱构建方法、装置、计算机设备以及存储介质 |
WO2021057427A1 (zh) * | 2019-09-25 | 2021-04-01 | 西安交通大学 | 一种基于PU learning的跨区域企业偷漏税识别方法及系统 |
WO2021088499A1 (zh) * | 2019-11-04 | 2021-05-14 | 西安交通大学 | 一种基于动态网络表征的发票虚开识别方法及系统 |
CN111241153A (zh) * | 2019-12-31 | 2020-06-05 | 成都数联铭品科技有限公司 | 企业自然人实体综合判断对齐方法及系统 |
CN112364178A (zh) * | 2020-11-08 | 2021-02-12 | 杭州有数金融信息服务有限公司 | 一种基于企业关联知识图谱的企业隐形实控人识别的方法 |
CN112287674A (zh) * | 2020-12-17 | 2021-01-29 | 成都数联铭品科技有限公司 | 企业间同名大节点识别方法、系统、电子设备及存储介质 |
CN112487819A (zh) * | 2020-12-18 | 2021-03-12 | 成都数联铭品科技有限公司 | 一种企业间同名人识别方法、系统、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
building and querying an enterprise knowledge graph;Dezhao Song等;IEEE Transactions on services computing;第12卷(第3期);356-369 * |
基于网络数据的企业知识图谱可视化;孙凯;刘玉华;张成海;王长波;;东华大学学报(自然科学版);第42卷(第04期);473-477+484 * |
科技大数据知识图谱构建方法及应用研究综述;周园春;王卫军;乔子越;肖濛;杜一;;中国科学:信息科学;第50卷(第07期);957-987 * |
Also Published As
Publication number | Publication date |
---|---|
CN113326377A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326377B (zh) | 一种基于企业关联关系的人名消歧方法及系统 | |
CN110837602B (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
CN108108854B (zh) | 城市路网链路预测方法、系统及存储介质 | |
CN109918663A (zh) | 一种语义匹配方法、装置及存储介质 | |
CN114816909A (zh) | 一种基于机器学习的实时日志检测预警方法及系统 | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN111970400B (zh) | 骚扰电话识别方法及装置 | |
CN111191825A (zh) | 用户违约预测方法、装置及电子设备 | |
CN110443574B (zh) | 多项目卷积神经网络评审专家推荐方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN113254649B (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN114373099A (zh) | 一种基于稀疏图卷积的三维点云分类方法 | |
CN116244484B (zh) | 一种面向不平衡数据的联邦跨模态检索方法及系统 | |
CN112508363A (zh) | 基于深度学习的电力信息系统状态分析方法及装置 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN112463974A (zh) | 知识图谱建立的方法和装置 | |
CN115795035A (zh) | 基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质 | |
CN111241826B (zh) | 实体名称识别方法、装置、设备及存储介质 | |
CN112182211B (zh) | 文本分类方法及装置 | |
CN114328924A (zh) | 一种基于预训练模型结合句法子树的关系分类方法 | |
CN114429140A (zh) | 一种基于相关图信息进行因果推断的案由认定方法及系统 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN111950615A (zh) | 一种基于树种优化算法的网络故障特征选择方法 | |
CN115017417B (zh) | 基于标签智能过滤和推荐的政策匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |