CN113554175A - 一种知识图谱构建方法、装置、可读存储介质及终端设备 - Google Patents

一种知识图谱构建方法、装置、可读存储介质及终端设备 Download PDF

Info

Publication number
CN113554175A
CN113554175A CN202111098781.9A CN202111098781A CN113554175A CN 113554175 A CN113554175 A CN 113554175A CN 202111098781 A CN202111098781 A CN 202111098781A CN 113554175 A CN113554175 A CN 113554175A
Authority
CN
China
Prior art keywords
knowledge graph
graph
nodes
node
initial knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111098781.9A
Other languages
English (en)
Other versions
CN113554175B (zh
Inventor
余雯
张莉
张茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111098781.9A priority Critical patent/CN113554175B/zh
Publication of CN113554175A publication Critical patent/CN113554175A/zh
Application granted granted Critical
Publication of CN113554175B publication Critical patent/CN113554175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于人工智能技术领域,尤其涉及一种知识图谱构建方法、装置、计算机可读存储介质及终端设备。所述方法包括:分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱;使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量;对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果;根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。通过本发明,在构建起初始知识图谱之后,根据对各个节点的特征向量的聚类结果来进行同名消歧,相比于人工核对的方式,极大提高了工作效率。

Description

一种知识图谱构建方法、装置、可读存储介质及终端设备
技术领域
本发明属于人工智能技术领域,尤其涉及一种知识图谱构建方法、装置、计算机可读存储介质及终端设备。
背景技术
在构建知识图谱的过程中,往往会从不同的来源收集到各类信息,通过这些信息所构建的知识图谱中,可能会存在同名的实体。同名的实体可能是同一个实体,也可能只是同名,但仍然是不同的实体,现有技术中往往只能依靠人工核对的方式对其进行区分,效率非常低下。
发明内容
有鉴于此,本发明实施例提供了一种知识图谱构建方法、装置、计算机可读存储介质及终端设备,以解决现有技术只能依靠人工核对的方式对知识图谱中同名的实体进行区分,效率非常低下的问题。
本发明实施例的第一方面提供了一种知识图谱构建方法,可以包括:
分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱;
使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量;
对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果;
根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。
在第一方面的一种具体实现方式中,所述使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量,可以包括:
根据所述初始知识图谱中各个节点的特征属性构建所述初始知识图谱的特征矩阵;
根据所述初始知识图谱中各个节点之间的关系构建所述初始知识图谱的邻接矩阵;
使用所述变分图自编码器对所述特征矩阵和所述邻接矩阵进行处理,得到所述初始知识图谱中各个节点的特征向量的概率分布;
在所述概率分布中进行采样,得到所述初始知识图谱中各个节点的特征向量。
在第一方面的一种具体实现方式中,所述使用所述变分图自编码器对所述特征矩阵和所述邻接矩阵进行处理,得到所述初始知识图谱中各个节点的特征向量的概率分布,可以包括:
使用所述变分图自编码器中的第一图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的均值;
使用所述变分图自编码器中的第二图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的方差。
在第一方面的一种具体实现方式中,所述使用所述变分图自编码器中的第一图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的均值,可以包括:
根据下式计算得到所述概率分布的均值:
Figure 205772DEST_PATH_IMAGE001
所述使用所述变分图自编码器中的第二图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的方差,可以包括:
根据下式计算得到所述概率分布的方差:
Figure 621710DEST_PATH_IMAGE002
其中,μ为所述均值,σ2为所述方差,X为所述特征矩阵,A为所述邻接矩阵,
Figure 951060DEST_PATH_IMAGE003
为对称标准化邻接矩阵,且
Figure 618802DEST_PATH_IMAGE004
D为所述初始知识图谱的度矩阵,GCNμ为所述第一图卷积网络,GCNσ为所述第二图卷积网络,W0、W1、W2分别为预设的参数,ReLU为预设的激活函数。
在第一方面的一种具体实现方式中,所述对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果,可以包括:
从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点;
根据节点之间的特征向量距离在所述初始知识图谱中搜寻所述目标节点的临近节点;所述目标节点与其临近节点的特征向量距离小于或等于预设的距离阈值;
根据所述目标节点的临近节点的数目判断所述目标节点是否为核心节点;
若所述目标节点为核心节点,则将所述目标节点及其临近节点均分配至一个新建的簇中;并对所述目标节点的临近节点进行递归操作,直至在所述新建的簇中找不到新的核心节点为止;
返回执行所述从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点的步骤及其后续步骤,直至所述初始知识图谱中的所有节点均被选取过为止。
在第一方面的一种具体实现方式中,所述根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱,可以包括:
在所述初始知识图谱中查找同名节点,所述同名节点为具有相同实体名称的节点;
判断所述同名节点在所述聚类结果中是否属于同一个簇;
若所述同名节点在所述聚类结果中属于同一个簇,则将所述同名节点合并为一个节点;
若所述同名节点在所述聚类结果中不属于同一个簇,则在所述同名节点的实体名称中加入编号以示区分。
在第一方面的一种具体实现方式中,所述根据所述数据信息构建初始知识图谱,可以包括:
根据所述数据信息确定客户之间的关系;
将每个客户均将作为一个节点,将客户之间的关系作为连接节点的边,构建得到所述初始知识图谱。
本发明实施例的第二方面提供了一种知识图谱构建装置,可以包括:
知识图谱构建模块,用于分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱;
特征向量提取模块,用于使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量;
聚类分析模块,用于对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果;
同名消歧模块,用于根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。
在第二方面的一种具体实现方式中,所述特征向量提取模块可以包括:
特征矩阵构建单元,用于根据所述初始知识图谱中各个节点的特征属性构建所述初始知识图谱的特征矩阵;
邻接矩阵构建单元,用于根据所述初始知识图谱中各个节点之间的关系构建所述初始知识图谱的邻接矩阵;
概率分布计算单元,用于使用所述变分图自编码器对所述特征矩阵和所述邻接矩阵进行处理,得到所述初始知识图谱中各个节点的特征向量的概率分布;
特征向量采样单元,用于在所述概率分布中进行采样,得到所述初始知识图谱中各个节点的特征向量。
在第二方面的一种具体实现方式中,所述概率分布计算单元可以包括:
均值计算子单元,用于使用所述变分图自编码器中的第一图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的均值;
方差计算子单元,用于使用所述变分图自编码器中的第二图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的方差。
在第二方面的一种具体实现方式中,所述均值计算子单元具体用于根据下式计算得到所述概率分布的均值:
Figure 884085DEST_PATH_IMAGE001
所述方差计算子单元具体用于根据下式计算得到所述概率分布的方差:
Figure 80711DEST_PATH_IMAGE002
其中,μ为所述均值,σ2为所述方差,X为所述特征矩阵,A为所述邻接矩阵,
Figure 694095DEST_PATH_IMAGE003
为对称标准化邻接矩阵,且
Figure 899949DEST_PATH_IMAGE004
D为所述初始知识图谱的度矩阵,GCNμ为所述第一图卷积网络,GCNσ为所述第二图卷积网络,W0、W1、W2分别为预设的参数,ReLU为预设的激活函数。
在第二方面的一种具体实现方式中,所述聚类分析模块具体用于:从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点;根据节点之间的特征向量距离在所述初始知识图谱中搜寻所述目标节点的临近节点;所述目标节点与其临近节点的特征向量距离小于或等于预设的距离阈值;根据所述目标节点的临近节点的数目判断所述目标节点是否为核心节点;若所述目标节点为核心节点,则将所述目标节点及其临近节点均分配至一个新建的簇中;并对所述目标节点的临近节点进行递归操作,直至在所述新建的簇中找不到新的核心节点为止;返回执行所述从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点的步骤及其后续步骤,直至所述初始知识图谱中的所有节点均被选取过为止。
在第二方面的一种具体实现方式中,所述同名消歧模块可以包括:
同名节点查找单元,用于在所述初始知识图谱中查找同名节点,所述同名节点为具有相同实体名称的节点;
同簇判断单元,用于判断所述同名节点在所述聚类结果中是否属于同一个簇;
节点合并单元,用于若所述同名节点在所述聚类结果中属于同一个簇,则将所述同名节点合并为一个节点;
节点编号单元,用于若所述同名节点在所述聚类结果中不属于同一个簇,则在所述同名节点的实体名称中加入编号以示区分。
在第二方面的一种具体实现方式中,所述知识图谱构建模块可以包括:
客户关系确定单元,用于根据所述数据信息确定客户之间的关系;
知识图谱构建单元,用于将每个客户均将作为一个节点,将客户之间的关系作为连接节点的边,构建得到所述初始知识图谱。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种知识图谱构建方法的步骤。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种知识图谱构建方法的步骤。
本发明实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述任一种知识图谱构建方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱;使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量;对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果;根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。通过本发明实施例,在构建起初始知识图谱之后,根据对各个节点的特征向量的聚类结果来进行同名消歧,相比于人工核对的方式,极大提高了工作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种知识图谱构建方法的一个实施例流程图;
图2为使用预设的变分图自编码器分别提取初始知识图谱中各个节点的特征向量的示意流程图;
图3为本发明实施例中一种知识图谱构建装置的一个实施例结构图;
图4为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例的执行主体可以为基于人工智能的终端设备,用于执行本发明实施例中的知识图谱构建方法。
请参阅图1,本发明实施例中一种知识图谱构建方法的一个实施例可以包括:
步骤S101、分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱。
其中,具体选取哪些关系维度,以及每个关系维度上包括哪些具体数据信息均可以根据实际情况进行设置。
例如,在本发明实施例的一种具体实现方式中,终端设备可以分别从预设的数据库中获取客户在客户关系维度、产品关系维度、企业关系维度这三个关系维度上的数据信息。
其中,客户关系维度中的具体数据信息可以包括客户的家庭关系、朋友关系、同事关系、同乡关系等,这些信息可以藉由客户在购买产品时提供的信息、与企业APP互动的信息、及可能的第三方通联记录等分析得到;
产品关系维度中的具体数据信息可以包括同质产品标签、互补产品标签、及客户及产品的关系标签等,这些信息可以藉由客户购买产品的记录、产品间本身的迭代演化记录等分析得到;
企业关系维度的具体数据信息可以包括与企业理财经理、代理人的关系、与企业客服的关系等,这些信息可以藉由客户与企业的往来记录分析得到。
在获取到客户在预设的各个关系维度上的数据信息之后,即可根据这些数据信息构建知识图谱。在构建知识图谱的过程中,可以根据这些数据信息确定客户之间的关系,客户之间的关系可以包括但不限于同事、家庭、同乡及朋友等。将每个客户均将作为一个节点,将客户的名字作为节点的实体名称,将客户之间的关系作为连接节点的边,将客户其它的数据信息作为节点的特征属性,即可构建得到知识图谱,此处将其记为初始知识图谱。
步骤S102、使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量。
变分图自编码器(Variational Graph Auto-Encoders,VGAE)是将变分自编码器(Variational Auto-Encoders,VAE)迁移到了图领域。变分自编码器是通过减少隐藏层神经元个数来实现重构样本,变分自编码器为了尽可能复现输入数据,其隐藏层必须捕捉输入数据的重要特征,从而找到能够代表原数据的主要成分。变分图自编码器也具有类似的目的,其主要是为图中节点找寻合适的特征向量(Embedding),并通过特征向量实现图重构。其中获取到的节点的特征向量可以用于支撑下游任务。和变分自编码器一样,变分图自编码器可以处理无监督场景,因此可以先用知识图谱做预训练(pretraining),将每个节点的特征向量提取出来。
如图2所示,步骤S102具体可以包括如下过程:
步骤S1021、根据所述初始知识图谱中各个节点的特征属性构建所述初始知识图谱的特征矩阵。
假设所述初始知识图谱中共包括N个节点,每个节点有D个特征属性,则所有节点的特征属性可以构建一个N*D维的矩阵,将其记为特征矩阵X。
步骤S1022、根据所述初始知识图谱中各个节点之间的关系构建所述初始知识图谱的邻接矩阵。
所有节点之间的关系可以构建一个N*N维的矩阵,将其记为邻接矩阵A。不同的关系对应的矩阵元素的数值表示各不相同,越亲密的关系数值越大,比如可以设置家庭关系为4,朋友关系为3,同事关系为2,同乡关系为1等等。如果两个节点间没有关系(即节点之间没有边连接),对应的矩阵元素为0。
步骤S1023、使用所述变分图自编码器对所述特征矩阵和所述邻接矩阵进行处理,得到所述初始知识图谱中各个节点的特征向量的概率分布;在所述概率分布中进行采样,得到所述初始知识图谱中各个节点的特征向量。
变分图自编码器将真实样本X={x1,…,xi,…,xN}输入其编码器,通过编码器学习到各个节点的特征向量的概率分布的均值μ={μ1,…,μi,…,μN}和方差σ2={σ1 2,…,σi 2,…,σN 2},然后在概率分布N(μ,σ2)中采样出特征向量Z={z1,…,zi,…,zN},再经过解码器输出生成样本。其中,i为节点的序号,1≤i≤N,xi为第i个节点的特征属性,μi和σi 2分别为第i个节点的特征向量的概率分布的均值和方差,zi为第i个节点的特征向量。
对于编码器而言,可以利用后验概率得到隐变量Z:
Figure 751230DEST_PATH_IMAGE005
其中:
Figure 157121DEST_PATH_IMAGE007
Figure 760140DEST_PATH_IMAGE008
GCNμ为预设的第一图卷积网络(Graph Convolutional Network,GCN),GCNσ为预设的第二图卷积网络,可以共用如下所示的两层卷积神经网络定义:
Figure 872453DEST_PATH_IMAGE009
其中,GCNμ(X,A)和GCNσ(X,A)共享第一层参数W0,不共享第二层参数W1,为了便于区分,可以分别记为:
Figure 473199DEST_PATH_IMAGE010
Figure 530016DEST_PATH_IMAGE011
其中,
Figure 77672DEST_PATH_IMAGE012
为对称标准化邻接矩阵,且
Figure 841229DEST_PATH_IMAGE013
D为所述初始知识图谱的度矩阵,GCNμ为所述第一图卷积网络,GCNσ为所述第二图卷积网络,W0、W1、W2分别为预设的参数,ReLU为预设的激活函数。
解码器则是利用特征向量的内积来重构邻接矩阵:
Figure 940772DEST_PATH_IMAGE014
其中,
Figure 360252DEST_PATH_IMAGE015
损失函数为:
Figure 508337DEST_PATH_IMAGE016
其中,
Figure 188717DEST_PATH_IMAGE017
为交叉熵(Cross Entropy)函数,
Figure 600106DEST_PATH_IMAGE018
为相对熵(Relative Entropy)函数,
Figure 303620DEST_PATH_IMAGE019
通过上述过程,使用变分图自编码器分别提取出初始知识图谱中各个节点的特征向量,以便于将其作为同名消歧的依据。
需要注意的是,在实际应用中,知识图谱中会不断地增加新的数据信息,因此,每隔一段时间,或者收集到一定量的数据信息后,需要重新训练变分图自编码器,以保证客户节点的特征向量能够及时更新。
步骤S103、对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果。
在本发明实施例的一种具体实现中,可以从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点,并根据节点之间的特征向量距离在所述初始知识图谱中搜寻所述目标节点的临近节点,其中,所述目标节点与其临近节点的特征向量距离小于或等于预设的距离阈值。然后,根据所述目标节点的临近节点的数目判断所述目标节点是否为核心节点,具体地,若所述目标节点的临近节点的数目大于或等于预设的数目阈值,则判断所述目标节点为核心节点,否则,若所述目标节点的临近节点的数目小于所述数目阈值,则判断所述目标节点不是核心节点。若所述目标节点不是核心节点,则重新选取一个尚未被选取过的节点重复以上过程;若所述目标节点为核心节点,则将所述目标节点及其临近节点均分配至一个新建的簇中,并对所述目标节点的临近节点进行递归操作,即对于各个临近节点,分别判断其是否也是核心节点,如果是,则将其临近节点也均分配到该簇中,以此类推,簇逐渐增大,直到在该簇中找不到新的核心节点为止。此时,重新选取一个尚未被选取过的节点重复以上过程,直至所有节点均被选取过为止。所述距离阈值和所述数目阈值均可以根据实际情况进行设置,本发明实施例对此不作具体限定。
在这种聚类方式下,无需提前设定聚类所得的簇的数量,避免了相关人员手工设定簇数带来的不确定影响,最终所得聚类结果更加合理准确。
需要注意的是,以上仅为本发明实施例中所采取的一种可能的聚类方法,在实际应用中,可以根据具体情况选择现有技术中的任意一种聚类方法,包括但不限于基于层次的方法(Hierarchical methods)、基于划分的方法(Partition-based methods)、基于密度的方法(Density-based methods)、基于网络的方法(Grid-based methods)、基于模型的方法(Model-based methods)以及基于模糊的聚类(FCM模糊聚类)等等,本发明实施例对此不作具体限定。
步骤S104、根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。
具体地,可以首先在所述初始知识图谱中查找同名节点,所述同名节点为具有相同实体名称的节点。然后,判断所述同名节点在所述聚类结果中是否属于同一个簇。若所述同名节点在所述聚类结果中属于同一个簇,则可以认为所述同名节点为同一个实体,此时可以将所述同名节点合并为一个节点;若所述同名节点在所述聚类结果中不属于同一个簇,则可以认为所述同名节点不是同一个实体,此时可以在所述同名节点的实体名称中加入编号以示区分。
例如,若两个节点的实体名称均为张三,且这两个节点属于同一个簇,则可以认为这两个节点为同一个实体,此时可以将这两个节点合并为一个节点,合并后的节点的实体名称仍为张三;若两个节点的实体名称均为李四,且这两个节点不属于同一个簇,则可以认为这两个节点不是同一个实体,此时可以将两个节点的实体名称中加入编号以示区分,比如,可以分别将这两个节点的实体名称改为李四1和李四2。
经过以上处理过程,即可消除知识图谱中存在的同名节点,得到最终的知识图谱。
综上所述,本发明实施例分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱;使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量;对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果;根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。通过本发明实施例,在构建起初始知识图谱之后,根据对各个节点的特征向量的聚类结果来进行同名消歧,相比于人工核对的方式,极大提高了工作效率,而且,所得结果更加客观准确,可以更好的运用到业务经营上。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种知识图谱构建方法,图3示出了本发明实施例提供的一种知识图谱构建装置的一个实施例结构图。
本实施例中,一种知识图谱构建装置可以包括:
知识图谱构建模块301,用于分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱;
特征向量提取模块302,用于使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量;
聚类分析模块303,用于对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果;
同名消歧模块304,用于根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。
在本发明实施例的一种具体实现方式中,所述特征向量提取模块可以包括:
特征矩阵构建单元,用于根据所述初始知识图谱中各个节点的特征属性构建所述初始知识图谱的特征矩阵;
邻接矩阵构建单元,用于根据所述初始知识图谱中各个节点之间的关系构建所述初始知识图谱的邻接矩阵;
概率分布计算单元,用于使用所述变分图自编码器对所述特征矩阵和所述邻接矩阵进行处理,得到所述初始知识图谱中各个节点的特征向量的概率分布;
特征向量采样单元,用于在所述概率分布中进行采样,得到所述初始知识图谱中各个节点的特征向量。
在本发明实施例的一种具体实现方式中,所述概率分布计算单元可以包括:
均值计算子单元,用于使用所述变分图自编码器中的第一图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的均值;
方差计算子单元,用于使用所述变分图自编码器中的第二图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的方差。
在本发明实施例的一种具体实现方式中,所述均值计算子单元具体用于根据下式计算得到所述概率分布的均值:
Figure 52133DEST_PATH_IMAGE010
所述方差计算子单元具体用于根据下式计算得到所述概率分布的方差:
Figure 993545DEST_PATH_IMAGE011
其中,μ为所述均值,σ2为所述方差,X为所述特征矩阵,A为所述邻接矩阵,
Figure 372573DEST_PATH_IMAGE012
为对称标准化邻接矩阵,且
Figure 612318DEST_PATH_IMAGE020
D为所述初始知识图谱的度矩阵,GCNμ为所述第一图卷积网络,GCNσ为所述第二图卷积网络,W0、W1、W2分别为预设的参数,ReLU为预设的激活函数。
在本发明实施例的一种具体实现方式中,所述聚类分析模块具体用于:从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点;根据节点之间的特征向量距离在所述初始知识图谱中搜寻所述目标节点的临近节点;所述目标节点与其临近节点的特征向量距离小于或等于预设的距离阈值;根据所述目标节点的临近节点的数目判断所述目标节点是否为核心节点;若所述目标节点为核心节点,则将所述目标节点及其临近节点均分配至一个新建的簇中;并对所述目标节点的临近节点进行递归操作,直至在所述新建的簇中找不到新的核心节点为止;返回执行所述从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点的步骤及其后续步骤,直至所述初始知识图谱中的所有节点均被选取过为止。
在本发明实施例的一种具体实现方式中,所述同名消歧模块可以包括:
同名节点查找单元,用于在所述初始知识图谱中查找同名节点,所述同名节点为具有相同实体名称的节点;
同簇判断单元,用于判断所述同名节点在所述聚类结果中是否属于同一个簇;
节点合并单元,用于若所述同名节点在所述聚类结果中属于同一个簇,则将所述同名节点合并为一个节点;
节点编号单元,用于若所述同名节点在所述聚类结果中不属于同一个簇,则在所述同名节点的实体名称中加入编号以示区分。
在本发明实施例的一种具体实现方式中,所述知识图谱构建模块可以包括:
客户关系确定单元,用于根据所述数据信息确定客户之间的关系;
知识图谱构建单元,用于将每个客户均将作为一个节点,将客户之间的关系作为连接节点的边,构建得到所述初始知识图谱。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图4示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备4可以是桌上型计算机、笔记本、掌上电脑等计算设备。该终端设备4可包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42,例如执行上述的知识图谱构建方法的计算机可读指令。所述处理器40执行所述计算机可读指令42时实现上述各个知识图谱构建方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器40执行所述计算机可读指令42时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块301至304的功能。
示例性的,所述计算机可读指令42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令42在所述终端设备4中的执行过程。
所述处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机可读指令以及所述终端设备4所需的其它指令和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识图谱构建方法,其特征在于,包括:
分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱;
使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量;
对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果;
根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量,包括:
根据所述初始知识图谱中各个节点的特征属性构建所述初始知识图谱的特征矩阵;
根据所述初始知识图谱中各个节点之间的关系构建所述初始知识图谱的邻接矩阵;
使用所述变分图自编码器对所述特征矩阵和所述邻接矩阵进行处理,得到所述初始知识图谱中各个节点的特征向量的概率分布;
在所述概率分布中进行采样,得到所述初始知识图谱中各个节点的特征向量。
3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述使用所述变分图自编码器对所述特征矩阵和所述邻接矩阵进行处理,得到所述初始知识图谱中各个节点的特征向量的概率分布,包括:
使用所述变分图自编码器中的第一图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的均值;
使用所述变分图自编码器中的第二图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的方差。
4.根据权利要求3所述的知识图谱构建方法,其特征在于,所述使用所述变分图自编码器中的第一图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的均值,包括:
根据下式计算得到所述概率分布的均值:
Figure 195492DEST_PATH_IMAGE001
所述使用所述变分图自编码器中的第二图卷积网络对所述特征矩阵和所述邻接矩阵进行处理,得到所述概率分布的方差,包括:
根据下式计算得到所述概率分布的方差:
Figure 440529DEST_PATH_IMAGE002
其中,μ为所述均值,σ2为所述方差,X为所述特征矩阵,A为所述邻接矩阵,
Figure 485845DEST_PATH_IMAGE003
为对称标准化邻接矩阵,且
Figure 349896DEST_PATH_IMAGE004
D为所述初始知识图谱的度矩阵,GCNμ为所述第一图卷积网络,GCNσ为所述第二图卷积网络,W0、W1、W2分别为预设的参数,ReLU为预设的激活函数。
5.根据权利要求1所述的知识图谱构建方法,其特征在于,所述对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果,包括:
从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点;
根据节点之间的特征向量距离在所述初始知识图谱中搜寻所述目标节点的临近节点;所述目标节点与其临近节点的特征向量距离小于或等于预设的距离阈值;
根据所述目标节点的临近节点的数目判断所述目标节点是否为核心节点;
若所述目标节点为核心节点,则将所述目标节点及其临近节点均分配至一个新建的簇中;并对所述目标节点的临近节点进行递归操作,直至在所述新建的簇中找不到新的核心节点为止;
返回执行所述从所述初始知识图谱中任意选取一个尚未被选取过的节点作为目标节点的步骤及其后续步骤,直至所述初始知识图谱中的所有节点均被选取过为止。
6.根据权利要求1所述的知识图谱构建方法,其特征在于,所述根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱,包括:
在所述初始知识图谱中查找同名节点,所述同名节点为具有相同实体名称的节点;
判断所述同名节点在所述聚类结果中是否属于同一个簇;
若所述同名节点在所述聚类结果中属于同一个簇,则将所述同名节点合并为一个节点;
若所述同名节点在所述聚类结果中不属于同一个簇,则在所述同名节点的实体名称中加入编号以示区分。
7.根据权利要求1至6中任一项所述的知识图谱构建方法,其特征在于,所述根据所述数据信息构建初始知识图谱,包括:
根据所述数据信息确定客户之间的关系;
将每个客户均将作为一个节点,将客户之间的关系作为连接节点的边,构建得到所述初始知识图谱。
8.一种知识图谱构建装置,其特征在于,包括:
知识图谱构建模块,用于分别获取客户在预设的各个关系维度上的数据信息,并根据所述数据信息构建初始知识图谱;
特征向量提取模块,用于使用预设的变分图自编码器分别提取所述初始知识图谱中各个节点的特征向量;
聚类分析模块,用于对所述初始知识图谱中各个节点的特征向量进行聚类分析,得到所述初始知识图谱的聚类结果;
同名消歧模块,用于根据所述聚类结果对所述初始知识图谱中各个节点进行同名消歧,得到同名消歧后的知识图谱。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的知识图谱构建方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的知识图谱构建方法的步骤。
CN202111098781.9A 2021-09-18 2021-09-18 一种知识图谱构建方法、装置、可读存储介质及终端设备 Active CN113554175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111098781.9A CN113554175B (zh) 2021-09-18 2021-09-18 一种知识图谱构建方法、装置、可读存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111098781.9A CN113554175B (zh) 2021-09-18 2021-09-18 一种知识图谱构建方法、装置、可读存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN113554175A true CN113554175A (zh) 2021-10-26
CN113554175B CN113554175B (zh) 2021-11-26

Family

ID=78106422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111098781.9A Active CN113554175B (zh) 2021-09-18 2021-09-18 一种知识图谱构建方法、装置、可读存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN113554175B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868438A (zh) * 2021-11-30 2021-12-31 平安科技(深圳)有限公司 信息可信度的校准方法、装置、计算机设备及存储介质
CN114422267A (zh) * 2022-03-03 2022-04-29 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN114491084A (zh) * 2022-04-12 2022-05-13 平安科技(深圳)有限公司 基于自编码器的关系网络信息挖掘方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032506A1 (en) * 2016-07-29 2018-02-01 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN110362692A (zh) * 2019-07-23 2019-10-22 中南大学 一种基于知识图谱的学术圈构建方法
CN111061882A (zh) * 2019-08-19 2020-04-24 广州利科科技有限公司 一种知识图谱构建方法
CN111680498A (zh) * 2020-05-18 2020-09-18 国家基础地理信息中心 实体消歧方法、装置、存储介质及计算机设备
CN112784121A (zh) * 2021-01-28 2021-05-11 浙江工业大学 一种基于时空图表示学习的交通事故预测方法
US20210142008A1 (en) * 2019-04-23 2021-05-13 Oracle International Corporation Named entity disambiguation using entity distance in a knowledge graph
CN113051440A (zh) * 2021-04-12 2021-06-29 北京理工大学 一种基于超图结构的链路预测方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032506A1 (en) * 2016-07-29 2018-02-01 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
US20210142008A1 (en) * 2019-04-23 2021-05-13 Oracle International Corporation Named entity disambiguation using entity distance in a knowledge graph
CN110362692A (zh) * 2019-07-23 2019-10-22 中南大学 一种基于知识图谱的学术圈构建方法
CN111061882A (zh) * 2019-08-19 2020-04-24 广州利科科技有限公司 一种知识图谱构建方法
CN111680498A (zh) * 2020-05-18 2020-09-18 国家基础地理信息中心 实体消歧方法、装置、存储介质及计算机设备
CN112784121A (zh) * 2021-01-28 2021-05-11 浙江工业大学 一种基于时空图表示学习的交通事故预测方法
CN113051440A (zh) * 2021-04-12 2021-06-29 北京理工大学 一种基于超图结构的链路预测方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LI ZHANG等: "Aggregating large-scale databases for PubMed author name disambiguation", 《JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION》 *
MOHANNAD ALMOUSA等: "A Novel Word Sense Disambiguation Approach Using WordNet Knowledge Graph", 《ARXIV》 *
叶子等: "融合预训练模型的中文知识图谱问题生成方法", 《小型微型计算机系统》 *
张延星等: "基于知识图谱词义消歧的文本聚类方法", 《华北理工大学学报(自然科学版)》 *
曾维新等: "面向领域的命名实体消歧方法改进研究", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868438A (zh) * 2021-11-30 2021-12-31 平安科技(深圳)有限公司 信息可信度的校准方法、装置、计算机设备及存储介质
CN113868438B (zh) * 2021-11-30 2022-03-04 平安科技(深圳)有限公司 信息可信度的校准方法、装置、计算机设备及存储介质
CN114422267A (zh) * 2022-03-03 2022-04-29 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN114422267B (zh) * 2022-03-03 2024-02-06 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN114491084A (zh) * 2022-04-12 2022-05-13 平安科技(深圳)有限公司 基于自编码器的关系网络信息挖掘方法、装置及设备

Also Published As

Publication number Publication date
CN113554175B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
Foti et al. Nonparametric sparsification of complex multiscale networks
CN107040397B (zh) 一种业务参数获取方法及装置
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
CN115293919B (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
CN114565196B (zh) 基于政务热线的多事件趋势预判方法、装置、设备及介质
CN114491084B (zh) 基于自编码器的关系网络信息挖掘方法、装置及设备
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
CN112529071A (zh) 一种文本分类方法、系统、计算机设备和存储介质
Smallman et al. Simple Poisson PCA: an algorithm for (sparse) feature extraction with simultaneous dimension determination
CN114880482A (zh) 一种基于图嵌入的关系图谱关键人员分析方法及系统
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
CN112328879B (zh) 新闻推荐方法、装置、终端设备及存储介质
CN114282657A (zh) 一种市场数据长期预测模型训练方法、装置、设备及存储介质
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN114169731A (zh) 一种科研机构评级系统、方法、设备和存储介质
CN113468604A (zh) 基于人工智能的大数据隐私信息解析方法及系统
CN114090869A (zh) 目标对象处理方法、装置、电子设备及存储介质
CN113779248A (zh) 数据分类模型训练方法、数据处理方法及存储介质
CN112509640B (zh) 基因本体项名称生成方法、装置及存储介质
CN111382246A (zh) 文本的匹配方法、匹配装置及终端
CN116975300B (zh) 基于大数据集合的信息挖掘方法及系统
US11829735B2 (en) Artificial intelligence (AI) framework to identify object-relational mapping issues in real-time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant