CN114048322A - 知识图谱的噪声识别方法、装置及计算机可读存储介质 - Google Patents

知识图谱的噪声识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN114048322A
CN114048322A CN202111232854.9A CN202111232854A CN114048322A CN 114048322 A CN114048322 A CN 114048322A CN 202111232854 A CN202111232854 A CN 202111232854A CN 114048322 A CN114048322 A CN 114048322A
Authority
CN
China
Prior art keywords
matrix
noise
graph
sub
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111232854.9A
Other languages
English (en)
Inventor
杜星波
陈滢
高鹏飞
郑建宾
赵金涛
吕楠
李幸
魏子朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202111232854.9A priority Critical patent/CN114048322A/zh
Publication of CN114048322A publication Critical patent/CN114048322A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)

Abstract

本申请提供了一种知识图谱的噪声识别方法、装置及计算机可读存储介质,其中该方法包括:将知识图谱拆分成多个子图谱,其中,子图谱与知识图谱中连接关系的关系类型一一对应,子图谱包含知识图谱全部节点;将每个子图谱转换成一个邻接矩阵,将各邻接矩阵分别输入预设的鲁棒主成分分析模型,得到各邻接矩阵对应的低秩矩阵和稀疏矩阵,其中,各邻接矩阵中元素的坐标与知识图谱中节点编号的对应关系是一致的,低秩矩阵表示对应子图谱中正确的连接关系,稀疏矩阵表示对应子图谱中的潜在噪声边;将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据噪声矩阵中各元素的数值确定知识图谱中的噪声边。该方法能够有效识别知识图谱中的噪声,可解释性强。

Description

知识图谱的噪声识别方法、装置及计算机可读存储介质
技术领域
本申请属于知识图谱领域,具体涉及一种知识图谱的噪声识别方法、装置及计算机可读存储介质。
背景技术
本部分旨在为本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认其为现有技术。
在很多真实场景的知识图谱中,会不可避免地出现大量的噪声信息。
例如对于社交图谱,好友关系就是一种典型的关系。以微信为例,用户的好友列表中总会存在一些几乎不联系、没共同好友、未来也不太可能会联系的联系人。这些“陌生的好友”就是社交图谱中的噪声。如果微信的运营商需要根据好友关系对用户进行广告推荐,那么这种噪声会干扰推荐模型,反而降低推荐模型的推荐效果。去除这种噪声有助于优化推荐模型的推荐效果。
再例如,对于通信网络图谱,人与人的通话关系构成通信网络图谱中的关系。如果两个从来没通话过的人突然通话了,那么本次通电话涉嫌推销、诈骗的概率也会更大。这些通话关系也可以看作是一种通信网络图谱中的噪声。将这种噪声抽取出来,有助于挖掘潜在的推销、诈骗行为。
上述两个例子中,前者是需要去除知识图谱中的噪声,而后者是对知识图谱中的噪声进行进一步分析。这都需要从知识图谱中识别出噪声。进一步,现有的从知识图谱中识别噪声的方法大多假设知识图谱中的关系是无噪声的,这不符合实际情况。且当前基于分类的知识图谱去噪方法,是依赖于训练集的,一般来说,需要构建一批训练集,用以训练分类器,判别知识图谱中的边是否为噪声,增加了标注成本。
发明内容
针对上述现有技术的问题,本申请实施例提出了一种知识图谱的噪声识别方法、装置及计算机可读存储介质。利用这种方法及装置,能够至少部分解决上述问题。
本申请的实施例中提供了以下方案:一种知识图谱的噪声识别方法,包括:
将知识图谱拆分成多个子图谱,其中,所述子图谱与所述知识图谱中连接关系的关系类型一一对应,所述子图谱包含所述知识图谱全部节点;
将每个子图谱转换成一个邻接矩阵,将各邻接矩阵分别输入预设的鲁棒主成分分析模型,得到各邻接矩阵对应的低秩矩阵和稀疏矩阵,其中,各邻接矩阵中元素的坐标与所述知识图谱中节点编号的对应关系是一致的,所述低秩矩阵表示对应子图谱中正确的连接关系,所述稀疏矩阵表示对应子图谱中的潜在噪声边;
将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据所述噪声矩阵中各元素的数值确定所述知识图谱中的噪声边。
本申请的实施例中提供了以下方案:一种知识图谱的噪声识别装置,包括:
图谱拆分模块,用于将知识图谱拆分成多个子图谱,其中,所述子图谱与所述知识图谱中连接关系的关系类型一一对应,所述子图谱包含所述知识图谱全部节点;
矩阵分解模块,用于将每个子图谱转换成一个邻接矩阵,将各邻接矩阵分别输入预设的鲁棒主成分分析模型,得到各邻接矩阵对应的低秩矩阵和稀疏矩阵,其中,各邻接矩阵中元素的坐标与所述知识图谱中节点编号的对应关系是一致的,所述低秩矩阵表示对应子图谱中正确的连接关系,所述稀疏矩阵表示对应子图谱中的潜在噪声边;
噪声边筛选模块,用于将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据所述噪声矩阵中各元素的数值确定所述知识图谱中的噪声边。
本申请的实施例中提供了以下方案:一种知识图谱的噪声识别装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:前述的知识图谱的噪声识别方法。
本申请的实施例中提供了以下方案:一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行:前述的知识图谱的噪声识别方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:1、本申请提出的技术方案认为知识图谱中噪声是客观存在的,符合真实场景。2、本申请提出的技术方案与现有技术中依赖训练集的基于分类的知识图谱去噪方法不同,是不依赖于训练数据集的,识别结果具有更强的可信度和一致性。3、本申请提出的技术方案考虑全局去噪效果,该方法具有很强的可解释性。
应当理解,上述说明仅是本申请技术方案的概述,以便能够更清楚地了解本申请的技术手段,从而可依照说明书的内容予以实施。为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本申请的具体实施方式。
附图说明
通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的标号表示相同的部件。
图1为根据本申请一实施例的知识图谱的噪声识别方法的流程示意图。
图2为根据本申请一实施例的知识图谱的噪声识别方法的数值化实例。
图3为根据本申请一实施例的知识图谱的噪声识别装置的结构示意图。
图4为根据本申请另一实施例的知识图谱的噪声识别装置的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本申请中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为根据本申请一实施例的知识图谱的噪声识别方法的流程示意图,该方法用于,在该流程中,从设备角度而言,执行主体可以是一个或者多个电子设备,更具体地可以是其中的处理模块;从程序角度而言,执行主体相应地可以是搭载于这些电子设备上的程序。
图1中的流程可以包括以下步骤101~步骤103。
步骤101、将知识图谱拆分成多个子图谱,其中,所述子图谱与所述知识图谱中连接关系的关系类型一一对应,所述子图谱包含所述知识图谱全部节点。
换言之,子图谱保留原始的知识图谱的节点信息,并且仅体现原始的知识图谱的一种类型的连接关系。
举例而言,在一个知识图谱中存在两类连接关系,一类连接关系是银行卡在商户的消费行为,拆分为子图谱A;另一类连接关系是银行卡与银行卡的转账行为,拆分为子图谱B。
由于一个子图谱只包含一种连接类型的连接关系,子图谱中可能会出现孤立的节点。
步骤102、将每个子图谱转换成一个邻接矩阵,将各邻接矩阵分别输入预设的鲁棒主成分分析模型,得到各邻接矩阵对应的低秩矩阵和稀疏矩阵,其中,各邻接矩阵中元素的坐标与所述知识图谱中节点编号的对应关系是一致的,所述低秩矩阵表示对应子图谱中正确的连接关系。所述稀疏矩阵表示对应子图谱中的潜在噪声边。
该步骤中,认为知识图谱中大概率存在噪声边,并利用鲁棒主成分分析模型从每个子图谱中挑选出潜在噪声边。虽然稀疏矩阵有一定的几率为全0矩阵,但实际场景中,这种几率是很低的。
步骤103、将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据所述噪声矩阵中各元素的数值确定所述知识图谱中的噪声边。
如果两个节点之前多次出现异常的连接关系(即潜在噪声边),那么这两个节点之间的关系异常的概率也会更大。故需要对这些潜在的异常连接关系进行统计分析,能够更准确地找出真正异常的连接关系。
对于一个确定的场景,不同连接类型的异常连接关系应当是具有不同的重要性的。在筛选噪声边时,对全部节点之间的全部类型的潜在噪声边所表达的信息进行综合评价。
如此,本申请提出的技术方案认为知识图谱中噪声是客观存在的,符合真实场景。现有的知识图谱构建技术,一般需要构建一批训练集,用以训练分类器,判别知识图谱中的边是否为噪声,而本申请提出的技术方案不依赖于训练数据集,识别结果具有更强的可信度和一致性。本申请提出的技术方案考虑全局去噪效果,将最初的知识图谱的邻接矩阵拆分为一个低秩矩阵和稀疏矩阵,即去噪后的邻接矩阵和噪声矩阵,拆分的过程一方面是对原邻接矩阵的去噪过程,有助于提升知识图谱的生成质量,另一方面也是噪声矩阵的识别过程,能够快速且精准地识别原知识图谱中的异常关系,该方法具有很强的可解释性。
基于图1的知识图谱的噪声识别方法,本申请的一些实施例还提供了该知识图谱的噪声识别方法的一些具体实施方案,以及扩展方案,下面结合图2进行说明。图2所示的两个子图谱均为无向图。
首先根据多个数据源构建知识图谱G=(V,E),其中V是知识图谱的点集,E是知识图谱的边集。对于任意两个节点v1,v2∈V,若它们存在某种关系r,则(v1,v2,r)∈E。在图2中共存在有两种关系,分别用两种不同线型(实线和虚线)表示。
随后对每种关系r分别计算对应的邻接矩阵Xr。例如在图2中,两种关系所表示的子图谱的邻接矩阵分别为:
Figure BDA0003316697420000051
Figure BDA0003316697420000052
在每个邻接矩阵中,第i行第j列为1,则表示知识图谱中第i个节点与第j个节点相连。当然,第i个节点与第j个节点的连接也可以是有赋值的。
该方法认为知识图谱中大概率是含有噪声的。邻接矩阵,例如是邻接矩阵X1,可以拆分为一个低秩矩阵L1和一个稀疏矩阵S1的和。由于稀疏矩阵和低秩矩阵都是对无向的子图谱的描述,故它们与自身的转置矩阵应当是相等的。
低秩矩阵L1就是去噪后的邻接矩阵。它的低秩性体现出节点间具有较强的相关性。例如图2中邻接矩阵X1所对应的子图谱中,节点1、2、3都是相连的,而节点4只与其中的节点3相连,那么很明显地,节点4与其它节点的相关性远没有节点1、2、3之间那么强。因此如果去除节点3和节点4的关系,会使邻接矩阵X1的整体的秩降低。通过计算得到,邻接矩阵X1的秩为3,邻接矩阵L1的秩为2。通过去除节点3和节点4的关系(噪声),能使邻接矩阵的秩降低1。
上述方法认为知识图谱中只有少量关系存在异常,故矩阵S1是一个稀疏矩阵。
噪声剥离的目标就是:
Figure BDA0003316697420000053
其中λ是用于控制S1稀疏性的惩罚因子,例如λ=0.01。rank(L1)表示矩阵L1的秩,||S1||0表示矩阵S1的l0范数,也就是矩阵S1中非零元素的个数。s.t.后的内容表示约束条件。但是上述公式是非凸的,难以进行优化。因此考虑用核范数||L1||*和L1范数||S1||1来分别对原目标中的rank(L1)和||S1||0进行松弛。新的目标表示为:
Figure BDA0003316697420000054
其中
Figure BDA0003316697420000055
也是矩阵L1的特征值的和,tr(·)表示矩阵的迹(对角线之和)。||S1||1是矩阵S1中所有元素的和。
采用拉格朗日乘子法(也可替换为迭代阈值方法、加速近端梯度方法、或交替方向法)优化上式,得到最终的矩阵L1和矩阵S1
对将矩阵X2拆分成L2和S2的方法与前例是相同的。
矩阵S1和矩阵S2表示的对应子图谱中的边为潜在噪声边。需要在后续步骤中进行进一步确认。
以上举例中两个子图谱均为无向图,故去噪之后得到的低秩矩阵也是无向图的数学表达,故需要增加约束条件矩阵L等于其转置矩阵,矩阵S等于其转置矩阵。如果某个子图谱为有向图,则没有该约束。
最后将各稀疏矩阵进行加权求和。例如计算
Figure BDA0003316697420000061
αi是每种关系对应的稀疏矩阵Si的权重,代表该关系对于异常判断的重要性;r表示关系类型的总数。一般地,
Figure BDA0003316697420000062
例如,在图2所示的例子中,S′=α1S12S2。例如令α1=α2=0.5(即两种类型的关系重要性是等同的),则
Figure BDA0003316697420000063
设定筛选阈值δ,当S′ij>δ时,认为第i个节点与第j个节点相连的边为噪声边,否则为正常边。在上式中,例如取δ=0.2,则节点1与节点4、节点3与节点4所连的边为噪声边。
以下提供噪声合并的两个具体示例。
在飞码场景中,存在这样一种情况:一张北京线下的商户收款码,被传到了网上。一位在上海的消费者通过该收款码进行消费,则构成了飞码异常。该场景中,定义节点是银行卡和商户,定义关系是银行卡在商户消费的行为、银行卡与银行卡的转账行为。则上述两种关系可分别表示为两个邻接矩阵X1和X2,通过前述方法步骤可将两个邻接矩阵拆解为X1=L1+S1和X2=L2+S2
在该场景中,如果不存在任何预知信息,我们根据经验认为消费行为比转账行为更重要,于是为两者分别赋予权重0.8和0.2。那么最终合并后的噪声矩阵为S′=0.8×S1+0.2×S2
在该场景中,如果已经预知一部分异常关系,则令S′=α1×S1+(1-α1)×S2,对α1和筛选阈值δ采用网格搜索的方法,找到令最终判断结果最优的α1和δ。
在电信诈骗场景中,定义节点是个人,定义关系是人与人的转账关系和通话关系。则上述两种关系可分别表示为两个邻接矩阵X3和X4。通过前述方法步骤可将这两个邻接矩阵拆解为X3=L3+S3和X4=L4+S4
在该场景中,如果不存在任何预知信息,我们根据经验认为转账关系比通话关系稍重要一些,于是我们为两者分别赋予权重0.4和0.6。那么最终合并后的噪声矩阵为S”=0.4×S3+0.6×S4
在该场景中,如果已经预知一部分异常关系,则令S”=α3×S3+(1-α3)×S4,对比例系数α3和筛选阈值δ采用网格搜索的方法,找到令最终判断结果最优的α3和δ。
当然,对比例系数和筛选阈值的搜索方式也可以是其他的方法,例如是梯度下降法。虽然不能确保得到最优的搜索结果,但至少能够得到相对较佳的搜索结果。当然,子图谱的数量可以多于2个。
基于相同的技术构思,本申请实施例还提供一种知识图谱的噪声识别装置,用于执行上述任一实施例所提供的知识图谱的噪声识别方法。图3为本申请实施例提供的一种知识图谱的噪声识别装置结构示意图。
如图3所示,知识图谱的噪声识别装置包括:
图谱拆分模块1,用于将知识图谱拆分成多个子图谱,其中,所述子图谱与所述知识图谱中连接关系的关系类型一一对应,所述子图谱包含所述知识图谱全部节点;
矩阵分解模块2,用于将每个子图谱转换成一个邻接矩阵,将各邻接矩阵分别输入预设的鲁棒主成分分析模型,得到各邻接矩阵对应的低秩矩阵和稀疏矩阵,其中,各邻接矩阵中元素的坐标与所述知识图谱中节点编号的对应关系是一致的,所述低秩矩阵表示对应子图谱中正确的连接关系,所述稀疏矩阵表示对应子图谱中的潜在噪声边;
噪声边筛选模块3,用于将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据所述噪声矩阵中各元素的数值确定所述知识图谱中的噪声边。
在一些实施例中,所述鲁棒主成分分析模型为:
Figure BDA0003316697420000071
其中,X表示所述邻接矩阵,L表示邻接矩阵X拆分出的低秩矩阵,S表示邻接矩阵X拆分出的稀疏矩阵,s.t.后的内容表示约束条件,||L||*表示L的核范数,||S||1表示S的L1范数,λ为惩罚因子,
Figure BDA0003316697420000072
表示使得||L||*+λ||S||1最小时的L和S。
在一些实施例中,在所述子图谱为无向图的情况下,所述鲁棒主成分分析模型还存在约束条件:矩阵L与矩阵L的转置矩阵相等,矩阵S与矩阵S的转置矩阵相等。
在一些实施例中,所述鲁棒主成分分析模型采用拉格朗日乘子法、迭代阈值方法、加速近端梯度方法、或交替方向法进行最优解搜索。
在一些实施例中,所述噪声边筛选模块3具体用于:按照预设比例系数对全部稀疏矩阵进行加权求和,将得到的噪声矩阵中元素的数值大于设定筛选阈值的元素对应的连接关系作为噪声边。
在一些实施例中,所述噪声边筛选模块3具体用于:对比例系数和筛选阈值进行搜索,以使得根据所述噪声矩阵得到的噪声边与预先已知的噪声边相符,其中,每次搜索操作中,按照当前比例系数对全部稀疏矩阵进行加权求和,将当前噪声矩阵中元素的数值大于当前筛选阈值的元素对应的连接关系作为噪声边。
需要说明的是,本申请实施例中的装置可以实现前述方法的实施例的各个过程,并达到相同的效果和功能,这里不再赘述。
图4为根据本申请一实施例的知识图谱的噪声识别装置,用于执行图1所示出的知识图谱的噪声识别方法,该知识图谱的噪声识别装置包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:前述知识图谱的噪声识别方法。
根据本申请的一些实施例,提供了非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行:前述知识图谱的噪声识别方法。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。
本申请实施例提供的装置和计算机可读存储介质与方法是一一对应的,因此,装置和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置和计算机可读存储介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (14)

1.一种知识图谱的噪声识别方法,其特征在于,包括:
将知识图谱拆分成多个子图谱,其中,所述子图谱与所述知识图谱中连接关系的关系类型一一对应,所述子图谱包含所述知识图谱全部节点;
将每个子图谱转换成一个邻接矩阵,将各邻接矩阵分别输入预设的鲁棒主成分分析模型,得到各邻接矩阵对应的低秩矩阵和稀疏矩阵,其中,各邻接矩阵中元素的坐标与所述知识图谱中节点编号的对应关系是一致的,所述低秩矩阵表示对应子图谱中正确的连接关系,所述稀疏矩阵表示对应子图谱中的潜在噪声边;
将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据所述噪声矩阵中各元素的数值确定所述知识图谱中的噪声边。
2.根据权利要求1所述的方法,其特征在于,所述鲁棒主成分分析模型为:
Figure FDA0003316697410000011
其中,X表示所述邻接矩阵,L表示邻接矩阵X拆分出的低秩矩阵,S表示邻接矩阵X拆分出的稀疏矩阵,s.t.后的内容表示约束条件,‖L‖*表示L的核范数,‖S‖1表示S的L1范数,λ为惩罚因子,
Figure FDA0003316697410000012
表示使得‖L‖*+λ‖S‖1最小时的L和S。
3.根据权利要求2所述的方法,其特征在于,所述鲁棒主成分分析模型采用拉格朗日乘子法、迭代阈值方法、加速近端梯度方法、或交替方向法进行最优解搜索。
4.根据权利要求2所述的方法,其特征在于,在所述子图谱为无向图的情况下,所述鲁棒主成分分析模型还存在约束条件:矩阵L等于其转置矩阵,矩阵S等于其转置矩阵。
5.根据权利要求1所述的方法,其特征在于,将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据所述噪声矩阵中各元素的数值确定所述知识图谱中的噪声边,包括:
按照预设比例系数对全部稀疏矩阵进行加权求和,将得到的噪声矩阵中元素的数值大于设定筛选阈值的元素对应的连接关系作为噪声边。
6.根据权利要求1所述的方法,其特征在于,将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据所述噪声矩阵中各元素的数值确定所述知识图谱中的噪声边,包括:
对比例系数和筛选阈值进行搜索,以使得根据所述噪声矩阵得到的噪声边与预先已知的噪声边相符,其中,每次搜索操作中,按照当前比例系数对全部稀疏矩阵进行加权求和,将当前噪声矩阵中元素的数值大于当前筛选阈值的元素对应的连接关系作为噪声边。
7.一种知识图谱的噪声识别装置,其特征在于,包括:
图谱拆分模块,用于将知识图谱拆分成多个子图谱,其中,所述子图谱与所述知识图谱中连接关系的关系类型一一对应,所述子图谱包含所述知识图谱全部节点;
矩阵分解模块,用于将每个子图谱转换成一个邻接矩阵,将各邻接矩阵分别输入预设的鲁棒主成分分析模型,得到各邻接矩阵对应的低秩矩阵和稀疏矩阵,其中,各邻接矩阵中元素的坐标与所述知识图谱中节点编号的对应关系是一致的,所述低秩矩阵表示对应子图谱中正确的连接关系,所述稀疏矩阵表示对应子图谱中的潜在噪声边;
噪声边筛选模块,用于将全部稀疏矩阵进行加权求和,得到噪声矩阵,并根据所述噪声矩阵中各元素的数值确定所述知识图谱中的噪声边。
8.根据权利要求7所述的装置,其特征在于,所述鲁棒主成分分析模型为:
Figure FDA0003316697410000021
其中,X表示所述邻接矩阵,L表示邻接矩阵X拆分出的低秩矩阵,S表示邻接矩阵X拆分出的稀疏矩阵,s.t.后的内容表示约束条件,‖L‖*表示L的核范数,‖S‖1表示S的L1范数,λ为惩罚因子,
Figure FDA0003316697410000022
表示使得‖L‖*+λ‖S‖1最小时的L和S。
9.根据权利要求8所述的装置,其特征在于,所述鲁棒主成分分析模型采用拉格朗日乘子法、迭代阈值方法、加速近端梯度方法、或交替方向法进行最优解搜索。
10.根据权利要求8所述的装置,其特征在于,在所述子图谱为无向图的情况下,所述鲁棒主成分分析模型还存在约束条件:矩阵L等于其转置矩阵,矩阵S等于其转置矩阵。
11.根据权利要求7所述的装置,其特征在于,所述噪声边筛选模块具体用于:
按照预设比例系数对全部稀疏矩阵进行加权求和,将得到的噪声矩阵中元素的数值大于设定筛选阈值的元素对应的连接关系作为噪声边。
12.根据权利要求7所述的装置,其特征在于,所述噪声边筛选模块具体用于:
对比例系数和筛选阈值进行搜索,以使得根据所述噪声矩阵得到的噪声边与预先已知的噪声边相符,其中,每次搜索操作中,按照当前比例系数对全部稀疏矩阵进行加权求和,将当前噪声矩阵中元素的数值大于当前筛选阈值的元素对应的连接关系作为噪声边。
13.一种知识图谱的噪声识别装置,其特征在于,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:根据权利要求1至6中任一项所述的知识图谱的噪声识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行:根据权利要求1至6中任一项所述的知识图谱的噪声识别方法。
CN202111232854.9A 2021-10-22 2021-10-22 知识图谱的噪声识别方法、装置及计算机可读存储介质 Pending CN114048322A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111232854.9A CN114048322A (zh) 2021-10-22 2021-10-22 知识图谱的噪声识别方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111232854.9A CN114048322A (zh) 2021-10-22 2021-10-22 知识图谱的噪声识别方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114048322A true CN114048322A (zh) 2022-02-15

Family

ID=80205921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111232854.9A Pending CN114048322A (zh) 2021-10-22 2021-10-22 知识图谱的噪声识别方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114048322A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115712734A (zh) * 2022-11-21 2023-02-24 之江实验室 一种基于元学习的稀疏知识图谱嵌入方法和装置
WO2023165264A1 (zh) * 2022-03-02 2023-09-07 支付宝(杭州)信息技术有限公司 数据存储方法及装置、数据读取方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165264A1 (zh) * 2022-03-02 2023-09-07 支付宝(杭州)信息技术有限公司 数据存储方法及装置、数据读取方法及装置
CN115712734A (zh) * 2022-11-21 2023-02-24 之江实验室 一种基于元学习的稀疏知识图谱嵌入方法和装置
CN115712734B (zh) * 2022-11-21 2023-10-03 之江实验室 一种基于元学习的稀疏知识图谱嵌入方法和装置

Similar Documents

Publication Publication Date Title
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN114048322A (zh) 知识图谱的噪声识别方法、装置及计算机可读存储介质
CN111461164B (zh) 样本数据集的扩容方法及模型的训练方法
CN110321493B (zh) 一种社交网络的异常检测与优化方法、系统及计算机设备
CN109685805B (zh) 一种图像分割方法及装置
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN113610552A (zh) 一种用户流失预测方法及装置
CN111242319A (zh) 模型预测结果的解释方法和装置
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN114443958A (zh) 一种推荐方法、推荐系统及推荐系统训练方法
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN110633735B (zh) 基于小波变换的渐进式深度卷积网络图像识别方法及装置
CN116993513A (zh) 金融风控模型解释方法、装置及计算机设备
CN111353577B (zh) 基于多任务的级联组合模型的优化方法、装置及终端设备
CN111985624A (zh) 神经网络训练和部署方法、文本翻译方法及相关产品
CN110929285A (zh) 一种隐私数据的处理方法及装置
CN111507461A (zh) 可解释性信息确定方法及装置
CN111859057B (zh) 数据特征处理方法及数据特征处理装置
CN114797113A (zh) 基于图卷积的资源预测方法及装置
CN111027670B (zh) 特征图处理方法、装置、电子设备及存储介质
CN112417866A (zh) 一种分词推荐值的确定方法、装置、电子设备及存储介质
CN112036418A (zh) 用于提取用户特征的方法和装置
CN111429215B (zh) 数据的处理方法和装置
CN111539490B (zh) 一种业务模型训练方法和装置
Bhatkoti et al. The Appropriateness of k-Sparse Autoencoders in Sparse Coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination