CN110502568B - 用于数据挖掘的实体关系计算方法以及装置、存储介质 - Google Patents

用于数据挖掘的实体关系计算方法以及装置、存储介质 Download PDF

Info

Publication number
CN110502568B
CN110502568B CN201910742017.7A CN201910742017A CN110502568B CN 110502568 B CN110502568 B CN 110502568B CN 201910742017 A CN201910742017 A CN 201910742017A CN 110502568 B CN110502568 B CN 110502568B
Authority
CN
China
Prior art keywords
relationship
function
entity
propagation model
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910742017.7A
Other languages
English (en)
Other versions
CN110502568A (zh
Inventor
肖鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuhe Information Technology Co Ltd
Original Assignee
Shanghai Shuhe Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuhe Information Technology Co Ltd filed Critical Shanghai Shuhe Information Technology Co Ltd
Priority to CN201910742017.7A priority Critical patent/CN110502568B/zh
Publication of CN110502568A publication Critical patent/CN110502568A/zh
Application granted granted Critical
Publication of CN110502568B publication Critical patent/CN110502568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于数据挖掘的实体关系计算方法以及装置、存储介质。该方法包括基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵;将所述关系矩阵输入预设图传播模型进行训练;通过梯度提升动态更新所述关系权重;将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果。本申请解决了相关技术中图结构数据的挖掘方法由于无法动态学习到实体之间的关系权重造成的实体关系计算不精确的技术问题。通过本申请的技术方案,达到了动态更新关系权重的目的,从而实现了精确计算实体之间的关系的技术效果。

Description

用于数据挖掘的实体关系计算方法以及装置、存储介质
技术领域
本申请涉及机器学习领域,具体而言,涉及一种用于数据挖掘的实体关系计算方法、装置及存储介质。
背景技术
图结构的数据属于非结构化的数据,存在比较难以挖掘和使用的特点。
相关技术中的图结构数据的挖掘方法有PageRank(网页级别)、TrustRank(信任指数)、Graph Embedding(图嵌入)等算法,PageRank算法是谷歌排名运算法则(排名公式)的一部分,是谷歌用于根据网站的外部链接和内部链接的数量和质量来衡量网站的价值/等级/重要性的一种方法。Trust Rank算法采用人工和机器连接分析相结合的方式,通过人工方式可以先确定一批站点的TrustRank值,再通过机器的连接结构分析来确定互联网上其他站点TrustRank值,然后以TrustRank值的高低来做为网页排名的一个重要依据。
发明人发现,相关技术中图结构数据的挖掘方法主要是基于边上权重固定或预定义权重之后进行计算,无法动态学习到点与点之间的关系权重。
针对相关技术中图结构数据的挖掘方法无法动态学习到实体之间的关系权重的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于数据挖掘的实体关系计算方法以及装置、存储介质,以解决相关技术中图结构数据的挖掘方法无法动态学习到实体之间的关系权重问题。
为了实现上述目的,根据本申请的第一方面,提供了一种用于数据挖掘的实体关系计算方法。
根据本申请的用于数据挖掘的实体关系计算方法包括:基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵;将所述关系矩阵输入预设图传播模型进行训练;通过梯度提升动态更新所述关系权重;将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果。
进一步地,将所述关系矩阵输入预设图传播模型进行训练之前还包括:确定用于训练所述预设图传播模型的样本集;按照预设规则对所述样本集进行赋值;将赋值后的所述样本集输入预设图传播模型进行训练。
进一步地,所述预设图传播模型采用如下公式计算:
Figure BDA0002160308780000021
其中,
Figure BDA0002160308780000022
代表第t+1轮迭代后实体的评分向量,
Figure BDA0002160308780000023
代表第t轮实体的评分向量,
Figure BDA0002160308780000024
代表实体的初始评分向量,E为实体之间的关系矩阵值,0<α<1,且α为常数。
进一步地,通过梯度提升动态更新所述关系权重包括:构建AUC函数的等价函数W,所述等价函数W采用如下公式计算:
Figure BDA0002160308780000025
其中,
Figure BDA0002160308780000026
其中,所述样本集包括正样本和负样本,xi为所述正样本的图传播模型评分,m为正样本的数量,yj为所述负样本的图传播模型评分,n为负样本的数量;由于I为分段函数不可导,将所述分段函数I替换为S型函数,所述S型函数采用如下公式计算:
Figure BDA0002160308780000027
其中,K为常数;根据所述等价函数W和所述S型函数推导得出所述AUC函数,所述AUC函数采用如下公式计算:
Figure BDA0002160308780000028
进一步地,所述实体之间的关系矩阵采用如下公式计算:Eij=w*Xij,其中,Eij代表实体i与实体j之间的关系矩阵值,w为关系权重向量,Xij为实体i与实体j之间的关系向量;通过梯度提升动态更新所述关系权重还包括:将所述AUC函数对所述关系权重向量w中的第p个值求导,求导函数采用如下公式计算:
Figure BDA0002160308780000031
根据所述求导函数的求导结果对所述关系权重向量w进行动态更新。
进一步地,所述求导函数中的
Figure BDA0002160308780000032
Figure BDA0002160308780000033
分别采用如下公式计算:
Figure BDA0002160308780000034
其中,Xki(p)代表第k个实体和第i个实体之间的关系向量X的第p个值,Xkj(p)代表第k个实体和第j个实体之间的关系向量X的第p个值。
进一步地,所述通过梯度提升动态更新所述关系权重采用如下公式计算:
Figure BDA0002160308780000035
其中,wp'代表更新后的关系权重,η为大于0的常数。
进一步地,在通过梯度提升动态更新所述关系权重之后还包括:当
Figure BDA0002160308780000036
低于预设阈值时,停止对所述关系权重wp的更新,将停止更新后的所述关系权重wp'输入所述预设图传播模型;根据所述预设图传播模型的输出结果得到所述实体的评分向量。
为了实现上述目的,根据本申请的第二方面,提供了一种用于数据挖掘的实体关系计算装置。
根据本申请的用于数据挖掘的实体关系计算装置包括:构建模块,用于基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵;训练模块,用于将所述关系矩阵输入预设图传播模型进行训练;更新模块,用于通过梯度提升动态更新所述关系权重;输出模块,用于将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果。
为了实现上述目的,根据本申请的第三方面,提供了一种计算机可读存储介质。
根据本申请的计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如上任一项所述方法的步骤。
在本申请实施例中,采用基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵的方式,通过将所述关系矩阵输入预设图传播模型进行训练,并通过梯度提升动态更新所述关系权重,将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果,达到了动态更新关系权重的目的,从而实现了精确计算实体之间的关系的技术效果,进而解决了相关技术中图结构数据的挖掘方法由于无法动态学习到实体之间的关系权重造成的实体关系计算不精确的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的用于数据挖掘的实体关系计算方法的流程示意图;
图2是根据本申请第二实施例的用于数据挖掘的实体关系计算方法的流程示意图;
图3是根据本申请第一实施例的用于数据挖掘的实体关系计算装置的组成结构示意图;以及
图4是根据本申请第二实施例的用于数据挖掘的实体关系计算装置的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种用于数据挖掘的实体关系计算方法,如图1所示,该方法包括如下的步骤S101至步骤S104:
步骤S101,基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵。
具体实施时,本申请实施例中的实体可以是用户,也可以是其他实体如设备、城市等,任何具有ID的实体都在本申请的保护范围之内,在此不做具体限定。例如当实体为用户时,在人际关系图谱中,每个用户将作为顶点,用户之间的社交关系将作为边。用户之间可以抽象出关系向量及对应的关系权重,通过定义关系向量及关系权重之间的关系构建出用户之间的关系矩阵。
步骤S102,将所述关系矩阵输入预设图传播模型进行训练。
具体实施时,本申请实施例中的预设图传播模型可以是Page Rank算法或TrustRank算法等,优选地,采用Trust Rank算法作为本申请的预设图传播模型,将上述基于实体之间的关系向量和关系权重构建得到的实体之间的关系矩阵输入Trust Rank模型进行训练。
步骤S103,通过梯度提升动态更新所述关系权重。
具体实施时,相关技术中的一些图传播方法,如Page Rank、Trust Rank、GraphEmbedding等都是基于边上权重固定或预定义权重之后,进行关系计算,无法动态学习到点与点之间的关系权重,因此本申请优选采用梯度提升(Gradient Boosting)的方式对实体之间的关系权重进行动态更新,更加准确地计算实体之间的关系权重。
步骤S104,将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果。
具体实施时,将上述通过梯度提升方式动态更新后的关系权重重新输入到预设的图传播模型如Trust Rank模型中,进而得到Trust Rank算法最终的输出结果。
作为本申请实施例的一种优选实施方式,如图2所示,步骤S102将所述关系矩阵输入预设图传播模型进行训练之前还包括如下的步骤S201至步骤S203:
步骤S201,确定用于训练所述预设图传播模型的样本集。
具体实施时,本申请实施例可以应用到不同场景中,例如金融领域用户借款逾期风险的预测,基于现有的金融风险标签确定用于训练Trust Rank模型的样本集,优选地,可以将有逾期风险的用户按一定比例分为基础数据集、训练数据集以及测试数据集。
步骤S202,按照预设规则对所述样本集进行赋值。
具体实施时,对上述样本集中的不同数据集按照预设规则进行赋值,所述预设规则可以是将基础集风险权重赋值为1,训练集风险权重赋值为0,从而得到所有用户的初始风险分数向量。
步骤S203,将赋值后的所述样本集输入预设图传播模型进行训练。
具体实施时,基于用户之间的关系向量与关系权重构建的关系矩阵,将赋值后的上述样本集输入Trust Rank算法中进行t轮迭代,其中上述关系权重进行随机初始化,进而计算得到所有用户的风险评分。
作为本申请实施例的一种优选实施方式,所述预设图传播模型采用如下公式计算:
Figure BDA0002160308780000071
其中,
Figure BDA0002160308780000072
代表第t+1轮迭代后实体的评分向量,
Figure BDA0002160308780000073
代表第t轮实体的评分向量,
Figure BDA0002160308780000074
代表实体的初始评分向量,E为实体之间的关系矩阵值,0<α<1,且α为常数。
具体实施时,采用Trust Rank算法作为本申请的预设图传播模型,用来计算第t+1轮迭代后各个实体的评分向量,上述公式是Trust Rank算法的基本计算公式,本领域技术人员能够知晓其含义,在此不做赘述。
作为本申请实施例的一种优选实施方式,通过梯度提升动态更新所述关系权重包括如下的步骤S301至步骤S303:
步骤S301,构建AUC函数的等价函数W,所述等价函数W采用如下公式计算:
Figure BDA0002160308780000075
其中,
Figure BDA0002160308780000076
其中,所述样本集包括正样本和负样本,xi为所述正样本的图传播模型评分,m为正样本的数量,yj为所述负样本的图传播模型评分,n为负样本的数量。
具体实施时,通过AUC目标函数实现对关系权重的动态更新,由于AUC函数无法直接计算,故使用AUC的等价函数Wilcoxon-Mann-Whitney Statistic(简称“W”)表示,上述公式是Wilcoxon-Mann-Whitney的基本计算公式,本领域技术人员能够知晓其含义,在此不做赘述。
步骤S302,将所述分段函数I替换为S型函数,所述S型函数采用如下公式计算:
Figure BDA0002160308780000081
其中,K为常数。
具体实施时,由于上述等价函数W中的函数I为分段函数不可导,优选地,将上述分段函数I替换为S型函数(Sigmoid function),S型函数也称为S型生长曲线,在信息科学中,由于其单增以及反函数单增等性质,S型函数常被用作神经网络的阈值函数,将变量映射到0-1之间。上述公式是S型函数的基本计算公式,本领域技术人员能够知晓其含义,在此不做赘述。
步骤S303,根据所述等价函数W和所述S型函数推导得出所述AUC函数,所述AUC函数采用如下公式计算:
Figure BDA0002160308780000082
具体实施时,将AUC函数和上述等价函数W进行等价计算,并将上述等价函数W中的分段函数I替换为S型函数即推导出了AUC函数的计算公式。
作为本申请实施例的一种优选实施方式,所述实体之间的关系矩阵采用如下公式计算:
Eij=w*Xij
其中,Eij代表实体i与实体j之间的关系矩阵值,w为关系权重向量,Xij为实体i与实体j之间的关系向量。
具体实施时,实体之间的关系权重与关系向量的计算可以采用w*Xij的线性关系进行定义,但不限于这种线性定义方式,任何其他可进行求导的计算方式均涵盖本申请的保护范围内,在此不做具体限定。
优选地,通过梯度提升动态更新所述关系权重还包括:将所述AUC函数对所述关系权重向量w中的第p个值求导,求导函数采用如下公式计算:
Figure BDA0002160308780000091
其中,所述求导函数中的
Figure BDA0002160308780000092
Figure BDA0002160308780000093
分别采用如下公式计算:
Figure BDA0002160308780000094
其中,Xki(p)代表第k个实体和第i个实体之间的关系向量X的第p个值,
Xkj(p)代表第k个实体和第j个实体之间的关系向量X的第p个值。
具体实施时,在通过上述AUC函数的等价函数W和S型函数得到AUC函数的计算公式后,通过将上述AUC函数对所述关系权重向量w中的第p个值进行求导,以考察任一用户的任一关系权重向量的变化量对AUC函数值变化量的影响大小。
优选地,根据所述求导函数的求导结果对所述关系权重向量w进行动态更新,具体地可以采用如下公式计算:
Figure BDA0002160308780000095
其中,wp'代表更新后的关系权重,η为大于0的常数。
具体实施时,基于上述AUC函数对关系权重向量w中的第p个值求导的结果,将求导结果
Figure BDA0002160308780000101
乘以一个预设数值η后,加上实体在上一轮迭代后的关系权重即得到该实体更新后的关系权重,该预设数值η是一个大于0的常数,优选大于0小于1的常数,η的具体取值范围可根据实际情况进行灵活设置,在此不做具体限定。
作为本申请实施例的一种优选实施方式,在通过梯度提升动态更新所述关系权重之后还包括如下的步骤S401至步骤S403:
步骤S401,当
Figure BDA0002160308780000102
低于预设阈值时,停止对所述关系权重wp的更新。
具体实施时,所述预设阈值可以根据实际情况进行灵活设置,例如当
Figure BDA0002160308780000103
的大小无限趋近于0时,说明关系权重向量的变化所能引起的AUC函数值的变化量已经非常小,这样的一个
Figure BDA0002160308780000104
再乘上大于0小于1的常数η后,数值会更小,甚至可以忽略不计,此时说明关系权重向量的变化所能引起的AUC函数值的变化量已经达到极限,关系权重wp的大小基本不会再发生变化,因此可以停止对关系权重wp的更新。
步骤S402,将停止更新后的所述关系权重wp'输入所述预设图传播模型。
步骤S403,根据所述预设图传播模型的输出结果得到所述实体的评分向量。
具体实施时,将最终得到的更新后的所述关系权重wp'再次输入TrustRank模型进行计算以得到各个用户的风险评分向量。
从以上的描述中,可以看出,本发明实现了如下技术效果:采用基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵的方式,通过将所述关系矩阵输入预设图传播模型进行训练,并通过梯度提升动态更新所述关系权重,将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果,达到了动态更新关系权重的目的,从而实现了精确计算实体之间关系的技术效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述用于数据挖掘的实体关系计算方法的计算装置,如图3所示,该装置包括:构建模块1、训练模块2、更新模块3及输出模块4。
本申请实施例的构建模块1,用于基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵。
具体实施时,本申请实施例中的实体可以是用户,也可以是其他实体如设备、城市等,任何具有ID的实体都在本申请的保护范围之内,在此不做具体限定。例如当实体为用户时,在人际关系图谱中,每个用户将作为顶点,用户之间的社交关系将作为边。用户之间可以抽象出关系向量及对应的关系权重,通过构建模块1定义关系向量及关系权重之间的关系构建出用户之间的关系矩阵。
本申请实施例的训练模块2,用于将所述关系矩阵输入预设图传播模型进行训练。
具体实施时,本申请实施例中的预设图传播模型可以是Page Rank算法或TrustRank算法等,优选地,采用Trust Rank算法作为本申请的预设图传播模型,通过训练模块2将上述基于实体之间的关系向量和关系权重构建得到的实体之间的关系矩阵输入TrustRank模型进行训练。
本申请实施例的更新模块3,用于通过梯度提升动态更新所述关系权重。
具体实施时,相关技术中的一些图传播方法,如Page Rank、Trust Rank、GraphEmbedding等都是基于边上权重固定或预定义权重之后,进行关系计算,无法动态学习到点与点之间的关系权重,因此本申请优选通过更新模块3采用梯度提升(Gradient Boosting)的方式对实体之间的关系权重进行动态更新,更加准确地计算实体之间的关系权重。
本申请实施例的输出模块4,用于将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果。
具体实施时,将上述通过梯度提升方式动态更新后的关系权重重新输入到预设的图传播模型如Trust Rank模型中,进而通过输出模块4得到Trust Rank算法最终的输出结果。
作为本申请实施例的一种优选实施方式,如图4所示,该装置还包括:确定模块5、赋值模块6及第一输入模块7。
本申请实施例的确定模块5,用于训练所述预设图传播模型的样本集,优选地,所述预设图传播模型采用如下公式计算:
Figure BDA0002160308780000121
其中,
Figure BDA0002160308780000122
代表第t+1轮迭代后实体的评分向量,
Figure BDA0002160308780000123
代表第t轮实体的评分向量,
Figure BDA0002160308780000124
代表实体的初始评分向量,E为实体之间的关系矩阵值,0<α<1,且α为常数。
具体实施时,本申请实施例可以应用到不同场景中,例如金融领域用户借款逾期风险的预测,基于现有的金融风险标签确定用于训练Trust Rank模型的样本集,优选地,可以通过确定模块5将有逾期风险的用户按一定比例分为基础数据集、训练数据集以及测试数据集。
本申请实施例的赋值模块6,按照预设规则对所述样本集进行赋值。
具体实施时,通过赋值模块6对上述样本集中的不同数据集按照预设规则进行赋值,所述预设规则可以是将基础集风险权重赋值为1,训练集风险权重赋值为0,从而得到所有用户的初始风险分数向量。
本申请实施例的输入模块7,将赋值后的所述样本集输入预设图传播模型进行训练。
具体实施时,基于用户之间的关系向量与关系权重构建的关系矩阵,通过输入模块7将赋值后的上述样本集输入Trust Rank算法中进行t轮迭代,其中上述关系权重进行随机初始化,进而计算得到所有用户的风险评分。
作为本申请实施例的一种优选实施方式,所述更新模块3包括:构建单元、替换单元及推导单元。
本申请实施例的构建单元,用于构建AUC函数的等价函数W,所述等价函数W采用如下公式计算:
Figure BDA0002160308780000131
其中,
Figure BDA0002160308780000132
其中,所述样本集包括正样本和负样本,xi为所述正样本的图传播模型评分,m为正样本的数量,yj为所述负样本的图传播模型评分,n为负样本的数量。
具体实施时,通过AUC目标函数实现对关系权重的动态更新,由于AUC函数无法直接计算,故使用AUC的等价函数Wilcoxon-Mann-Whitney Statistic(简称“W”)表示。
由于I为分段函数不可导,本申请实施例的替换单元,用于将所述分段函数I替换为S型函数,所述S型函数采用如下公式计算:
Figure BDA0002160308780000133
其中,K为常数。
具体实施时,由于上述等价函数W中的函数I为分段函数不可导,优选地,通过替换单元将上述分段函数I替换为S型函数(Sigmoid function)。
本申请实施例的推导单元,用于根据所述等价函数W和所述S型函数推导得出所述AUC函数,所述AUC函数采用如下公式计算:
Figure BDA0002160308780000141
具体实施时,通过推导单元将AUC函数和上述等价函数W进行等价计算,并将上述等价函数W中的分段函数I替换为S型函数即推导出了AUC函数的计算公式。
作为本申请实施例的一种优选实施方式,所述实体之间的关系矩阵采用如下公式计算:
Eij=w*Xij
其中,Eij代表实体i与实体j之间的关系矩阵值,w为关系权重向量,Xij为实体i与实体j之间的关系向量。
具体实施时,实体之间的关系权重与关系向量的计算可以采用w*Xij的线性关系进行定义,但不限于这种线性定义方式,任何其他可进行求导的计算方式均涵盖本申请的保护范围内,在此不做具体限定。
所述更新模块3还包括:求导单元和更新单元。
本申请实施例的求导单元,用于将所述AUC函数对所述关系权重向量w中的第p个值求导,求导函数采用如下公式计算:
Figure BDA0002160308780000142
其中,所述求导函数中的
Figure BDA0002160308780000143
Figure BDA0002160308780000144
分别采用如下公式计算:
Figure BDA0002160308780000145
其中,Xki(p)代表第k个实体和第i个实体之间的关系向量X的第p个值,Xkj(p)代表第k个实体和第j个实体之间的关系向量X的第p个值。
具体实施时,在通过上述AUC函数的等价函数W和S型函数得到AUC函数的计算公式后,通过求导单元将上述AUC函数对所述关系权重向量w中的第p个值进行求导,以考察任一用户的任一关系权重向量的变化量对AUC函数值变化量的影响大小。
本申请实施例的更新单元,用于根据所述求导函数的求导结果对所述关系权重向量w进行动态更新,优选地,采用如下公式计算:
Figure BDA0002160308780000151
其中,wp'代表更新后的关系权重,η为大于0的常数。
具体实施时,基于上述AUC函数对关系权重向量w中的第p个值求导的结果,通过更新单元将求导结果
Figure BDA0002160308780000152
乘以一个预设数值η后,加上实体在上一轮迭代后的关系权重即得到该实体更新后的关系权重,该预设数值η是一个大于0的常数,优选大于0小于1的常数,η的具体取值范围可根据实际情况进行灵活设置,在此不做具体限定。
作为本申请实施例的一种优选实施方式,所述装置还包括:判断模块、第二输入模块以及评分模块。
本申请实施例的判断模块,用于当
Figure BDA0002160308780000153
低于预设阈值时,停止对所述关系权重wp的更新。
具体实施时,所述预设阈值可以根据实际情况进行灵活设置,例如当判断模块判断出
Figure BDA0002160308780000154
的大小无限趋近于0时,说明关系权重向量的变化所能引起的AUC函数值的变化量已经非常小,这样的一个
Figure BDA0002160308780000161
再乘上大于0小于1的常数η后,数值会更小,甚至可以忽略不计,此时说明关系权重向量的变化所能引起的AUC函数值的变化量已经达到极限,关系权重wp的大小基本不会再发生变化,因此可以停止对关系权重wp的更新。
本申请实施例的第二输入模块,用于将停止更新后的所述关系权重wp'输入所述预设图传播模型。本申请实施例的评分模块,用于根据所述预设图传播模型的输出结果得到所述实体的评分向量。
具体实施时,通过第二输入模块将最终得到的更新后的所述关系权重wp'再次输入Trust Rank模型进行计算,最后通过评分模块得到各个用户的风险评分向量。
根据本申请实施例,还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如上任一项所述用于数据挖掘的实体关系计算方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种用于数据挖掘的实体关系计算方法,其特征在于,包括:
在人际关系图谱中,每个用户将作为顶点,用户之间的社交关系将作为边,抽取实体之间关系向量及对应的关系权重;
基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵;
确定用于训练预设图传播模型的样本集;
按照预设规则对所述样本集进行赋值;
将赋值后的所述样本集输入预设图传播模型进行训练;
将所述关系矩阵输入预设图传播模型进行训练;
通过梯度提升动态更新所述关系权重;通过梯度提升动态更新所述关系权重包括:
构建AUC函数的等价函数W,所述等价函数W采用如下公式计算:
Figure FDA0002692604250000011
其中,
Figure FDA0002692604250000012
其中,所述样本集包括正样本和负样本,xi为所述正样本的图传播模型评分,m为正样本的数量,yj为所述负样本的图传播模型评分,n为负样本的数量;由于I为分段函数不可导,
将所述分段函数I替换为S型函数,所述S型函数采用如下公式计算:
Figure FDA0002692604250000013
其中,K为常数;
根据所述等价函数W和所述S型函数推导得出所述AUC函数,所述AUC 函数采用如下公式计算:
Figure FDA0002692604250000021
所述实体之间的关系矩阵采用如下公式计算:
Eij=w*Xij
其中,Eij代表实体i与实体j之间的关系矩阵值,w为关系权重向量,Xij为实体i与实体j之间的关系向量;
通过梯度提升动态更新所述关系权重还包括:
将所述AUC函数对所述关系权重向量w中的第p个值求导,求导函数采用如下公式计算:
Figure FDA0002692604250000022
根据所述求导函数的求导结果对所述关系权重向量w进行动态更新;
将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果。
2.根据权利要求1所述的用于数据挖掘的实体关系计算方法,其特征在于,所述预设图传播模型采用如下公式计算:
Figure FDA0002692604250000023
其中,
Figure FDA0002692604250000024
代表第t+1轮迭代后实体的评分向量,
Figure FDA0002692604250000025
代表第t轮实体的评分向量,
Figure FDA0002692604250000026
代表实体的初始评分向量,E为实体之间的关系矩阵值,0<α<1,且α为常数。
3.根据权利要求1所述的用于数据挖掘的实体关系计算方法,其特征在于,所述求导函数中的
Figure FDA0002692604250000027
分别采用如下公式计算:
Figure FDA0002692604250000031
其中,
Figure FDA0002692604250000032
代表第t轮迭代后正样本的图传播模型评分对更新前的关系权重求偏导,xi(t-1)代表第t-1轮迭代后正样本的图传播模型评分,
Figure FDA0002692604250000033
代表第t轮迭代后负样本的图传播模型评分对更新前的关系权重求偏导,yj(t-1)代表第t-1轮迭代后负样本的图传播模型评分,Xki(p)代表第k个实体和第i个实体之间的关系向量X的第p个值,Xkj(p)代表第k个实体和第j个实体之间的关系向量X的第p个值。
4.根据权利要求1所述的用于数据挖掘的实体关系计算方法,其特征在于,所述通过梯度提升动态更新所述关系权重采用如下公式计算:
Figure FDA0002692604250000034
其中,wp'代表更新后的关系权重,wp代表更新前的关系权重,η为大于0的常数。
5.根据权利要求4所述的用于数据挖掘的实体关系计算方法,其特征在于,在通过梯度提升动态更新所述关系权重之后还包括:
Figure FDA0002692604250000035
低于预设阈值时,停止对所述关系权重wp的更新,
将停止更新后的所述关系权重wp'输入所述预设图传播模型;
根据所述预设图传播模型的输出结果得到所述实体的评分向量。
6.一种用于数据挖掘的实体关系计算装置,其特征在于,
构建模块,用于在人际关系图谱中,每个用户将作为顶点,用户之间的社交关系将作为边,抽取实体之间关系向量及对应的关系权重,基于实体之间的关系向量和关系权重构建所述实体之间的关系矩阵;
确定用于训练预设图传播模型的样本集;
按照预设规则对所述样本集进行赋值;
将赋值后的所述样本集输入预设图传播模型进行训练;
训练模块,用于将所述关系矩阵输入预设图传播模型进行训练;
更新模块,用于通过梯度提升动态更新所述关系权重;通过梯度提升动态更新所述关系权重包括:
构建AUC函数的等价函数W,所述等价函数W采用如下公式计算:
Figure FDA0002692604250000041
其中,
Figure FDA0002692604250000042
其中,所述样本集包括正样本和负样本,xi为所述正样本的图传播模型评分,m为正样本的数量,yj为所述负样本的图传播模型评分,n为负样本的数量;由于I为分段函数不可导,
将所述分段函数I替换为S型函数,所述S型函数采用如下公式计算:
Figure FDA0002692604250000043
其中,K为常数;
根据所述等价函数W和所述S型函数推导得出所述AUC函数,所述AUC函数采用如下公式计算:
Figure FDA0002692604250000044
所述实体之间的关系矩阵采用如下公式计算:
Eij=w*Xij
其中,Eij代表实体i与实体j之间的关系矩阵值,w为关系权重向量,Xij为实体i与实体j之间的关系向量;
通过梯度提升动态更新所述关系权重还包括:
将所述AUC函数对所述关系权重向量w中的第p个值求导,求导函数采用如下公式计算:
Figure FDA0002692604250000051
根据所述求导函数的求导结果对所述关系权重向量w进行动态更新;
输出模块,用于将更新后的所述关系权重输入所述预设图传播模型,最终得到所述预设图传播模型的输出结果。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。
CN201910742017.7A 2019-08-08 2019-08-08 用于数据挖掘的实体关系计算方法以及装置、存储介质 Active CN110502568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910742017.7A CN110502568B (zh) 2019-08-08 2019-08-08 用于数据挖掘的实体关系计算方法以及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910742017.7A CN110502568B (zh) 2019-08-08 2019-08-08 用于数据挖掘的实体关系计算方法以及装置、存储介质

Publications (2)

Publication Number Publication Date
CN110502568A CN110502568A (zh) 2019-11-26
CN110502568B true CN110502568B (zh) 2020-11-10

Family

ID=68588117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910742017.7A Active CN110502568B (zh) 2019-08-08 2019-08-08 用于数据挖掘的实体关系计算方法以及装置、存储介质

Country Status (1)

Country Link
CN (1) CN110502568B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657901A (zh) * 2015-01-14 2015-05-27 重庆邮电大学 一种基于随机游走的标签传播社区发现方法
CN107220238A (zh) * 2017-05-24 2017-09-29 电子科技大学 一种基于混合网络模型的文本对象抽取方法
CN107291792A (zh) * 2016-04-11 2017-10-24 谷歌公司 用于确定相关实体的方法和系统
US9852231B1 (en) * 2014-11-03 2017-12-26 Google Llc Scalable graph propagation for knowledge expansion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852231B1 (en) * 2014-11-03 2017-12-26 Google Llc Scalable graph propagation for knowledge expansion
CN104657901A (zh) * 2015-01-14 2015-05-27 重庆邮电大学 一种基于随机游走的标签传播社区发现方法
CN107291792A (zh) * 2016-04-11 2017-10-24 谷歌公司 用于确定相关实体的方法和系统
CN107220238A (zh) * 2017-05-24 2017-09-29 电子科技大学 一种基于混合网络模型的文本对象抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于邻居节点关系权重的社会网络连接预测算法;马岩;《万方数据》;20170523;第1-61页 *
机会认知网络中基于社会关系的节点位置预测算法;李婕等;《东北大学学报(自然科学版)》;20141231;第1701-1705页 *

Also Published As

Publication number Publication date
CN110502568A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
TWI689871B (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
CN108304355B (zh) 一种基于sarima-wnn模型预测弹性云计算资源的方法
CN104572998B (zh) 用于自动问答系统的问答排序模型更新方法及装置
CN112632351B (zh) 分类模型的训练方法、分类方法、装置及设备
CN108766585A (zh) 流感预测模型的生成方法、装置及计算机可读存储介质
CN112785005B (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN113326852A (zh) 模型训练方法、装置、设备、存储介质及程序产品
Su et al. Deep learning of biological models from data: applications to ODE models
CN110298506A (zh) 一种城市建设水平预测系统
CN117633184A (zh) 一种模型构建和智能回复方法、设备及介质
CN110502568B (zh) 用于数据挖掘的实体关系计算方法以及装置、存储介质
Bova et al. Hybrid method for prediction of users’ information behavior in the Internet based on bioinspired search
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN112700270B (zh) 评分数据处理方法、装置、设备及存储介质
CN105225018A (zh) 基于bp神经网络的手机流量的预测方法及预测装置
CN113516163B (zh) 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质
CN113987261B (zh) 一种基于动态信任感知的视频推荐方法及系统
Jalali et al. A new clustering approach based on graph partitioning for navigation patterns mining
CN110322055B (zh) 一种提高数据风险模型评分稳定性的方法和系统
Liu et al. Predicting construction accidents on sites: An improved atomic search optimization algorithm approach
JP2022145570A (ja) ジョブの候補の自動化された共感的評価
CN112529183A (zh) 一种基于知识蒸馏的模型自适应更新方法
CN112529637A (zh) 基于情景感知的服务需求动态预测方法及系统
Alshmrany LFD-CNN: Levy flight distribution based convolutional neural network for an adaptive learning style prediction in E-learning environment
CN111079003A (zh) 一种社交圈为关键支撑的潜在偏好关联预测模型的技术方案

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant