CN108491511A - 基于图数据的数据挖掘方法和装置、模型训练方法和装置 - Google Patents

基于图数据的数据挖掘方法和装置、模型训练方法和装置 Download PDF

Info

Publication number
CN108491511A
CN108491511A CN201810246990.5A CN201810246990A CN108491511A CN 108491511 A CN108491511 A CN 108491511A CN 201810246990 A CN201810246990 A CN 201810246990A CN 108491511 A CN108491511 A CN 108491511A
Authority
CN
China
Prior art keywords
node
sample
user
diagram data
public identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810246990.5A
Other languages
English (en)
Other versions
CN108491511B (zh
Inventor
陈尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810246990.5A priority Critical patent/CN108491511B/zh
Publication of CN108491511A publication Critical patent/CN108491511A/zh
Application granted granted Critical
Publication of CN108491511B publication Critical patent/CN108491511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于图数据的数据挖掘方法和装置、用于数据挖掘的模型训练方法和装置,所述基于图数据的数据挖掘方法包括:获取图数据;所述图数据包括节点属性以及节点间的边,所述节点包括用户节点和公众标识节点;将所述图数据输入训练过的机器学习模型;通过所述机器学习模型,基于所述图数据所包括的节点属性以及节点间的边,确定所述节点中用户节点所对应的行为预测结果;从所述图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。本申请提供的方案可以提高数据挖掘结果的准确性。

Description

基于图数据的数据挖掘方法和装置、模型训练方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于图数据的数据挖掘方法和装置、模型训练方法和装置。
背景技术
计算机技术和网络技术的迅速发展,给人们的日常生活和工作都带来了极大的便利。比如,越来越多的用户通过网络沟通交流、阅读浏览页面或者进行线上线下交易等等。如何对用户的行为数据或社交数据等进行数据挖掘,逐渐成为人们日益关注的焦点。
传统的数据挖掘方法,常常是利用现有的和用户相关的关系型数据以进行数据分析,将用户的历史关系型数据进行人工编码后建模,再通过训练好的回归模型以预测用户动作,比如用户是否会点击页面或用户是否会进行交易等。这样传统的数据挖掘方法由于仅仅对用户的关系型数据做简单的分析,常常会导致挖掘出的结果不准确的问题。
发明内容
基于此,有必要针对数据挖掘的挖掘结果不准确的技术问题,提供一种基于图数据的数据挖掘方法和装置、用于数据挖掘的模型训练方法和装置。
一种基于图数据的数据挖掘方法,包括:
获取图数据;所述图数据包括节点属性以及节点间的边,所述节点包括用户节点和公众标识节点;
将所述图数据输入训练过的机器学习模型;
通过所述机器学习模型,基于所述图数据所包括的节点属性以及节点间的边,确定所述节点中用户节点所对应的行为预测结果;
从所述图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
一种基于图数据的数据挖掘装置,所述装置包括:
获取模块,用于获取图数据;所述图数据包括节点属性以及节点间的边,所述节点包括用户节点和公众标识节点;
输入模块,用于将所述图数据输入训练过的机器学习模型;
确定模块,用于通过所述机器学习模型,基于所述图数据所包括的节点属性以及节点间的边,确定所述节点中用户节点所对应的行为预测结果;
筛选模块,用于从所述图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于图数据的数据挖掘方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于图数据的数据挖掘方法的步骤。
上述基于图数据的数据挖掘方法、装置、计算机可读存储介质和计算机设备,将包括有节点属性以及节点间的边的图数据输入训练过的机器学习模型,通过训练过的机器学习模型确定节点中用户节点所对应的行为预测结果。其中,节点包括用户节点和公众标识节点。由于图数据中包括节点属性,以及节点间的边,可使得训练过的机器学习模型充分利用图数据中节点间的关系信息、以及相应的节点的属性信息等。节点间的关系信息,比如用户节点和用户节点间的关系信息、用户节点和公众标识节点间的关系信息等,可充分体现出用户的行为习惯或喜好等。因此,训练过的机器学习模型对图数据进行分析时可提取到全面、准确的数据特征,进而获得用户节点所对应的准确的行为预测结果。再根据行为预测结果,筛选符合数据挖掘条件的用户节点,这样筛选出的用户节点也就是挖掘出的潜在的有价值的用户节点,大大提高了数据挖掘结果的准确性。
一种用于数据挖掘的模型训练方法,包括:
获取图数据样本和相应的标签;所述图数据样本包括样本节点属性以及样本节点间的边,所述样本节点包括用户样本节点和公众标识样本节点;
将所述图数据样本输入机器学习模型;
通过所述机器学习模型,基于所述图数据样本包括的样本节点属性以及样本节点间的边,确定所述样本节点中用户样本节点所对应的中间行为预测结果;
按照所述中间行为预测结果与所述标签的差异,调整所述机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
一种用于数据挖掘的模型训练装置,所述装置包括:
获取模块,用于获取图数据样本和相应的标签;所述图数据样本包括样本节点属性以及样本节点间的边,所述样本节点包括用户样本节点和公众标识样本节点;
输入模块,用于将所述图数据样本输入机器学习模型;
确定模块,用于通过所述机器学习模型,基于所述图数据样本包括的样本节点属性以及样本节点间的边,确定所述样本节点中用户样本节点所对应的中间行为预测结果;
调整模块,用于按照所述中间行为预测结果与所述标签的差异,调整所述机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于图数据的数据挖掘方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于图数据的数据挖掘方法的步骤。
上述用于数据挖掘的模型训练方法、装置、计算机可读存储介质和计算机设备,将包括有样本节点属性以及样本节点间的边的图数据样本输入机器学习模型,通过机器学习模型确定用户样本节点所对应的中间行为预测结果。其中,样本节点包括用户样本节点和公众标识样本节点。由于图数据样本中包括样本节点属性,以及样本节点间的边,可使得机器学习模型充分利用图数据样本中样本节点间的关系信息、以及相应的样本节点的属性信息等。样本节点间的关系信息,比如用户样本节点和用户样本节点间的关系信息、用户样本节点和公众标识样本节点间的关系信息等,可充分体现出样本用户的行为习惯或喜好等。因此,机器学习模型对图数据样本进行分析时可提取到全面、准确的数据特征,再根据中间行为预测结果与图数据样本相应的标签的差异,不断调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。这样训练出的机器学习模型可对用户节点进行准确的行为结果预测,大大提高了模型训练的准确性和有效性,进而提高后续数据挖掘结果的准确性。
附图说明
图1为一个实施例中基于图数据的数据挖掘方法的应用环境图;
图2为一个实施例中基于图数据的数据挖掘方法的流程示意图;
图3为一个实施例中获取图数据步骤的流程示意图;
图4为一个实施例中根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据步骤的流程示意图;
图5为一个实施例中通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,确定节点中用户节点所对应的行为预测结果步骤的流程示意图;
图6为另一个实施例中基于图数据的数据挖掘方法的流程示意图;
图7为一个实施例中用于数据挖掘的模型训练方法的流程示意图;
图8为另一个实施例中用于数据挖掘的模型训练方法的流程示意图;
图9为一个实施例中基于图数据的数据挖掘系统架构图;
图10为一个实施例中基于图数据的数据挖掘装置的结构框图;
图11为另一个实施例中基于图数据的数据挖掘装置的结构框图;
图12为再一个实施例中基于图数据的数据挖掘装置的结构框图;
图13为还一个实施例中基于图数据的数据挖掘装置的结构框图;
图14为一个实施例中用于数据挖掘的模型训练装置的结构框图;
图15为另一个实施例中用于数据挖掘的模型训练装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中基于图数据的数据挖掘方法和/或用于数据挖掘的模型训练方法的应用环境图。如图1所示,该基于图数据的数据挖掘方法和/或用于数据挖掘的模型训练方法应用于一种计算机设备。该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。其中,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于图数据的数据挖掘方法和/或用于数据挖掘的模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于图数据的数据挖掘方法和/或用于数据挖掘的模型训练方法。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图2所示,在一个实施例中,提供了一种基于图数据的数据挖掘方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图2,该基于图数据的数据挖掘方法具体包括如下步骤:
S202,获取图数据;图数据包括节点属性以及节点间的边,节点包括用户节点和公众标识节点。
其中,图数据是以图形式表示的数据,是一种非关系型数据,通过应用图形理论来存储实体之间的关系信息。其中,关系型数据是由二维行列表格组成的数据,通常存储于关系型数据库中。非关系型数据是关系结构复杂且不固定的数据,通常存储于非关系型数据库中。通常,图数据由节点属性和节点间的边构成。比如,用图数据存储社会网络中个体之间的信息,可以用图数据中的不同节点表示不用个体,用图数据中的边表示个体之间的关系。
节点属性是节点的特征属性,包括用户节点属性和公众标识节点属性。用户节点属性是用户节点所对应的用户的属性,比如用户的性别、年龄、籍贯、居住地等。公众标识节点属性是公众标识节点所对应的公众标识的属性,比如公众标识所属的类别信息、公众标识所对应的推广信息等。其中公众标识所属的类别信息具体可以是公众标识所属的领域类别,比如金融领域、保险领域、电子科技领域或影视领域等。
节点间的边是节点和节点间的关系。节点间的边包括用户节点和用户节点的边,用户节点和公众标识节点间的边,公众标识节点和公众标识节点间的边。其中,用户节点和用户节点间的边具体可以表示用户节点所对应的用户之间的关系,比如用户之间互为好友关系、单向屏蔽关系、单向拉黑关系或互相关注关系等。用户节点和公众标识节点间的边具体可以表示用户节点所对应的用户与公众标识节点所对应的公众标识间的关系,比如用户关注了公众标识,或者用户屏蔽了公众标识等。公众标识节点和公众标识节点间的边,具体可以表示公众标识节点所对应的公众标识间的关系,比如公众标识A和公众标识B为相关公众标识等。
在一个实施例中,计算机设备可将从服务平台获取的关于用户和公众标识相关的关系型数据转换成非关系型数据存储在图数据库中。计算机设备可获取本地图数据库中的图数据,或者通过网络通信等方式获取其他设备存储的图数据库,其他设备,比如图数据库系统。获取的图数据包括与用户节点相应的用户节点属性、与公众标识节点相应的公众标识节点属性以及节点间的边。
在一个实施例中,计算机设备可根据图数据产生的时间点,获取产生时间在预设时间段内的图数据。比如,计算机设备可获取最近一个月内图数据库中存储的图数据,以期获取用户和公众标识的最新数据。
S204,将图数据输入训练过的机器学习模型。
其中,机器学习模型是经过训练后具有分类能力的机器学习算法模型。机器学习英文全称为Machine Learning,简称ML。机器学习模型可通过样本学习具备分类能力。训练过的机器学习模型是通过样本数据和样本标签训练后的具备分类能力的机器学习模型。在本实施例中,训练过的机器学习模型是通过图数据样本和相应的标签训练,并不断调整模型参数,直至满足训练条件后停止训练而得到的机器学习模型。
具体地,计算机设备将获取的图数据输入训练过的机器学习模型,训练过的机器学习模型对图数据进行处理后可得到用户节点所对应的行为预测结果。相应的机器学习模型可以是马尔科夫模型(Markov Model)、VGG(Visual Geometry Group视觉集合组)网络模型、GoogleNet(谷歌网路)网络模型或ResNet(能效评估系统)网络模型等。
在一个实施例中,计算机设备可获取到由多个用户节点属性和多个公众标识节点属性以及节点间的边共同组成的图数据。将图数据输入训练过的机器学习模型,机器学习模型提取所需的数据并存放至HDFS(Hadoop Distributed File System)分布式存储环境中。再分布式处理存储的数据,提取数据特征进行分析,以得到用户节点所对应的行为预测结果。
S206,通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,确定节点中用户节点所对应的行为预测结果。
其中,行为预测结果是用户行为的预测结果,具体可以是用户自身行为的预测结果或者用户针对公众标识行为的预测结果。比如,可以是对用户节点的预测分类结果,或对节点间的边的预测分类结果。
具体地,行为预测结果可以是用户行为概率。举例说明,用户自身行为预测结果,可以是用户自身行为预测概率,比如,用户点击推广信息的概率、用户进行网上交易的概率或者用户贷款违约的概率等。用户针对公众标识行为预测结果,可以是用户针对公众标识行为预测概率,比如,用户i阅读公众标识j的推广信息的概率、或用户i购买公众标识j提供的交易产品的概率等。
具体地,计算机设备将图数据输入训练过的机器学习模型后,机器学习模型根据图数据所包括的节点间的边,可确定节点与节点间的关系。比如,当机器学习模型确定某一用户节点后,可根据节点间的边确定与该用户节点相邻的用户节点和/或公众标识节点。机器学习模型可充分利用节点属性、与该节点相关的用户节点和/或公众标识节点的属性,确定用户节点所对应的行为预测内容。其中,与节点相关的节点可以是该节点相邻的节点,也可以是该节点的二度节点或其他多度节点。其中,二度节点是与节点的相邻节点相邻的节点,多度节点顾名思义是与节点间通过了多个边相连接的节点。
其中,和该用户节点相邻的用户节点可以是相应的用户互为好友关系的用户节点,和该用户节点相邻的公众标识节点可以是相应的用户阅读过相应的公众标识的推广信息等。其中,推广信息是公众标识推送给关注该公众标识的用户的消息,比如广告、文章、新闻或投票等。
在一个实施例中,机器学习模型可充分利用节点属性、与该节点相邻的用户节点和/或公众标识节点的内容,确定用户节点所对应的行为预测内容。
在一个实施例中,机器学习模型确定某一节点后,可根据节点间的边确定与该节点相邻的用户节点和/或公众标识节点。再根据节点间的边,确定与相邻节点相邻的用户节点和/或公众标识节点等。机器学习模型根据节点属性、该节点的相邻节点、该节点的二度节点或其他多度节点等共同确定用户节点所对应的行为预测结果。
S208,从图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
其中,数据挖掘条件是进行数据挖掘时所满足的预设条件。当行为预测结果是用户行为预测概率时,数据挖掘条件具体可以是用户行为预测概率大于或等于第一预设阈值,或用户行为预测概率小于或等于第二预设阈值。当行为预测结果是用户针对公众标识行为预测概率时,数据挖掘条件具体可以是用户针对公众标识行为预测概率大于或等于第三阈值,或用户针对公众标识行为预测概率中的最大概率等。
在一个实施例中,当行为预测结果是用户行为预测概率时,计算机设备可从图数据中的用户节点中,筛选所对应用户行为预测概率大于或等于第一预设阈值,或用户行为预测概率小于或等于第二预设阈值的用户节点。
在一个实施例中,当行为预测结果是用户针对公众标识行为预测概率时,计算机设备可从图数据所包括的用户节点中,筛选所对应用户针对公众标识行为预测概率满足预设条件的用户节点和相应的公众标识。比如,对于某个用户节点,选中使得该用户节点对应的用户针对公众标识的行为预测概率最大的公众标识所对应的公众标识节点,作为相应的筛选出的行为预测结果符合数据挖掘条件的用户节点和公众标识节点。
上述基于图数据的数据挖掘方法,将包括有节点属性以及节点间的边的图数据输入训练过的机器学习模型,通过训练过的机器学习模型确定节点中用户节点所对应的行为预测结果。其中,节点包括用户节点和公众标识节点。由于图数据中包括节点属性,以及节点间的边,可使得训练过的机器学习模型充分利用图数据中节点间的关系信息、以及相应的节点的属性信息等。节点间的关系信息,比如用户节点和用户节点间的关系信息、用户节点和公众标识节点间的关系信息等,可充分体现出用户的行为习惯或喜好等。因此,训练过的机器学习模型对图数据进行分析时可提取到全面、准确的数据特征,进而获得用户节点所对应的准确的行为预测结果。再根据行为预测结果,筛选符合数据挖掘条件的用户节点,这样筛选出的用户节点也就是挖掘出的潜在的有价值的用户节点,大大提高了数据挖掘结果的准确性。
在一个实施例中,步骤S202具体包括以下步骤:
S302,从关系型数据库中读取用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系。
其中,用户标识用来唯一标识用户,具体可以是数字、字母、文字或字符中的一种。公众标识用来唯一标识公众标识,具体可以是数字、字母、文字或字符中的一种。用户标识间的用户关系具体可以是互为好友关系、单向屏蔽关系、单向拉黑关系或互相关注关系等。用户标识和公众标识间的行为关系具体可以是用户关注公众标识、用户阅读公众标识推送的推广信息、或者用户屏蔽公众标识等。
具体地,计算机设备可从关系型数据库中获取多张能互相联接的二维行列表格,从获取的二维行列表格中读取用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系。
S304,根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据。
具体地,计算机设备可根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据,并将构建的图数据存储在图数据库中。
在一个实施例中,计算机设备可根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系,构建图数据单元。图数据单元可由一组三元组数据表示,三元组数据的结构为(主体,谓词,宾语)的结构。计算机设备可将读取的数据整理成三元组结构的数据,以构成图数据单元。多个图数据单元共同构成图数据。
举例说明,图数据单元,比如(用户1,用户id,100058),(用户1,年龄,26),(用户1,性别,男),(用户1,好友,用户1_1),…(用户1,好友,用户1_n1),(用户1,阅读,文章1),(文章1,文章id,87322544),(文章1,作者,用户2),(用户2,用户id,253301),(文章1,发表于,公众标识1),(公众标识1,一级分类,金融),(公众标识1,二级分类,保险)等。其中,当三元组数据中的谓词为年龄或性别时,三元组数据中的宾语为属性信息。当三元组数据中的谓词为好友时,三元组数据中的宾语属于社交信息。当三元组数据中的谓词为阅读时,三元组数据中的宾语为行为信息。当三元组数据中的谓词为分类时,三元组数据中的宾语属于领域知识信息。可以从上述举例说明中看出,谓词为年龄、性别或分类的三元组数据中的宾语为相应的以主体为节点的节点属性。谓词为好友或阅读等的三元组数据表示了主体和宾语的关系。这样,可以采用三元组的形式快速、便捷、易于理解的将异构数据用知识图谱组织起来,而避免了传统关系型数据库分为大量不同二维行列表格结构存储。
上述实施例中,根据关系型数据库中的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据,可以将存储于大量二维行列表格中的数据进行重组,方便快捷地构建异构结构的图数据。
在一个实施例中,步骤S304具体包括以下步骤:
S402,根据读取的用户标识与相应的用户属性,构建图数据中的用户节点和相应的节点属性。
具体地,计算机设备可根据读取的用户标识,构建图数据中相应的用户节点。用户节点和用户标识是一一对应的关系。也就是说,当计算机设备读取了多个用户标识,则构建相应数目的用户节点。并且,计算机设备根据与用户标识相应的用户属性构建图数据中用户节点的节点属性。
S404,根据读取的公众标识与相应的公众标识属性,构建图数据中的公众标识节点和相应的节点属性。
具体地,计算机设备可根据读取的公众标识,构建图数据中相应的公众标识节点。公众标识节点和公众标识是一一对应的关系。也就是说,当计算机设备读取了多个公众标识,则构建相应数目的公众标识节点。并且,计算机设备根据与公众标识相应的公众标识属性构建图数据中公众标识节点的公众标识节点属性。
S406,根据读取的用户关系,构建图数据中用户节点间的边。
具体地,计算机设备可根据读取的用户关系,构建图数据中用户节点间的边。比如,当用户关系互为好友关系、单向屏蔽关系、单向拉黑关系或互相关注关系时,相应的,在用户节点间构建表示相应关系的边。当用户间不存在任何关系时,则图数据中相应的用户节点间没有边。
S408,根据读取的行为关系,构建图数据中用户节点和公众标识节点间的边。
具体地,计算机设备可根据读取的用户标识和公众标识间的行为关系,构建图数据中用户节点和公众标识节点间的边。比如,当用户标识和公众标识间的行为关系是用户关注公众标识、用户阅读公众标识推送的推广信息、或者用户屏蔽公众标识时,相应的,在用户节点和公众标识节点间构建表示相应关系的边。当用户和公众标识间不存在任何关系时,则图数据中相应的用户节点和公众标识节点间没有边。
在一个实施例中,计算机设备还可以读取公众标识间的关系,根据公众标识间的关系,构建公众标识和公众标识间的边。
上述实施例中,根据用户标识与相应的用户属性,构建图数据中的用户节点和相应的节点属性。根据公众标识与相应的公众标识属性,构建图数据中的公众标识节点和相应的节点属性。再根据用户关系或行为关系,分别构建图数据中节点间的边。这样构建出的图数据可以充分表示用户节点和公众标识节点各自的节点属性,以及节点间的关系,方便快捷地将多个关系型数据中的重要数据组织起来,转换成相应的图数据,使得后续的数据挖掘得以顺利进行。
在一个实施例中,步骤S206具体包括:
S502,通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,迭代计算图数据中节点相应的隐含特征向量。
其中,特征向量是表示数据的特征的向量。隐含特征向量是无法观测的、但可以通过可观测变量推断出的特征向量。节点相应的隐含特征向量是与节点相对应的隐含特征向量,反映了与该节点相关的节点属性的信息、和图数据中边的信息等,可以充分表示该节点。比如,对于任意节点n,假设存在可充分代表该节点的隐含特征向量sn。则sn可以和节点n,以及与节点n相邻的其他节点l相关。
具体地,计算机设备可根据节点间的边,确定与节点相关的节点。比如,计算机设备可确定与节点通过边相邻的节点。或者,计算机设备还可根据图数据中的边,确定该节点的二度节点、三度节点或其他多度节点等。计算机设备可通过机器学习模型,根据图数据所包括的节点属性、与该节点相关的节点的节点属性,共同迭代计算图数据中各节点相应的隐含特征向量。
在一个实施例中,对于任一节点n,假设与该节点n相应的隐含特征向量为sn,则sn可充分表示与节点n相关的数据的特征。可将图数据中的节点分为两类,一类是用户节点,一类是公众标识节点。对于用户节点vi,假设与用户节点vi相应的隐含特征向量为hi,则hi可充分表示与用户节点vi相关的数据的特征。对于公众标识节点uj,假设与公众标识节点uj相应的隐含特征向量为qj,则qj可充分表示与公众标识节点uj相关的数据的特征。并且,根据统计学理论,随着算法的迭代,hi和qj将收敛到稳定值。
在一个实施例中,计算机设备可通过机器学习模型的第一神经网络,对于图数据中每个节点,根据相应的节点属性、该节点前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。
在一个实施例中,计算机设备可通过机器学习模型的第一神经网络,对于图数据中每个节点,根据相应的节点属性、该节点前次迭代的隐含特征向量、通过边相邻的节点的前次迭代的隐含特征向量、及该节点的二度节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。
在一个实施例中,机器学习模型的第一神经网络初次计算每个节点当次迭代的隐含特征向量时,可假设初次迭代的前次迭代的隐含特征向量为一个随机值。也就是说,在算法迭代初始,为该节点前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量或及该节点的二度节点的前次迭代的隐含特征向量设置一个初始的随机值。这样将计算出的节点的当次隐含特征向量作为下次迭代计算的前次隐含特征向量进行迭代计算。
在一个实施例中,迭代停止条件可以是预设迭代次数、当迭代计算得到的图数据中节点相应的隐含特征向量收敛到稳定值、或迭代计算的时间达到预设时间等。
S504,通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出节点中用户节点所对应的行为预测结果。
具体地,计算机设备可将机器学习模型中通过第一神经网络迭代计算出的图数据中各节点相应的隐含特征向量输入至机器学习模型中的第二神经网络。通过第二神经网络,对隐含特征向量进行计算,输出节点中用户节点所对应的行为预测结果。其中,用户节点所对应的行为预测结果包括用户自身行为的预测结果或者用户针对公众标识行为的预测结果。
在一个实施例中,计算机设备可通过机器学习模型,将迭代计算得到的隐含特征向量映射为用户自身的行为预测结果。比如,可采用如下公式计算用户自身的行为预测结果pi:pi=f1(W4hi)。其中,hi表示与用户节点vi相应的隐含特征向量;W4是模型参数;f1表示映射关系。
在一个实施例中,计算机设备可通过机器学习模型,将迭代计算得到的隐含特征向量映射为用户针对公众标识行为的预测结果。比如,可采用如下公式计算用户针对公众标识行为的预测结果pi,j其中,hi表示与用户节点vi相应的隐含特征向量;qj表示与公众标识节点uj相应的隐含特征向量;是所有与用户节点i相邻的公众标识节点j的隐含特征向量的和;W4和W5是模型参数;f2表示映射关系。
上述实施例中,通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,迭代计算出图数据中节点相应的隐含特征向量,再根据隐含特征向量输出用户节点所对应的行为预测结果。这样,通过机器学习模型习得图数据的数据特征,将结构化的图数据转换成隐含特征向量,再根据隐含特征向量计算用户节点所对应的行为预测结果,可使得用户节点所对应的行为预测结果更准确。
在一个实施例中,步骤S502具体包括:通过机器学习模型,对于图数据中每个节点,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。
具体地,计算机设备可通过训练过的机器学习模型,对于图数据中的每个节点,分别获取节点前次迭代的隐含特征向量,和通过边相邻的节点的前次迭代的隐含特征向量。通过机器学习模型的第一神经网络,根据与节点相应的节点属性、该节点前次迭代的隐含特征向量和通过边相邻的节点的前次迭代的隐含特征向量,计算得到每个节点当次迭代的隐含特征向量。
机器学习模型再将节点的当次迭代的隐含特征向量作为相邻的下一次的节点的前次迭代的隐含特征向量,且当次迭代的将通过边相邻的节点的隐含特征向量作为相邻的下一次的通过边相邻的节点的前次迭代的隐含特征向量进行迭代计算,直至当次迭代的隐含特征向量满足迭代停止条件。
上述实施例中,通过机器学习模型,对于图数据中每个节点,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。可以通过不断的迭代,使得计算出的节点相应的隐含特征向量可以完全反映与节点相关的节点属性和图数据中边的信息等,可以充分表示节点。
在一个实施例中,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,包括:通过以下公式计算每个节点当次迭代的隐含特征向量:
其中,是节点n当次迭代的隐含特征向量;w1、w2和w3分别是模型参数;是节点n前次迭代的隐含特征向量;dn是节点n相应的节点属性;k{n,l}=1表示节点n和节点l相邻;是所有与节点n相邻的节点l前次迭代的隐含特征向量的和;f表示映射关系。
具体地,机器学习模型根据与节点n相应的节点属性dn、前次迭代的隐含特征向量及通过边相邻的节点的前次迭代的隐含特征向量计算每个节点当次迭代的隐含特征向量时,可具体采用如下公式计算:
在一个实施例中,图数据中的节点n包括用户节点vi和公众标识节点uj。对于用户节点vi,与用户节点vi相应的隐含特征向量为hi。对于公众标识节点uj,与公众标识节点uj相应的隐含特征向量为qj
对于用户节点vi,可根据用户节点vi相应的节点属性xi、用户节点vi前次迭代的隐含特征向量与用户节点vi相邻的用户节点vp的前次迭代的隐含特征向量和用户节点vi相邻的公众标识节点uj的前次迭代的隐含特征向量共同计算得到用户节点vi的当次迭代的隐含特征向量。具体可用如下公式计算:
其中,是用户节点vi当次迭代的隐含特征向量;w1、w2、w31和w32分别是模型参数;是用户节点vi前次迭代的隐含特征向量;xi是用户节点vi相应的节点属性;e{i,p}=1表示用户节点vi和用户节点vp相邻,比如用户p和用户i互为好友;是所有与用户节点vi相邻的用户节点vp前次迭代的隐含特征向量的和;m{i,j}=1表示用户节点vi和公众标识节点uj相邻,比如用户i阅读公众标识j推送的推广信息;是所有与用户节点vi相邻的公众标识节点uj前次迭代的隐含特征向量的和;f3表示映射关系。
对于公众标识节点uj,可根据公众标识节点uj相应的节点属性gj、公众标识节点uj前次迭代的隐含特征向量和与公众标识节点uj相邻的用户节点vi的前次迭代的隐含特征向量共同计算得到公众标识节点uj的当次迭代的隐含特征向量。具体可用如下公式计算:
其中,是公众标识节点uj当次迭代的隐含特征向量;w1、w2和w3分别是模型参数;是公众标识节点uj前次迭代的隐含特征向量;gj是公众标识节点uj相应的节点属性;m{i,j}=1表示用户节点vi和公众标识节点uj相邻,比如用户i阅读公众标识j推送的推广信息;是所有与公众标识节点uj相邻的用户节点vi的前次迭代的隐含特征向量的和;f4表示映射关系。
上述实施例中,根据相应的公式迭代计算每个节点当次迭代的隐含特征向量,通过不断的迭代,使得计算出的节点相应的隐含特征向量可以完全反映与节点相关的节点属性和图数据中边的信息等,可以充分表示节点。
在一个实施例中,当行为预测结果是用户针对公众标识行为预测概率时,步骤S208包括:从图数据所包括的用户节点和公众标识节点中,筛选用户节点和相应的公众标识节点,且筛选出的用户节点和相应的公众标识节点共同对应的行为预测结果符合数据挖掘条件。该基于图数据的数据挖掘方法还包括:针对筛选出的用户节点执行与筛选的公众标识节点相关的业务操作。
其中,业务操作是进行业务处理,比如向用户节点所对应的用户推送公众标识节点所对应的公众标识的推广信息。用户针对公众标识行为预测概率,可以是用户针对公众标识的行为的预测概率,比如,用户i阅读公众标识j的推广信息的概率、或用户i购买公众标识j提供的交易产品的概率等。
具体地,当行为预测结果是用户针对公众标识行为预测概率时,从图数据所包括的用户节点和公众标识节点中,筛选用户节点和相应的公众标识节点,且筛选出的用户节点和相应的公众标识节点共同对应的行为预测结果符合数据挖掘条件。比如,筛选出用户针对公众标识行为预测概率大于或等于第三阈值,或用户针对所有公众标识行为预测概率中的最大概率所对应的用户节点和相应的公众标识节点。
计算机设备筛选出行为预测结果符合数据挖掘条件的用户节点和相应的公众标识节点后,针对筛选出的用户节点执行与筛选的公众标识节点相关的业务操作。比如向筛选出的用户节点所对应的用户推送筛选出的公众标识节点所对应的公众标识的推广信息。
上述实施例中,通过筛选行为预测结果符合数据挖掘条件的用户节点和相应的公众标识节点,可针对筛选出的用户节点执行与筛选的公众标识节点相关的业务操作,以实现与用户节点和公众标识节点都相关的业务操作。
如图6所示,在一个具体的实施例中,基于图数据的数据挖掘方法包括以下步骤:
S602,从关系型数据库中读取用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系。
S604,根据读取的用户标识与相应的用户属性,构建图数据中的用户节点和相应的节点属性。
S606,根据读取的公众标识与相应的公众标识属性,构建图数据中的公众标识节点和相应的节点属性。
S608,根据读取的用户关系,构建图数据中用户节点间的边。
S610,根据读取的行为关系,构建图数据中用户节点和公众标识节点间的边。
S612,将图数据输入训练过的机器学习模型。
S614,通过机器学习模型,对于图数据中每个节点,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。
S616,通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出节点中用户节点所对应的行为预测结果。
S618,从图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
上述基于图数据的数据挖掘方法、装置、计算机可读存储介质和计算机设备,将包括有节点属性以及节点间的边的图数据输入训练过的机器学习模型,通过训练过的机器学习模型确定节点中用户节点所对应的行为预测结果。其中,节点包括用户节点和公众标识节点。由于图数据中包括节点属性,以及节点间的边,可使得训练过的机器学习模型充分利用图数据中节点间的关系信息、以及相应的节点的属性信息等。节点间的关系信息,比如用户节点和用户节点间的关系信息、用户节点和公众标识节点间的关系信息等,可充分体现出用户的行为习惯或喜好等。因此,训练过的机器学习模型对图数据进行分析时可提取到全面、准确的数据特征,进而获得用户节点所对应的准确的行为预测结果。再根据行为预测结果,筛选符合数据挖掘条件的用户节点,这样筛选出的用户节点也就是挖掘出的潜在的有价值的用户节点,大大提高了数据挖掘结果的准确性。
图6为一个实施例中基于图数据的数据挖掘方法的流程示意图。应该理解的是,虽然图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图7所示,在一个实施例中,提供了一种用于数据挖掘的模型训练方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图7,该用于数据挖掘的模型训练方法具体包括如下步骤:
S702,获取图数据样本和相应的标签;图数据样本包括样本节点属性以及样本节点间的边,样本节点包括用户样本节点和公众标识样本节点。
其中,图数据样本是作为训练样本的图数据,相应的标签是图数据样本相应的标签。图数据样本包括用户样本节点和公众标识样本节点、与样本节点相应的样本节点属性以及样本节点间的边。与图数据样本相应的标签可以是与用户样本节点相对应的标签或者与样本节点间的边相对应的标签。与用户样本节点相对应的标签,比如用户点击推广信息或用户贷款违约等。与样本节点间的边相对应的标签,比如用户i阅读公众标识j的推广信息、或用户i购买公众标识j提供的交易产品等。
具体地,计算机设备可从本地图数据库中获取图数据样本和相应的标签,或者通过网络通信等方式获取其他设备存储的图数据样本和相应的标签,其他设备,比如图数据库系统。在一个实施例中,一个图数据样本可以对应多个标签。
S704,将图数据样本输入机器学习模型。
具体地,计算机设备可将获取到的图数据样本输入机器学习模型。
在一个实施例中,计算机设备可获取到由多个用户样本节点和多个公众标识样本节点以及样本节点间的边共同组成的图数据样本。将图数据样本输入机器学习模型,机器学习模型提取所需的数据并存放至HDFS(Hadoop Distributed File System)分布式存储环境中。计算机设备可将模型参数存放于Parameter Server(参数服务器)的参数服务节点中,便于在模型训练过程中,可以快速迭代更新模型参数。
S706,通过机器学习模型,基于图数据样本包括的样本节点属性以及样本节点间的边,确定样本节点中用户样本节点所对应的中间行为预测结果。
其中,中间行为预测结果是在模型训练过程中,向机器学习模型输入图数据样本后,由该机器学习模型所输出的用户样本节点所对应的行为预测结果。用户样本节点所对应的中间行为预测结果,具体可以是样本用户自身行为的中间预测结果或者样本用户针对样本公众标识行为的中间预测结果。比如,可以是对用户样本节点的中间预测分类结果,或对样本节点间的边的中间预测分类结果。
具体地,计算机设备将图数据样本输入至机器学习模型后,机器学习模型根据图数据样本所包括的样本节点间的边,可确定样本节点与样本节点间的关系。比如,当机器学习模型确定某一用户样本节点后,可根据样本节点间的边确定与该用户样本节点相邻的用户样本节点和/或公众标识样本节点。机器学习模型可充分利用样本节点属性、与该样本节点相关的用户样本节点和/或公众标识样本节点的内容,确定用户样本节点所对应的中间行为预测内容。其中,与样本节点相关的样本节点可以是该样本节点相邻的样本节点,也可以是该样本节点的二度样本节点或其他多度样本节点。其中,二度样本节点是与样本节点的相邻样本节点相邻的样本节点,多度样本节点顾名思义是与样本节点间通过了多个边相连接的样本节点。
S708,按照中间行为预测结果与标签的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
其中,训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的机器学习模型的分类性能指标达到预设指标。调整机器学习模型的模型参数,是对机器学习模型的模型参数进行调整。
具体地,计算机设备可比较中间行为预测结果与标签的差异,从而朝减少差异的方向,按预设的学习率,调整机器学习模型的模型参数。如果调整模型参数后,不满足训练停止条件,则返回步骤S706继续训练,直到满足训练停止条件时结束训练。
在一个实施例中,中间行为预测结果与标签的差异可以用损失函数来衡量。损失函数是模型参数的函数,能够衡量机器学习模型的中间行为预测结果与标签之间的差异的函数。计算机设备可在损失函数的值小于预先设定的值时结束训练,得到用于对图数据进行分类的机器学习模型。可以选择交叉熵或均方误差等函数作为损失函数。
在一个实施例中,当中间行为预测结果为样本用户自身行为的中间预测结果时,用pi表示样本用户自身行为的中间预测结果;用yi表示图数据样本相应的标签。则损失函数Lt=∑il(pi t,yi),其中,当次迭代的样本用户节点所对应的样本用户自身行为的中间预测结果pi t与前次迭代的模型参数wt-1相关。
在一个实施例中,当中间行为预测结果为样本用户针对样本公众标识行为的中间预测结果时,用pi,j表示样本用户针对样本公众标识行为的中间预测结果;用yi表示图数据样本相应的标签。则损失函数Lt=∑i,jl(pt i,j,yi,j),其中,当次迭代的样本用户针对样本公众标识行为的中间预测结果pt i,j与前次迭代的模型参数wt-1相关。
在一个实施例中,计算机设备可根据损失函数的梯度下降方法,更新参数Wt
其中,Δ为梯度下降的学习率,可由经验或Cross-validation(交叉验证)等方法确定。在训练机器学习模型的过程中,当满足训练停止条件时则结束训练。此时得到的Wt则为训练过的机器学习模型的模型参数,保存训练所得的模型参数。
上述用于数据挖掘的模型训练方法,将包括有样本节点属性以及样本节点间的边的图数据样本输入机器学习模型,通过机器学习模型确定用户样本节点所对应的中间行为预测结果。其中,样本节点包括用户样本节点和公众标识样本节点。由于图数据样本中包括样本节点属性,以及样本节点间的边,可使得机器学习模型充分利用图数据样本中样本节点间的关系信息、以及相应的样本节点的属性信息等。样本节点间的关系信息,比如用户样本节点和用户样本节点间的关系信息、用户样本节点和公众标识样本节点间的关系信息等,可充分体现出样本用户的行为习惯或喜好等。因此,机器学习模型对图数据样本进行分析时可提取到全面、准确的数据特征,再根据中间行为预测结果与图数据样本相应的标签的差异,不断调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。这样训练出的机器学习模型可对用户进行准确的行为结果预测,大大提高了模型训练的准确性和有效性,进而提高后续数据挖掘结果的准确性。
在一个实施例中,步骤S706具体步骤:通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算图数据样本中样本节点相应的隐含特征向量;通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
具体地,计算机设备可根据样本节点间的边,确定与样本节点相关的样本节点。比如,计算机设备可确定与样本节点通过边相邻的样本节点。或者,计算机设备还可根据图数据样本中的边,确定该样本节点的二度样本节点、三度样本节点或其他多度样本节点等。计算机设备可通过机器学习模型,根据图数据样本所包括的样本节点的样本节点属性、与该样本节点相关的样本节点的样本节点属性,共同迭代计算图数据样本中各样本节点相应的隐含特征向量。计算机设备再根据迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
在一个实施例中,计算机设备通过机器学习模型的第一神经网络,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量。再根据迭代计算得到的隐含特征向量进行计算,输出当次迭代的样本节点中用户样本节点所对应的中间行为预测结果。按照当次迭代的中间行为预测结果与标签的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,计算机设备可通过机器学习模型的第一神经网络,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量、及该节点的二度节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,共同计算每个样本节点当次迭代的隐含特征向量。再根据迭代计算得到的隐含特征向量进行计算,输出当次迭代的样本节点中用户样本节点所对应的中间行为预测结果。按照当次迭代的中间行为预测结果与标签的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,机器学习模型的第一神经网络初次计算每个样本节点当次迭代的隐含特征向量时,可假设初次迭代的前次迭代的隐含特征向量为一个随机值。也就是说,在算法迭代初始,为该样本节点前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量或该样本节点的二度样本节点的前次迭代的隐含特征向量设置一个初始的随机值。这样将计算出的样本节点的当次隐含特征向量作为下次迭代计算的前次隐含特征向量进行迭代计算。
上述实施例中,通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算出图数据中样本节点相应的隐含特征向量,再根据隐含特征向量输出用户样本节点所对应的中间行为预测结果。这样,通过机器学习模型习得图数据样本的数据特征,将结构化的图数据样本转换成隐含特征向量,再根据隐含特征向量计算用户样本节点所对应的中间行为预测结果,可使得用户样本节点所对应的中间行为预测结果更准确。
在一个实施例中,通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算图数据样本中样本节点相应的隐含特征向量的步骤具体包括:通过机器学习模型,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量。通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果的步骤具体包括:通过机器学习模型,根据当次迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
具体地,计算机设备可通过机器学习模型,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量。通过机器学习模型,根据当次迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。按照当次迭代的中间行为预测结果与标签的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,计算机设备可以通过以下公式计算每个样本节点当次迭代的隐含特征向量:其中,是样本节点n当次迭代的隐含特征向量;分别是前次调整得到的模型参数;是样本节点n前次迭代的隐含特征向量;dn是样本节点n相应的节点属性;k{n,l}=1表示样本节点n和样本节点l相邻;是所有与样本节点n相邻的样本节点l前次迭代的隐含特征向量的和;f表示映射关系。
在一个实施例中,对于用户样本节点,计算机设备可采用如下公式计算用户样本节点的当次迭代的隐含特征向量
其中,是用户样本节点当次迭代的隐含特征向量;分别是前次调整得到的模型参数;是用户样本节点前次迭代的隐含特征向量;xi是用户样本节点相应的节点属性;是与用户样本节点相邻的用户样本节点的前次迭代的隐含特征向量;是所有与用户样本节点相邻的用户样本节点前次迭代的隐含特征向量的和;是与用户样本节点相邻的公众标识样本节点的前次迭代的隐含特征向量;是所有与用户样本节点相邻的公众标识样本节点的前次迭代的隐含特征向量的和;f3表示映射关系。
在一个实施例中,对于公众标识样本节点,计算机设备可采用如下公式计算用户样本节点的当次迭代的隐含特征向量
其中,是公众标识样本节点的当次迭代的隐含特征向量;分别是前次调整得到的模型参数;是公众标识样本节点的前次迭代的隐含特征向量;gj是公众标识样本节点相应的节点属性;是与公众标识样本节点相邻的用户样本节点的前次迭代的隐含特征向量;是所有与公众标识样本节点相邻的用户样本节点的前次迭代的隐含特征向量的和;f4表示映射关系。
在一个实施例中,计算机设备根据用户样本节点当次迭代的隐含特征向量以及公众标识样本节点当次迭代的隐含特征向量来计算中间行为预测结果,中间行为预测结果比如样本用户自身行为的中间预测结果时或样本用户针对样本公众标识行为的中间预测结果其中,当次迭代的样本用户自身行为的中间预测结果时可用如下公式计算:其中,表示用户样本节点当次迭代的隐含特征向量;是前次调整得到的模型参数;f1表示映射关系。当次迭代的样本用户针对样本公众标识行为的中间预测结果可用如下公式计算:其中,表示用户样本节点当次迭代的隐含特征向量;表示公众标识样本节点当次迭代的隐含特征向量;是所有与用户样本节点相邻的公众标识样本节点当次迭代的隐含特征向量的和;分别是前次调整得到的模型参数;f2表示映射关系。
进一步地,对于中间行为预测结果为样本用户自身的行为预测结果时,当次迭代过程中的损失函数可表示为:对于中间行为预测结果为样本用户针对样本公众标识行为的预测结果时,当次迭代过程中的损失函数可表示为: 再根据损失函数的梯度下降方法,更新参数Wt。当模型训练满足训练停止条件时结束训练,保存训练结束时得到的模型参数。
在一个实施例中,训练停止条件为迭代计算次数达到预设次数,比如T次。计算机设备在每个迭代计算周期内,都根据前次迭代计算所的数据计算当次迭代的数据,并根据中间行为预测结果与标签的差异调整模型参数,直到迭代计算达到预设次数为止。
上述实施例中,通过机器学习模型,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量。再根据当次迭代计算得到的隐含特征向量,计算输出样本节点中用户样本节点所对应的中间行为预测结果。可以通过不断的迭代,使得计算出的样本节点相应的隐含特征向量可以完全反映与样本节点相关的样本节点属性和图数据样本中边的信息等,可以充分表示样本节点。并且,在模型训练过程中,所需更新的模型参数远远少于传统模型训练所需更新的参数,大大提高了模型训练的效率。
如图8所示,在一个具体的实施例中,用于数据挖掘的模型训练方法包括以下步骤:
S802,获取图数据样本和相应的标签;图数据样本包括样本节点属性以及样本节点间的边,样本节点包括用户样本节点和公众标识样本节点。
S804,将图数据样本输入机器学习模型。
S806,通过机器学习模型,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量。
S808,通过机器学习模型,根据当次迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
S810,按照中间行为预测结果与标签的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
上述用于数据挖掘的模型训练方法,将包括有样本节点属性以及样本节点间的边的图数据样本输入机器学习模型,通过机器学习模型确定用户样本节点所对应的中间行为预测结果。其中,样本节点包括用户样本节点和公众标识样本节点。由于图数据样本中包括样本节点属性,以及样本节点间的边,可使得机器学习模型充分利用图数据样本中样本节点间的关系信息、以及相应的样本节点的属性信息等。样本节点间的关系信息,比如用户样本节点和用户样本节点间的关系信息、用户样本节点和公众标识样本节点间的关系信息等,可充分体现出样本用户的行为习惯或喜好等。因此,机器学习模型对图数据样本进行分析时可提取到全面、准确的数据特征,再根据中间行为预测结果与图数据样本相应的标签的差异,不断调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。这样训练出的机器学习模型可对用户节点进行准确的行为结果预测,大大提高了模型训练的准确性和有效性,进而提高后续数据挖掘结果的准确性。
图8为一个实施例中用于数据挖掘的模型训练方法的流程示意图。应该理解的是,虽然图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在具体应用场景中,用户可通过用户账号登录社交应用,公众标识所在的平台也可通过社交应用推送相关的推广信息至相关的用户,推广信息比如广告、新闻或交易链接等等。社交应用的服务器记录用户行为并存储至关系型数据库中。
举例说明,用户可通过微信账号登录微信应用,用户可选择关注某个公众标识,比如公众号。公众号所在的平台可以向所有关注公众号的用户推送消息,比如广告、文章或新闻等。用户可阅读公众号所推送的文章,或者点击公众号推送的广告。用户通过微信账号登录微信应用后,还可通过微信中的小程序管理其他平台帐号、通过微信支付购买线上线下产品、通过小程序借款或理财等。微信应用的后台服务器可记录并存储相应的用户行为。
如图9所示,图9示出了一个实施例中基于图数据的数据挖掘系统架构。计算机设备可从相应的社交应用的后台服务器获取在关系型数据库中存储的有关用户行为的数据,按照知识图谱的结构进行重组,并以图数据格式存储至图数据库中。
计算机设备再从图数据库中选择样本和相应的标签,通过参数学习系统对机器学习模型进行训练。随机初始化参数w,在不断训练模型的过程中则不断调整更新模型参数w,直至满足训练停止条件时结束训练,得到训练好的模型参数。推荐系统或决策系统从图数据库中获取最新图数据,再通过训练好的机器学习模型,确定与用户相关的行为预测结果。
与用户相关的行为预测结果可以包括用户点击广告、购买产品或贷款违约的概率。根据与用户相关的行为预测结果,推荐系统或决策系统可以仅对点击广告的概率、购买产品的概率高于阈值的所有用户展示广告,对贷款违约概率高于阈值的用户拒绝贷款。
与用户相关的行为预测结果还可以包括某一用户购买某一公众号提供产品的概率。根据与用户相关的行为预测结果,推荐系统或决策系统可以对任意的用户,选择使用户购买公众号提供产品的概率最高的公众号提供的产品进行推荐。
如图10所示,在一个实施例中,提供了一种基于图数据的数据挖掘装置1000,包括:获取模块1001、输入模块1002、确定模块1003和筛选模块1004。
获取模块1001,用于获取图数据;图数据包括节点属性以及节点间的边,节点包括用户节点和公众标识节点。
输入模块1002,用于将图数据输入训练过的机器学习模型。
确定模块1003,用于通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,确定节点中用户节点所对应的行为预测结果。
筛选模块1004,用于从图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
上述基于图数据的数据挖掘装置,将包括有节点属性以及节点间的边的图数据输入训练过的机器学习模型,通过训练过的机器学习模型确定节点中用户节点所对应的行为预测结果。其中,节点包括用户节点和公众标识节点。由于图数据中包括节点属性,以及节点间的边,可使得训练过的机器学习模型充分利用图数据中节点间的关系信息、以及相应的节点的属性信息等。节点间的关系信息,比如用户节点和用户节点间的关系信息、用户节点和公众标识节点间的关系信息等,可充分体现出用户的行为习惯或喜好等。因此,训练过的机器学习模型对图数据进行分析时可提取到全面、准确的数据特征,进而获得用户节点所对应的准确的行为预测结果。再根据行为预测结果,筛选符合数据挖掘条件的用户节点,这样筛选出的用户节点也就是挖掘出的潜在的有价值的用户节点,大大提高了数据挖掘结果的准确性。
如图11所示,在一个实施例中,获取模块1001包括读取模块1101和构建模块1102:
读取模块1101,用于从关系型数据库中读取用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系;
构建模块1102,用于根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据。
上述实施例中,根据关系型数据库中的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据,可以将存储于大量二维行列表格中的数据进行重组,方便快捷地构建异构结构的图数据。
在一个实施例中,构建模块1102还用于根据读取的用户标识与相应的用户属性,构建图数据中的用户节点和相应的节点属性;根据读取的公众标识与相应的公众标识属性,构建图数据中的公众标识节点和相应的节点属性;根据读取的用户关系,构建图数据中用户节点间的边;根据读取的行为关系,构建图数据中用户节点和公众标识节点间的边。
上述实施例中,根据用户标识与相应的用户属性,构建图数据中的用户节点和相应的节点属性。根据公众标识与相应的公众标识属性,构建图数据中的公众标识节点和相应的节点属性。再根据用户关系或行为关系,分别构建图数据中节点间的边。这样构建出的图数据可以充分表示用户节点和公众标识节点各自的节点属性,以及节点间的关系,方便快捷地将多个关系型数据中的重要数据组织起来,转换成相应的图数据,使得后续的数据挖掘得以顺利进行。
如图12所示,在一个实施例中,确定模块1003包括计算模块1201和输出模块1202:
计算模块1201,用于通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,迭代计算图数据中节点相应的隐含特征向量。
输出模块1202,用于通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出节点中用户节点所对应的行为预测结果。
上述实施例中,通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,迭代计算出图数据中节点相应的隐含特征向量,再根据隐含特征向量输出用户节点所对应的行为预测结果。这样,通过机器学习模型习得图数据的数据特征,将结构化的图数据转换成隐含特征向量,再根据隐含特征向量计算用户节点所对应的行为预测结果,可使得用户节点所对应的行为预测结果更准确。
在一个实施例中,计算模块1201还用于通过机器学习模型,对于图数据中每个节点,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。
上述实施例中,通过机器学习模型,对于图数据中每个节点,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。可以通过不断的迭代,使得计算出的节点相应的隐含特征向量可以完全反映与节点相关的节点属性和图数据中边的信息等,可以充分表示节点。
在一个实施例中,计算模块还用于通过以下公式计算每个节点当次迭代的隐含特征向量:
其中,是节点n当次迭代的隐含特征向量;w1、w2和w3分别是模型参数;是节点n前次迭代的隐含特征向量;dn是节点n相应的节点属性;k{n,l}=1表示节点n和节点l相邻;是所有与节点n相邻的节点l前次迭代的隐含特征向量的和;f表示映射关系。
上述实施例中,根据相应的公式迭代计算每个节点当次迭代的隐含特征向量,通过不断的迭代,使得计算出的节点相应的隐含特征向量可以完全反映与节点相关的节点属性和图数据中边的信息等,可以充分表示节点。
如图13所示,在一个实施例中,当行为预测结果是用户针对公众标识行为预测概率时,筛选模块1004还用于从图数据所包括的用户节点和公众标识节点中,筛选用户节点和相应的公众标识节点,且筛选出的用户节点和相应的公众标识节点共同对应的行为预测结果符合数据挖掘条件。该基于图数据的数据挖掘装置1000还包括执行模块1005:执行模块1005,用于针对筛选出的用户节点执行与筛选的公众标识节点相关的业务操作。
上述实施例中,通过筛选行为预测结果符合数据挖掘条件的用户节点和相应的公众标识节点,可针对筛选出的用户节点执行与筛选的公众标识节点相关的业务操作,以实现与用户节点和公众标识节点都相关的业务操作。
如图14所示,在一个实施例中,提供了一种用于数据挖掘的模型训练装置1400,包括:获取模块1401、输入模块1402、确定模块1403和调整模块1404。
获取模块1401,用于获取图数据样本和相应的标签;图数据样本包括样本节点属性以及样本节点间的边,样本节点包括用户样本节点和公众标识样本节点。
输入模块1402,用于将图数据样本输入机器学习模型。
确定模块1403,用于通过机器学习模型,基于图数据样本包括的样本节点属性以及样本节点间的边,确定样本节点中用户样本节点所对应的中间行为预测结果。
调整模块1404,用于按照中间行为预测结果与标签的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
上述用于数据挖掘的模型训练方法,将包括有样本节点属性以及样本节点间的边的图数据样本输入机器学习模型,通过机器学习模型确定用户样本节点所对应的中间行为预测结果。其中,样本节点包括用户样本节点和公众标识样本节点。由于图数据样本中包括样本节点属性,以及样本节点间的边,可使得机器学习模型充分利用图数据样本中样本节点间的关系信息、以及相应的样本节点的属性信息等。样本节点间的关系信息,比如用户样本节点和用户样本节点间的关系信息、用户样本节点和公众标识样本节点间的关系信息等,可充分体现出样本用户的行为习惯或喜好等。因此,机器学习模型对图数据样本进行分析时可提取到全面、准确的数据特征,再根据中间行为预测结果与图数据样本相应的标签的差异,不断调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。这样训练出的机器学习模型可对用户进行准确的行为结果预测,大大提高了模型训练的准确性和有效性,进而提高后续数据挖掘结果的准确性。
如图15所示,在一个实施例中,确定模块1403包括计算模块1501和输出模块1502:
计算模块1501,用于通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算图数据样本中样本节点相应的隐含特征向量。
输出模块1502,用于通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
上述实施例中,通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算出图数据中样本节点相应的隐含特征向量,再根据隐含特征向量输出用户样本节点所对应的中间行为预测结果。这样,通过机器学习模型习得图数据样本的数据特征,将结构化的图数据样本转换成隐含特征向量,再根据隐含特征向量计算用户样本节点所对应的中间行为预测结果,可使得用户样本节点所对应的中间行为预测结果更准确。
在一个实施例中,计算模块1501还用于通过机器学习模型,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量。输出模块1502还用于通过机器学习模型,根据当次迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
上述实施例中,通过机器学习模型,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量。再根据当次迭代计算得到的隐含特征向量,计算输出样本节点中用户样本节点所对应的中间行为预测结果。可以通过不断的迭代,使得计算出的样本节点相应的隐含特征向量可以完全反映与样本节点相关的样本节点属性和图数据样本中边的信息等,可以充分表示样本节点。并且,在模型训练过程中,所需更新的模型参数远远少于传统模型训练所需更新的参数,大大提高了模型训练的效率。
在一个实施例中,本申请提供的基于图数据的数据挖掘装置和/或用于数据挖掘的模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图1所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于图数据的数据挖掘装置和/或用于数据挖掘的模型训练装置的各个程序模块,比如,图10所示的获取模块、输入模块、确定模块和筛选模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于图数据的数据挖掘方法中的步骤。还比如,图14所示的获取模块、输入模块、确定模块和调整模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的用于数据挖掘的模型训练方法中的步骤。
例如,图1所示的计算机设备可以通过如图10所示的基于图数据的数据挖掘装置中的获取模块执行步骤S202。计算机设备可通过输入模块执行步骤S204。计算机设备可通过确定模块执行步骤S206。计算机设备可通过筛选模块执行步骤S208。
例如,图1所示的计算机设备可以通过如图14所示的用于数据挖掘的模型训练装置中的获取模块执行步骤S702。计算机设备可通过输入模块执行步骤S704。计算机设备可通过确定模块执行步骤S706。计算机设备可通过调整模块执行步骤S708。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取图数据;图数据包括节点属性以及节点间的边,节点包括用户节点和公众标识节点;将图数据输入训练过的机器学习模型;通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,确定节点中用户节点所对应的行为预测结果;从图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
在一个实施例中,计算机程序使得处理器在执行获取图数据的步骤时具体执行以下步骤:从关系型数据库中读取用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系;根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据。
在一个实施例中,计算机程序使得处理器在执行根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据的步骤时具体执行以下步骤:根据读取的用户标识与相应的用户属性,构建图数据中的用户节点和相应的节点属性;根据读取的公众标识与相应的公众标识属性,构建图数据中的公众标识节点和相应的节点属性;根据读取的用户关系,构建图数据中用户节点间的边;根据读取的行为关系,构建图数据中用户节点和公众标识节点间的边。
在一个实施例中,计算机程序使得处理器在执行通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,确定节点中用户节点所对应的行为预测结果的步骤时具体执行以下步骤:通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,迭代计算图数据中节点相应的隐含特征向量;通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出节点中用户节点所对应的行为预测结果。
在一个实施例中,计算机程序使得处理器在执行通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,迭代计算图数据中节点相应的隐含特征向量的步骤时具体执行以下步骤:通过机器学习模型,对于图数据中每个节点,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。
在一个实施例中,通过以下公式计算每个节点当次迭代的隐含特征向量:
其中,是节点n当次迭代的隐含特征向量;w1、w2和w3分别是模型参数;是节点n前次迭代的隐含特征向量;dn是节点n相应的节点属性;k{n,l}=1表示节点n和节点l相邻;是所有与节点n相邻的节点l前次迭代的隐含特征向量的和;f表示映射关系。
在一个实施例中,当行为预测结果是用户针对公众标识行为预测概率时,计算机程序使得处理器在执行从图数据所包括的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点的步骤时具体执行以下步骤:从图数据所包括的用户节点和公众标识节点中,筛选用户节点和相应的公众标识节点,且筛选出的用户节点和相应的公众标识节点共同对应的行为预测结果符合数据挖掘条件;计算机程序使得还处理器执行以下步骤:针对筛选出的用户节点执行与筛选的公众标识节点相关的业务操作。
上述计算机设备,将包括有节点属性以及节点间的边的图数据输入训练过的机器学习模型,通过训练过的机器学习模型确定节点中用户节点所对应的行为预测结果。其中,节点包括用户节点和公众标识节点。由于图数据中包括节点属性,以及节点间的边,可使得训练过的机器学习模型充分利用图数据中节点间的关系信息、以及相应的节点的属性信息等。节点间的关系信息,比如用户节点和用户节点间的关系信息、用户节点和公众标识节点间的关系信息等,可充分体现出用户的行为习惯或喜好等。因此,训练过的机器学习模型对图数据进行分析时可提取到全面、准确的数据特征,进而获得用户节点所对应的准确的行为预测结果。再根据行为预测结果,筛选符合数据挖掘条件的用户节点,这样筛选出的用户节点也就是挖掘出的潜在的有价值的用户节点,大大提高了数据挖掘结果的准确性。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取图数据样本和相应的标签;图数据样本包括样本节点属性以及样本节点间的边,样本节点包括用户样本节点和公众标识样本节点;将图数据样本输入机器学习模型;通过机器学习模型,基于图数据样本包括的样本节点属性以及样本节点间的边,确定样本节点中用户样本节点所对应的中间行为预测结果;按照中间行为预测结果与标签的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,计算机程序使得处理器在执行通过机器学习模型,基于图数据样本包括的样本节点属性以及样本节点间的边,确定样本节点中用户样本节点所对应的中间行为预测结果的步骤时具体执行以下步骤:通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算图数据样本中样本节点相应的隐含特征向量;通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
在一个实施例中,计算机程序使得处理器在执行通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算图数据样本中样本节点相应的隐含特征向量的步骤时具体执行以下步骤:通过机器学习模型,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量;计算机程序使得处理器在执行通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果的步骤时具体执行以下步骤:通过机器学习模型,根据当次迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
上述计算机设备,将包括有样本节点属性以及样本节点间的边的图数据样本输入机器学习模型,通过机器学习模型确定用户样本节点所对应的中间行为预测结果。其中,样本节点包括用户样本节点和公众标识样本节点。由于图数据样本中包括样本节点属性,以及样本节点间的边,可使得机器学习模型充分利用图数据样本中样本节点间的关系信息、以及相应的样本节点的属性信息等。样本节点间的关系信息,比如用户样本节点和用户样本节点间的关系信息、用户样本节点和公众标识样本节点间的关系信息等,可充分体现出样本用户的行为习惯或喜好等。因此,机器学习模型对图数据样本进行分析时可提取到全面、准确的数据特征,再根据中间行为预测结果与图数据样本相应的标签的差异,不断调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。这样训练出的机器学习模型可对用户节点进行准确的行为结果预测,大大提高了模型训练的准确性和有效性,进而提高后续数据挖掘结果的准确性。
一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:获取图数据;图数据包括节点属性以及节点间的边,节点包括用户节点和公众标识节点;将图数据输入训练过的机器学习模型;通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,确定节点中用户节点所对应的行为预测结果;从图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
在一个实施例中,计算机程序使得处理器在执行获取图数据的步骤时具体执行以下步骤:从关系型数据库中读取用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系;根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据。
在一个实施例中,计算机程序使得处理器在执行根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户关系和行为关系,构建图数据的步骤时具体执行以下步骤:根据读取的用户标识与相应的用户属性,构建图数据中的用户节点和相应的节点属性;根据读取的公众标识与相应的公众标识属性,构建图数据中的公众标识节点和相应的节点属性;根据读取的用户关系,构建图数据中用户节点间的边;根据读取的行为关系,构建图数据中用户节点和公众标识节点间的边。
在一个实施例中,计算机程序使得处理器在执行通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,确定节点中用户节点所对应的行为预测结果的步骤时具体执行以下步骤:通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,迭代计算图数据中节点相应的隐含特征向量;通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出节点中用户节点所对应的行为预测结果。
在一个实施例中,计算机程序使得处理器在执行通过机器学习模型,基于图数据所包括的节点属性以及节点间的边,迭代计算图数据中节点相应的隐含特征向量的步骤时具体执行以下步骤:通过机器学习模型,对于图数据中每个节点,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。
在一个实施例中,通过以下公式计算每个节点当次迭代的隐含特征向量:
其中,是节点n当次迭代的隐含特征向量;w1、w2和w3分别是模型参数;是节点n前次迭代的隐含特征向量;dn是节点n相应的节点属性;k{n,l}=1表示节点n和节点l相邻;是所有与节点n相邻的节点l前次迭代的隐含特征向量的和;f表示映射关系。
在一个实施例中,当行为预测结果是用户针对公众标识行为预测概率时,计算机程序使得处理器在执行从图数据所包括的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点的步骤时具体执行以下步骤:从图数据所包括的用户节点和公众标识节点中,筛选用户节点和相应的公众标识节点,且筛选出的用户节点和相应的公众标识节点共同对应的行为预测结果符合数据挖掘条件;计算机程序使得还处理器执行以下步骤:针对筛选出的用户节点执行与筛选的公众标识节点相关的业务操作。
上述计算机可读存储介质,将包括有节点属性以及节点间的边的图数据输入训练过的机器学习模型,通过训练过的机器学习模型确定节点中用户节点所对应的行为预测结果。其中,节点包括用户节点和公众标识节点。由于图数据中包括节点属性,以及节点间的边,可使得训练过的机器学习模型充分利用图数据中节点间的关系信息、以及相应的节点的属性信息等。节点间的关系信息,比如用户节点和用户节点间的关系信息、用户节点和公众标识节点间的关系信息等,可充分体现出用户的行为习惯或喜好等。因此,训练过的机器学习模型对图数据进行分析时可提取到全面、准确的数据特征,进而获得用户节点所对应的准确的行为预测结果。再根据行为预测结果,筛选符合数据挖掘条件的用户节点,这样筛选出的用户节点也就是挖掘出的潜在的有价值的用户节点,大大提高了数据挖掘结果的准确性。
一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:获取图数据样本和相应的标签;图数据样本包括样本节点属性以及样本节点间的边,样本节点包括用户样本节点和公众标识样本节点;将图数据样本输入机器学习模型;通过机器学习模型,基于图数据样本包括的样本节点属性以及样本节点间的边,确定样本节点中用户样本节点所对应的中间行为预测结果;按照中间行为预测结果与标签的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,计算机程序使得处理器在执行通过机器学习模型,基于图数据样本包括的样本节点属性以及样本节点间的边,确定样本节点中用户样本节点所对应的中间行为预测结果的步骤时具体执行以下步骤:通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算图数据样本中样本节点相应的隐含特征向量;通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
在一个实施例中,计算机程序使得处理器在执行通过机器学习模型,基于图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算图数据样本中样本节点相应的隐含特征向量的步骤时具体执行以下步骤:通过机器学习模型,对于图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量;计算机程序使得处理器在执行通过机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果的步骤时具体执行以下步骤:通过机器学习模型,根据当次迭代计算得到的隐含特征向量进行计算,输出样本节点中用户样本节点所对应的中间行为预测结果。
上述计算机可读存储介质,将包括有样本节点属性以及样本节点间的边的图数据样本输入机器学习模型,通过机器学习模型确定用户样本节点所对应的中间行为预测结果。其中,样本节点包括用户样本节点和公众标识样本节点。由于图数据样本中包括样本节点属性,以及样本节点间的边,可使得机器学习模型充分利用图数据样本中样本节点间的关系信息、以及相应的样本节点的属性信息等。样本节点间的关系信息,比如用户样本节点和用户样本节点间的关系信息、用户样本节点和公众标识样本节点间的关系信息等,可充分体现出样本用户的行为习惯或喜好等。因此,机器学习模型对图数据样本进行分析时可提取到全面、准确的数据特征,再根据中间行为预测结果与图数据样本相应的标签的差异,不断调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。这样训练出的机器学习模型可对用户节点进行准确的行为结果预测,大大提高了模型训练的准确性和有效性,进而提高后续数据挖掘结果的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种基于图数据的数据挖掘方法,包括:
获取图数据;所述图数据包括节点属性以及节点间的边,所述节点包括用户节点和公众标识节点;
将所述图数据输入训练过的机器学习模型;
通过所述机器学习模型,基于所述图数据所包括的节点属性以及节点间的边,确定所述节点中用户节点所对应的行为预测结果;
从所述图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
2.根据权利要求1所述的方法,其特征在于,所述获取图数据,包括:
从关系型数据库中读取用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系;
根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、所述用户关系和所述行为关系,构建图数据。
3.根据权利要求2所述的方法,其特征在于,所述根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、所述用户关系和所述行为关系,构建图数据,包括:
根据读取的用户标识与相应的用户属性,构建图数据中的用户节点和相应的节点属性;
根据读取的公众标识与相应的公众标识属性,构建图数据中的公众标识节点和相应的节点属性;
根据读取的用户关系,构建图数据中用户节点间的边;
根据读取的行为关系,构建图数据中用户节点和公众标识节点间的边。
4.根据权利要求1所述的方法,其特征在于,所述通过所述机器学习模型,基于所述图数据所包括的节点属性以及节点间的边,确定所述节点中用户节点所对应的行为预测结果,包括:
通过所述机器学习模型,基于所述图数据所包括的节点属性以及节点间的边,迭代计算所述图数据中节点相应的隐含特征向量;
通过所述机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出所述节点中用户节点所对应的行为预测结果。
5.根据权利要求4所述的方法,其特征在于,所述通过所述机器学习模型,基于所述图数据所包括的节点属性以及节点间的边,迭代计算所述图数据中节点相应的隐含特征向量,包括:
通过所述机器学习模型,对于所述图数据中每个节点,根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,直至当次迭代的隐含特征向量满足迭代停止条件。
6.根据权利要求5所述的方法,其特征在于,所述根据相应的节点属性、前次迭代的隐含特征向量、及通过边相邻的节点的前次迭代的隐含特征向量,计算每个节点当次迭代的隐含特征向量,包括:
通过以下公式计算每个节点当次迭代的隐含特征向量:
其中,是节点n当次迭代的隐含特征向量;w1、w2和w3分别是模型参数;是节点n前次迭代的隐含特征向量;dn是节点n相应的节点属性;k{n,l}=1表示节点n和节点l相邻;是所有与节点n相邻的节点l前次迭代的隐含特征向量的和;f表示映射关系。
7.根据权利要求1至6任一项所述的方法,其特征在于,当所述行为预测结果是用户针对公众标识行为预测概率时,所述从所述图数据所包括的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点,包括:
从所述图数据所包括的用户节点和公众标识节点中,筛选用户节点和相应的公众标识节点,且筛选出的用户节点和相应的公众标识节点共同对应的行为预测结果符合数据挖掘条件;
所述方法还包括:
针对筛选出的用户节点执行与筛选的公众标识节点相关的业务操作。
8.一种用于数据挖掘的模型训练方法,包括:
获取图数据样本和相应的标签;所述图数据样本包括样本节点属性以及样本节点间的边,所述样本节点包括用户样本节点和公众标识样本节点;
将所述图数据样本输入机器学习模型;
通过所述机器学习模型,基于所述图数据样本包括的样本节点属性以及样本节点间的边,确定所述样本节点中用户样本节点所对应的中间行为预测结果;
按照所述中间行为预测结果与所述标签的差异,调整所述机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
9.根据权利要求8所述的方法,其特征在于,所述通过所述机器学习模型,基于所述图数据样本包括的样本节点属性以及样本节点间的边,确定所述样本节点中用户样本节点所对应的中间行为预测结果,包括:
通过所述机器学习模型,基于所述图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算所述图数据样本中样本节点相应的隐含特征向量;
通过所述机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出所述样本节点中用户样本节点所对应的中间行为预测结果。
10.根据权利要求9所述的方法,其特征在于,所述通过所述机器学习模型,基于所述图数据样本所包括的样本节点属性以及样本节点间的边,迭代计算所述图数据样本中样本节点相应的隐含特征向量,包括:
通过所述机器学习模型,对于所述图数据样本中每个样本节点,根据相应的样本节点属性、前次迭代的隐含特征向量、及通过边相邻的样本节点的前次迭代的隐含特征向量,结合前次调整得到的模型参数,计算每个样本节点当次迭代的隐含特征向量;
所述通过所述机器学习模型,根据迭代计算得到的隐含特征向量进行计算,输出所述样本节点中用户样本节点所对应的中间行为预测结果,包括:
通过所述机器学习模型,根据当次迭代计算得到的隐含特征向量进行计算,输出所述样本节点中用户样本节点所对应的中间行为预测结果。
11.一种基于图数据的数据挖掘装置,其特征在于,所述装置包括:
获取模块,用于获取图数据;所述图数据包括节点属性以及节点间的边,所述节点包括用户节点和公众标识节点;
输入模块,用于将所述图数据输入训练过的机器学习模型;
确定模块,用于通过所述机器学习模型,基于所述图数据所包括的节点属性以及节点间的边,确定所述节点中用户节点所对应的行为预测结果;
筛选模块,用于从所述图数据中的用户节点中,筛选所对应行为预测结果符合数据挖掘条件的用户节点。
12.根据权利要求11所述的装置,其特征在于,所述获取模块包括读取模块和构建模块:
读取模块,用于从关系型数据库中读取用户标识与相应的用户属性、公众标识与相应的公众标识属性、用户标识间的用户关系以及用户标识和公众标识间的行为关系;
构建模块,用于根据读取的用户标识与相应的用户属性、公众标识与相应的公众标识属性、所述用户关系和所述行为关系,构建图数据。
13.一种用于数据挖掘的模型训练装置,所述装置包括:
获取模块,用于获取图数据样本和相应的标签;所述图数据样本包括样本节点属性以及样本节点间的边,所述样本节点包括用户样本节点和公众标识样本节点;
输入模块,用于将所述图数据样本输入机器学习模型;
确定模块,用于通过所述机器学习模型,基于所述图数据样本包括的样本节点属性以及样本节点间的边,确定所述样本节点中用户样本节点所对应的中间行为预测结果;
调整模块,用于按照所述中间行为预测结果与所述标签的差异,调整所述机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
CN201810246990.5A 2018-03-23 2018-03-23 基于图数据的数据挖掘方法和装置、模型训练方法和装置 Active CN108491511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810246990.5A CN108491511B (zh) 2018-03-23 2018-03-23 基于图数据的数据挖掘方法和装置、模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810246990.5A CN108491511B (zh) 2018-03-23 2018-03-23 基于图数据的数据挖掘方法和装置、模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN108491511A true CN108491511A (zh) 2018-09-04
CN108491511B CN108491511B (zh) 2022-03-18

Family

ID=63319545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810246990.5A Active CN108491511B (zh) 2018-03-23 2018-03-23 基于图数据的数据挖掘方法和装置、模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN108491511B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582831A (zh) * 2018-10-16 2019-04-05 中国科学院计算机网络信息中心 一种支持非结构化数据存储与查询的图数据库管理系统
CN109614542A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 公众号推荐方法、装置、计算机设备及存储介质
CN110457505A (zh) * 2019-07-04 2019-11-15 特斯联(北京)科技有限公司 基于图数据库进行关系挖掘的方法和装置
CN111309815A (zh) * 2018-12-12 2020-06-19 北京嘀嘀无限科技发展有限公司 一种关系图谱的处理方法、装置和电子设备
WO2020147595A1 (zh) * 2019-01-16 2020-07-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111444287A (zh) * 2020-03-17 2020-07-24 北京齐尔布莱特科技有限公司 图数据库构建方法、关联信息查询方法、装置及计算设备
CN111783968A (zh) * 2020-06-30 2020-10-16 山东信通电子股份有限公司 一种基于云边协同的输电线路监测方法及系统
WO2021047021A1 (zh) * 2019-09-09 2021-03-18 平安科技(深圳)有限公司 信息挖掘方法、装置、设备和存储介质
CN112601215A (zh) * 2020-12-01 2021-04-02 深圳市和讯华谷信息技术有限公司 一种设备标识统一的方法及装置
WO2021169454A1 (zh) * 2020-02-25 2021-09-02 支付宝(杭州)信息技术有限公司 图特征处理的方法及装置
CN113761286A (zh) * 2020-06-01 2021-12-07 杭州海康威视数字技术股份有限公司 一种知识图谱的图嵌入方法、装置及电子设备
WO2022217712A1 (zh) * 2021-04-16 2022-10-20 平安科技(深圳)有限公司 数据挖掘方法、装置、计算机设备及存储介质
CN111783968B (zh) * 2020-06-30 2024-05-31 山东信通电子股份有限公司 一种基于云边协同的输电线路监测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法
CN103346565A (zh) * 2013-07-26 2013-10-09 华北电力大学 基于向量有向图的电网薄弱节点辨识方法
US20140317033A1 (en) * 2013-04-23 2014-10-23 International Business Machines Corporation Predictive and descriptive analysis on relations graphs with heterogeneous entities
CN106295844A (zh) * 2015-06-12 2017-01-04 华为技术有限公司 一种数据处理方法、装置、系统及电子设备
CN106447066A (zh) * 2016-06-01 2017-02-22 上海坤士合生信息科技有限公司 一种大数据的特征提取方法和装置
US20170185910A1 (en) * 2015-12-28 2017-06-29 International Business Machines Corporation Steering graph mining algorithms applied to complex networks
CN106960251A (zh) * 2017-03-09 2017-07-18 浙江工业大学 一种基于节点相似性的无向网络连边权值预测方法
US20170228435A1 (en) * 2016-02-05 2017-08-10 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
CN107797852A (zh) * 2016-09-06 2018-03-13 阿里巴巴集团控股有限公司 数据迭代的处理装置及处理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法
US20140317033A1 (en) * 2013-04-23 2014-10-23 International Business Machines Corporation Predictive and descriptive analysis on relations graphs with heterogeneous entities
CN103346565A (zh) * 2013-07-26 2013-10-09 华北电力大学 基于向量有向图的电网薄弱节点辨识方法
CN106295844A (zh) * 2015-06-12 2017-01-04 华为技术有限公司 一种数据处理方法、装置、系统及电子设备
US20170185910A1 (en) * 2015-12-28 2017-06-29 International Business Machines Corporation Steering graph mining algorithms applied to complex networks
US20170228435A1 (en) * 2016-02-05 2017-08-10 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
CN106447066A (zh) * 2016-06-01 2017-02-22 上海坤士合生信息科技有限公司 一种大数据的特征提取方法和装置
CN107797852A (zh) * 2016-09-06 2018-03-13 阿里巴巴集团控股有限公司 数据迭代的处理装置及处理方法
CN106960251A (zh) * 2017-03-09 2017-07-18 浙江工业大学 一种基于节点相似性的无向网络连边权值预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NTUHUIHUI: "灰灰深入浅出讲解循环神经网络(RNN)", 《HTTPS://BLOG.CSDN.NET/NTUHUIHUI/ARTICLE/DETAILS/78992554》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582831A (zh) * 2018-10-16 2019-04-05 中国科学院计算机网络信息中心 一种支持非结构化数据存储与查询的图数据库管理系统
CN109582831B (zh) * 2018-10-16 2022-02-01 中国科学院计算机网络信息中心 一种支持非结构化数据存储与查询的图数据库管理系统
CN109614542A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 公众号推荐方法、装置、计算机设备及存储介质
CN109614542B (zh) * 2018-12-11 2024-05-14 平安科技(深圳)有限公司 公众号推荐方法、装置、计算机设备及存储介质
CN111309815A (zh) * 2018-12-12 2020-06-19 北京嘀嘀无限科技发展有限公司 一种关系图谱的处理方法、装置和电子设备
WO2020147595A1 (zh) * 2019-01-16 2020-07-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN110457505A (zh) * 2019-07-04 2019-11-15 特斯联(北京)科技有限公司 基于图数据库进行关系挖掘的方法和装置
WO2021047021A1 (zh) * 2019-09-09 2021-03-18 平安科技(深圳)有限公司 信息挖掘方法、装置、设备和存储介质
WO2021169454A1 (zh) * 2020-02-25 2021-09-02 支付宝(杭州)信息技术有限公司 图特征处理的方法及装置
CN111444287A (zh) * 2020-03-17 2020-07-24 北京齐尔布莱特科技有限公司 图数据库构建方法、关联信息查询方法、装置及计算设备
CN111444287B (zh) * 2020-03-17 2024-03-15 北京齐尔布莱特科技有限公司 图数据库构建方法、关联信息查询方法、装置及计算设备
CN113761286A (zh) * 2020-06-01 2021-12-07 杭州海康威视数字技术股份有限公司 一种知识图谱的图嵌入方法、装置及电子设备
CN113761286B (zh) * 2020-06-01 2024-01-02 杭州海康威视数字技术股份有限公司 一种知识图谱的图嵌入方法、装置及电子设备
CN111783968A (zh) * 2020-06-30 2020-10-16 山东信通电子股份有限公司 一种基于云边协同的输电线路监测方法及系统
CN111783968B (zh) * 2020-06-30 2024-05-31 山东信通电子股份有限公司 一种基于云边协同的输电线路监测方法及系统
CN112601215A (zh) * 2020-12-01 2021-04-02 深圳市和讯华谷信息技术有限公司 一种设备标识统一的方法及装置
WO2022217712A1 (zh) * 2021-04-16 2022-10-20 平安科技(深圳)有限公司 数据挖掘方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN108491511B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN108491511A (zh) 基于图数据的数据挖掘方法和装置、模型训练方法和装置
US11995559B2 (en) Enhancing evolutionary optimization in uncertain environments by allocating evaluations via multi-armed bandit algorithms
US20180285685A1 (en) Dimension grouping and reduction for model generation, testing, and documentation
US20170192638A1 (en) Machine learning based webinterface production and deployment system
US20180253649A1 (en) Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm
US20100070426A1 (en) Object modeling for exploring large data sets
CN107924384A (zh) 用于使用预测学习模型预测结果的系统和方法
CN107392319A (zh) 生成机器学习样本的组合特征的方法及系统
CN105760443B (zh) 项目推荐系统、项目推荐装置以及项目推荐方法
CN110427560A (zh) 一种应用于推荐系统的模型训练方法以及相关装置
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
US20200242489A1 (en) Computer system and method of presenting information on basis of prediction result for input data
CN111694615B (zh) 数据配置的方法、装置、设备及存储介质
Mustafa et al. A Time Monte Carlo method for addressing uncertainty in land-use change models
CN110349013A (zh) 风险控制方法及装置
Linton et al. An extension to a DEA support system used for assessing R&D projects
Beer et al. Algorithms: Shaping tastes and manipulating the circulations of popular culture
US11755979B2 (en) Method and system for finding a solution to a provided problem using family tree based priors in Bayesian calculations in evolution based optimization
CN109656433A (zh) 类目信息处理方法、装置、计算机设备和存储介质
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN114881521A (zh) 业务评估方法、装置、电子设备以及存储介质
CN110109994A (zh) 包含结构化和非结构化数据的汽车金融风控模型
CN112328899A (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN110033031A (zh) 群组检测方法、装置、计算设备和机器可读存储介质
CN117539948B (zh) 基于深度神经网络的业务数据检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant