CN113656927A - 数据处理方法、相关设备及计算机程序产品 - Google Patents

数据处理方法、相关设备及计算机程序产品 Download PDF

Info

Publication number
CN113656927A
CN113656927A CN202111218394.4A CN202111218394A CN113656927A CN 113656927 A CN113656927 A CN 113656927A CN 202111218394 A CN202111218394 A CN 202111218394A CN 113656927 A CN113656927 A CN 113656927A
Authority
CN
China
Prior art keywords
identification
node
edge
class
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111218394.4A
Other languages
English (en)
Other versions
CN113656927B (zh
Inventor
邓金涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111218394.4A priority Critical patent/CN113656927B/zh
Publication of CN113656927A publication Critical patent/CN113656927A/zh
Application granted granted Critical
Publication of CN113656927B publication Critical patent/CN113656927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/02CAD in a network environment, e.g. collaborative CAD or distributed simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种数据处理方法、相关设备及计算机程序产品;方法包括:获取业务场景的多重异构网络,业务场景包括M类实体;多重异构网络包括M种节点和M种边,M类实体中的第一类实体包括多个对象标识:第一类对象注册的一个或多个第一对象标识,及第二类对象注册的一个或多个第二对象标识;根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系网络;对每个关系网络中的标识节点之间的边进行表征处理,得到每个关系网络的边表征信息;对M个关系网络的边表征信息进行融合学习,得到融合表征信息;基于融合表征信息和目标节点特征,预测目标标识节点所记录的第二对象标识被第一类对象使用的概率,可有效提升概率预测的准确性。

Description

数据处理方法、相关设备及计算机程序产品
技术领域
本申请涉及互联网技术领域,具体涉及人工智能技术领域,尤其涉及一种数据处理方法、相关设备及计算机程序产品。
背景技术
随着互联网技术的发展,越来越多的应用会对使用该应用的对象(如用户)进行分类,从而在为指定类型的对象提供业务服务,可对该指定类型的对象进行业务管控处理。
近年来,时常会存在指定类型的对象使用其他类对象的对象标识登陆设备中的应用,从而使用该对象标识通过应用所提供的业务服务执行业务处理的情况;基于此,为了在指定类型的对象使用其他类对象的对象标识时,仍可以精准地对该指定类型的对象进行业务管控处理,需要检测其他类对象的对象标识是否被指定类型的对象使用。目前,如何预测其他类对象的对象标识被指定类型的对象使用的概率,成为了研究热点。
发明内容
本申请实施例提供了一种数据处理方法、相关设备及计算机程序产品,可给出第二类对象注册的第二对象标识被第一类对象使用的概率估计,有效提升概率预测的准确性。
一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取业务场景的多重异构网络,所述业务场景包括M类实体,M大于1;所述多重异构网络包括M种节点和M种边,一种节点记录一类实体;所述M类实体中的第一类实体包括多个对象标识,所述多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系;
根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点,标识节点是指所述M种节点中用于记录对象标识的节点;
对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息;并对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息;
获取目标标识节点的目标节点特征,所述目标标识节点是指所述多重异构网络中的一个用于记录第二对象标识的标识节点;
基于所述融合表征信息和所述目标节点特征,预测所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率。
另一方面,本申请实施例提供了一种数据处理装置,所述装置包括:
获取单元,用于获取业务场景的多重异构网络,所述业务场景包括M类实体,M大于1;所述多重异构网络包括M种节点和M种边,一种节点记录一类实体;所述M类实体中的第一类实体包括多个对象标识,所述多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系;
处理单元,用于根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点,标识节点是指所述M种节点中用于记录对象标识的节点;
所述处理单元,还用于对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息;并对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息;
所述处理单元,还用于获取目标标识节点的目标节点特征,所述目标标识节点是指所述多重异构网络中的一个用于记录第二对象标识的标识节点;
预测单元,用于基于所述融合表征信息和所述目标节点特征,预测所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括输入接口和输出接口,所述计算机设备还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:
获取业务场景的多重异构网络,所述业务场景包括M类实体,M大于1;所述多重异构网络包括M种节点和M种边,一种节点记录一类实体;所述M类实体中的第一类实体包括多个对象标识,所述多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系;
根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点,标识节点是指所述M种节点中用于记录对象标识的节点;
对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息;并对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息;
获取目标标识节点的目标节点特征,所述目标标识节点是指所述多重异构网络中的一个用于记录第二对象标识的标识节点;
基于所述融合表征信息和所述目标节点特征,预测所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率。
再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述所提及的数据处理方法。
再一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序;所述计算机程序被处理器执行时,实现上述所提及的数据处理方法。
本申请实施例可基于业务场景的多重异构网络,给出第二类对象注册的第二对象标识被第一类对象使用的概率估计,从而通过该概率来辅助判断第二对象标识是否被第一类对象。由于该多重异构网络可包括M种节点和M种边,一种节点用于记录业务场景中的一类实体,且业务场景中的M类实体中的第一类实体可包括多个对象标识,而一种边对应一种边属性,且一种边属性用于表示对象标识与其中一类实体中的实体之间的属性关系。因此在基于多重异构网络进行概率预测时,可先根据每条边的边属性将多重异构网络拆解成M个关系网络,使得一个关系网络对应一种边属性,这样可使得在对每个关系网络中的标识节点之间的边进行表征处理时,避免不同边属性的边相互影响,可有效提升每个关系网络的边表征信息的准确性以及表征效率。然后,可对M个关系网络的边表征信息进行融合学习,并基于融合表征信息以及目标标识节点的目标节点特征,预测目标标识节点所记录的第二对象标识被第一类对象使用的概率;这样可使得在进行概率预测时,不仅可以运用到对象标识与对象标识之间的属性关系,还可运用到对象标识与其他类实体中的实体之间的属性关系,通过运用多种属性关系,可有效提升概率预测的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种多重异构网络的结构示意图;
图1b是本申请实施例提供的一种对象标识预测模型的模型结构图;
图1c是本申请实施例提供的另一种对象标识预测模型的模型结构图;
图1d是本申请实施例提供的再一种对象标识预测模型的模型结构图;
图1e是本申请实施例提供的一种终端和服务器共同执行数据处理方案的示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3a是本申请另一实施例提供的一种多重异构网络的结构示意图;
图3b是本申请实施例提供的一种对多重异构网络进行拆解的示意图;
图3c是本申请实施例提供的一种对异构子网络进行同构处理的示意图;
图3d是本申请实施例提供的一种对多个边表征向量进行堆叠处理的示意图;
图3e是本申请实施例提供的一种对各个关系网络中的标识节点之间的边进行表征处理的示意图;
图3f是本申请实施例提供的一种对相似度向量进行降维处理的示意图;
图4是本申请另一实施例提供的一种数据处理方法的流程示意图;
图5是本申请再一实施例提供的一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种数据处理装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
人工智能(Artificial Intelligence,AI)技术是指:利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术;其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。相应的,AI技术是一门综合学科,其主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning,ML)/深度学习等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机设备具有智能的根据途径;所谓的机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;其专门研究计算机设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。相应的,深度学习则是一种利用深层神经网络系统,进行机器学习的技术。机器学习/深度学习通常可包括人工神经网络、有监督学习等多种技术;所谓的有监督学习是指:采用类别已知(具有标注类别)的样本进行模型优化训练的处理方式。
基于上述所提及的AI技术中的机器学习/深度学习技术,本申请实施例提出了一种数据处理方案;该数据处理方案可基于业务场景的多重异构网络,较为准确地预测业务场景中的某一类对象的对象标识被另一类对象使用的概率,从而可借助该概率辅助判断某一类对象的对象标识是否被另一类对象使用。其中,“异构网络”是指由用于记录实体的节点所构成的网络,所谓的实体是指客观存在并可相互区别的事物,其可以例如是对象标识(如经用户允许所获取到的游戏账号、社交账号等)、设备、对象(如用户(或称为自然人))等;“多重”则是指网络可用于反映节点所记录的实体之间存在多种关系,如图1a所示的网络中的节点a(用于记录对象标识a的节点)与节点b(用于记录对象标识b的节点)相连接,且节点a和节点b均与节点c(用于记录某设备的节点)连接,且节点a和节点b还均与节点d(用于记录某对象的节点)连接,那么图1a所示的网络便可反映节点a和节点b之间的3种关系:对象标识a与对象标识b位于同一条联系人关系链中(即注册对象标识a的对象与注册对象标识b的对象互为联系人对象)、对象标识a和对象标识b登陆同一个设备、对象标识a与对象标识b之间共用同一个对象的身份信息进行实名认证。那么,基于“异构网络”和“多重”的定义,本申请实施例所提及的多重异构网络便可理解成是:由用于记录业务场景中的各个实体的节点构成的、且节点所记录的实体之间存在多种关系的网络。
基于上述描述,下面对本申请实施例所提出的数据处理方案的大致原理进行阐述:
首先,可获取业务场景的多重异构网络。由于该业务场景包括M类实体,M大于1以及M为整数;该M类实体中至少包括由多个(即至少两个的含义)对象标识构成的第一类实体,且多个对象标识可以是由至少两类对象注册的;因此相应的,多重异构网络可包括用于记录M类实体的M种节点,一种节点记录一类实体,且M种节点中包括用于记录对象标识的标识节点。并且,由于业务场景中的对象标识与每类实体中的实体均可具有相应的属性关系,因此多重异构网络还可至少包括M种边,一种边对应一种边属性,且一种边属性表示对象标识与M类实体中的一类实体中的实体之间的属性关系。其次,可拆解多重异构网络以得到M个关系网络,任一关系网络中的各条边的边属性相同。然后,可获取每个关系网络的边表征信息;并调用注意力模型利用注意力机制融合M个关系网络的边表征信息,得到融合表征信息。所谓的注意力机制是指允许模型动态地去关注输入数据的特定部分,从而更为有效地完成模型所需执行的任务,进而输出相应结果的机制;那么相应的,注意力模型可简单理解成一个加权融合器,其可根据输入数据学习出输入数据中的各个元素的权重,从而进行加权汇总。
在得到融合表征信息后,可从多重异构网络中选取用于记录某一类对象(假设A类对象)注册的对象标识的部分或全部标识节点,作为对象标识预测模型的样本;所谓的对象标识预测模型是指:可用于对对象标识的使用进行概率预测的神经网络模型。然后,采用各个样本对对象标识预测模型进行迭代优化,直至对象标识预测模型达到收敛;其中,一次优化过程可以包括:先调用对象标识预测模型基于该融合表征信息和每个样本的节点特征,分别对每个样本所记录的对象标识被另一类对象(假设B类对象)使用的概率进行预测,得到每个样本的预测结果;再控制该对象标识预测模型结合每个样本的预测结果以及每个样本的标注标签进行有监督学习,以优化该对象标识预测模型。由此优化过程可知,在采用样本对对象标识预测模型进行迭代优化时,对象标识预测模型在每次优化过程中均会重新预测出各个样本所记录的对象标识被B类对象使用的概率。那么,由于对象标识预测模型达到收敛后,对象标识预测模型所预测出的概率可保持不变;因此可直接将对象标识预测模型达到收敛时,所预测出的各个样本所记录的对象标识被B类对象使用的概率,作为各个样本所记录的对象标识被B类对象使用的最终概率。应理解的是,如果前述所提及的样本选取过程中,是选取用于记录A类对象注册的对象标识的部分标识节点作为样本的;那么针对未被选取的用于记录A类对象注册的对象标识的标识节点而言,可调用达到收敛后的对象标识预测模型来预测这些标识节点所记录的对象标识被B类对象使用的概率。
经实践表明,上述所提及的数据处理方案可至少具有如下有益效果:通过网络拆解可使得在分别获取每个关系网络的边表征信息时,避免不同边属性的边相互影响,可有效提升每个关系网络的边表征信息的准确性,从而提升融合表征信息的准确性,进而提升概率预测的准确性。并且,通过由各个关系网络的边表征信息融合得到的融合表征信息进行概率预测,可使得在进行概率预测时,不仅可以运用到对象标识与对象标识之间的属性关系,还可运用到对象标识与其他类实体中的实体之间的属性关系,通过运用多种属性关系,可进一步提升概率预测的准确性。
基于上述数据处理方案的相关描述,需说明以下几点:
①本申请实施例对上述数据处理方案所提及的对象标识预测模型的模型结构不进行限定。例如,对象标识预测模型可只包括一个概率预测网络,如图1b所示;所谓的概率预测网络是指基于融合表征信息和节点特征进行概率预测的神经网络,该概率预测网络本质上可以是一个全连接神经网络。那么,此情况下的对象标识预测模型和上述所提及的注意力模型是相互独立的两个模型,且对象标识预测模型可只用于进行概率预测。又如,对象标识预测模型可包括注意力模型和概率预测网络,如图1c所示;那么,此情况下的对象标识预测模型不仅可用于进行概率预测,还可用于融合边表征信息。再如,对象标识预测模型可包括信息表征网络、注意力模型以及概率预测网络,如图1d所示;所谓信息表征网络是指用于得到边表征信息的神经网络,该信息表征网络本质上可以是一个全连接神经网络;那么,此情况下的对象标识预测模型不仅可用于进行概率预测,还可用于得到边表征信息以及融合边表征信息。为便于阐述,后续均以图1d所示的对象标识预测模型为例进行说明。
②本申请实施例对上述数据处理方案的执行主体不作限定。例如,上述数据处理方案的执行主体可以是一个计算机设备,即该数据处理方案可由一个计算机设备执行,该计算机设备可以是终端或服务器。又如,上述数据处理方案的执行主体可以是终端和服务器,即该数据处理方案可以由终端和服务器共同执行;示例性的,可以先由终端获取业务场景的多重异构网络并将多重异构网络拆解成M个关系网络,然后将M个关系网络发送至服务器,由服务器基于M个关系网络执行后续步骤以预测出相应概率,如图1e所示;或者,也可由服务器获取多重异构网络并将多重异构网络拆解成M个关系网络,然后将M个关系网络下发至终端,由终端基于M个关系网络执行后续步骤;又或者,也可由终端通过一系列步骤得到融合表征信息,再将融合表征信息发送给服务器,由服务器执行概率预测的步骤,等等。
其中,上述所提及的终端可以包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能电视,等等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、及大数据和人工智能平台等基础云计算服务的云服务器,等等。另外,终端和服务器可以位于区块链网络外,也可以位于区块链网络内,对此不作限定;所谓的区块链网络是一种由点对点网络(P2P网络)和区块链所构成的网络,而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块(或称为区块)。当终端和服务器中的任一设备位于区块链网络内,或者与区块链网络存在通信连接时,该任一设备可将内部数据上传至区块链网络的区块链中进行存储,以防止计算机设备的内部数据被篡改,从而提升内部数据的安全性。
基于上述数据处理方案的相关描述,本申请实施例提出一种数据处理方法。该数据处理方法可以由上述所提及的计算机设备(终端或服务器)执行,或者由终端和服务器共同执行;为便于阐述,后续均以计算机设备执行该数据处理方法为例进行说明。请参见图2,该数据处理方法可包括以下步骤S201-S206:
S201,获取业务场景的多重异构网络。
其中,业务场景可以是指任一应用提供业务服务的场景;例如,该业务场景可以是游戏应用提供游戏服务的游戏场景,或者购物应用提供购物服务的购物场景、或者社交应用提供社交服务的社交场景、或者音视频应用提供音视频播放服务的音视频播放场景,等等。另外,业务场景可包括M类实体,该M类实体中的第一类实体可包括多个对象标识。并且,考虑到对象标识是由对象使用的,且对象标识需在设备上登陆,因此M类实体中还可包括第二类实体和第三类实体。其中,第二类实体可以包括一个或多个设备,且第二类实体中的每个设备均用于登陆过第一类实体中的至少一个对象标识;第三类实体可包括一个或多个对象,且第三类实体中的每个对象在第一类实体中均存在注册的对象标识。进一步的,业务场景对应的任一应用可根据自身的运营策略,将业务场景中的对象划分成第一类对象和第二类对象;那么相应的,第一类实体包括的多个对象标识可以具体包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识。其中,第一类对象可以理解成需被任一应用进行业务管控处理的对象,第二类对象可以理解成无需被任一对象进行业务管控处理的对象。
例如,若任一应用为游戏应用(即业务场景为游戏场景),且运营策略指示需对未成年人进行业务管控处理(如游戏防沉迷处理),则第一类对象可以是指年龄处于第一年龄范围内的游戏用户,第二类对象可以是指年龄处于第二年龄范围内的游戏用户。此情况下的第一年龄范围是指未成年人被定义的年龄范围,第二年龄范围则是指成年人被定义的年龄范围;如若未满18岁的自然人被定义为未成年人,年满18岁的自然人被定义为成年人,则第一年龄范围可以是[0,17],第二年龄范围可以是[18,+∞),+∞表示正无穷。又如,若任一应用为购物应用(即业务场景为购物场景),且运营策略指示需对老年人进行业务管控处理(如限制购物金额的处理),则第一类对象可以是指年龄处于第一年龄范围内的购物用户,第二类对象可以是指年龄处于第二年龄范围内的购物用户。此情况下的第一年龄范围是指老年人被定义的年龄范围,第二年龄范围则是指除第一年龄范围以外的剩余年龄范围;如若年满60岁的自然人被定义为老年人,则第一年龄范围可以是[60,+∞),第二年龄范围可以是[0,59]。需要说明的是,此处只是以游戏场景和购物场景为例,对第一类对象和第二类对象进行示例性说明的;当在其他场景(如社交场景、音视频播放场景等),第一类对象和第二类对象的具体定义与游戏场景和购物场景下的定义类似,在此不再赘述。
在具体实施过程中,可预先对业务场景进行抽象以构建出业务场景的多重异构网络。由于多重异构网络的构建需要两个元素:节点和边;因此构建多重异构网络的具体过程可包括:
①节点的抽象,具体可为业务场景中的每个实体生成一个节点以得到M种节点,并采用生成的各个节点分别记录相应的实体。在采用任一节点记录相应的实体时,可采用该任一节点存储该实体的实体标识以记录该实体;实体标识是指可唯一标识实体的信息,如对象标识的实体标识可以就是对象标识本身,设备的实体标识可以是设备标识、对象的实体标识可以是身份信息等。或者,考虑到对象标识、设备标识以及身份信息等信息均属于对象的隐私信息,因此为保证对象的隐私安全性,在采用任一节点记录相应的实体时,也可对实体的实体标识进行加密处理以得到该实体的加密信息,从而采用任一节点存储该实体的加密信息以记录该实体。需强调的是,本申请实施例所提及的对象标识、实体标识、设备标识、身份信息等各种涉及对象隐私的数据,均是在经过对象允许的前提下获取到的。
需要说明的是,为了使得后续构建的多重异构网络可以直观地体现出节点的种类,计算机设备在生成节点时,可采用不同形状代表不同种类的节点进行表示。例如,以业务场景包括多个对象标识、一个或多个设备以及一个或多个对象为例,M种节点可包括标识节点、设备节点和对象节点;所谓的标识节点是指M种节点中用于记录对象标识的节点,设备节点是指M种节点中用于记录设备的节点,对象节点是指M种节点中用于记录对象的节点。那么,在生成节点时,可采用椭圆代表标识节点,采用菱形代表设备节点,采用矩形代表对象节点。当然应理解的是,在其他实施例中,也可采用统一的形状来代表M种节点中的各个节点,对此不作限定。
②边的抽象,具体可基于各类实体中的实体之间的属性关系,至少生成M种边,一种边对应一种边属性,且一种边属性表示对象标识与M类实体中的一类实体中的实体之间的属性关系。由前述可知,M类实体除了包括由多个对象标识构成的第一类实体以外,还可包括由一个或多个设备构成的第二类实体,以及由一个或多个对象构成的第三类实体;因此,M种边对应的M种边属性可包括第一种边属性、第二种边属性以及第三种边属性。其中:第一种边属性表示对象标识与对象标识之间存在联系人关系链的属性关系,第二种边属性表示对象标识在设备中登陆的属性关系,第三种边属性表示对象标识使用对象的身份信息进行实名认证的属性关系。
需要说明的是,为了使得后续构建的多重异构网络可以直观地体现出各条边的边属性,计算机设备在生成M种边时,可采用不同线条代表不同边属性的边。例如,采用实线代表用于表示对象标识与对象标识之间存在联系人关系链的属性关系的第一种边属性的边,采用虚线代表用于表示对象标识在设备中登陆的属性关系的第二种边属性的边,采用点分割长划线代表用于表示对象标识使用对象的身份信息进行实名认证的属性关系的边。当然应理解的是,在其他实施例中,也可采用统一的形状来代表M种边属性的各条边,对此不作限定。
③基于抽象出的各个节点以及M种边,构建多重异构网络。具体的,可遍历抽象得到的各个节点。针对当前遍历的当前节点,可先从抽象出的全部节点中查找出与当前节点相关的第一节点,与当前节点相关的第二节点,以及与当前节点相关的第三节点。其中,第一节点是指:记录的实体与当前节点所记录的实体之间,存在第一种边属性所表示的属性关系的节点;第二节点是指:记录的实体与节点所记录的实体之间,存在第二种边属性所表示的属性关系的节点;第三节点是指:记录的实体与节点所记录的实体之间,存在第三种边属性所表示的属性关系的节点。然后,采用第一种边属性的边分别连接当前节点和各个第一节点,采用第二种边属性的边分别连接当前节点和各个第二节点,采用第三种边属性的边分别连接当前节点和各个第三节点。基于此方式,当抽象出的各个节点均被遍历后,便可得到多重异构网络。
基于上述步骤①-③的描述可知,业务场景的多重异构网络可包括M种节点(如标识节点、设备节点和对象节点等)和M种边,一种节点记录一类实体。每种节点可具体包括一个或多个节点,一个节点用于记录一个实体;一种边可具体包括具有同一种边属性的一条或多条边,通过任一条边所连接的两个节点所记录的实体之间,存在该任一条边的边属性所表示的属性关系。举例说明,设业务场景总共包括:3个对象标识(对象标识A、对象标识C和对象标识E)、1个设备(设备D),以及1个对象(对象B);并且,对象标识A和对象标识C位于同一条联系人关系链中,对象标识A、对象标识C以及对象标识E均使用对象B的身份信息进行实名认证,对象标识A和对象标识C均登陆过设备D。那么,基于上述步骤①-③所构建得到的多重异构网络可参见图3a所示。
S202,根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点。
在具体实现中,计算机设备可先按照具有相同边属性的边被划分至同一个网络的原则,根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个异构子网络。例如,以图3a所示的多重异构网络为例:由于节点31和节点33之间的边的边属性为第一种边属性,因此可将节点31和节点33之间的边,以及节点31和节点33划分至一个网络,从而得到第一个异构子网络(可称为标识异构子网络);由于节点31和节点34之间的边,以及节点33和节点34之间的边的边属性均为第二种边属性,因此可将节点31和节点34之间的边、节点33和节点34之间的边、以及这两条边所连接的各个节点(节点31、节点33和节点34)划分至一个网络,从而得到第二个异构子网络(可称为设备异构子网络);由于节点31和节点32之间的边,节点32和节点33之间的边,以及节点32和节点35之间的边属性均为第三种边属性,因此可将节点31和节点33之间的边、节点32和节点33之间的边、节点32和节点35之间的边,以及这三条边所连接的各个节点(节点31、节点32、节点33以及节点35)划分至一个网络,从而得到第三个异构子网络(可称为对象异构子网络),如图3b所示。
在一种实施方式中,计算机设备在得到M个异构子网络后,可直接将M个异构子网络作为M个关系网络。另一种实施方式中,考虑到后续主要是对对象标识进行识别,那么为了便于后续能够更好地处理网络的表征,计算机设备在得到M个异构子网络后,可基于保留异构子网络中的标识节点的原则,对M个异构子网络中的各个异构子网络进行同构处理,得到M个同构子网络;然后,将M个同构子网络作为M个关系网络。其中,同构处理是指如下处理:当异构子网络中的任意两个标识节点之间存在其他类型的节点(如设备节点、对象节点)时,去除该其他类型的节点,并采用边直接连接该任意两个标识节点。例如,仍以图3b所示的对象异构子网络为例,节点31、节点33以及节点35均为标识节点,节点32为对象节点;由于节点31和节点33之间存在节点32,因此可去除节点32,并采用边连接节点31和节点33。同理,可采用边连接节点31和节点35,以及采用边连接节点33和节点35,从而得到一个同构子网络(可称为对象同构子网络)。与对象异构子网络的处理方式类似,对图3b中的另外两个异构子网络进行同构处理,便可得到另外两个同构子网络;其中,基于标识异构子网络所得到的同构子网络可称为标识同构子网络,基于设备异构子网络所得到的同构子网络可称为设备同构子网络,如同3c所示。
可见,通过上述第二种实施方式所得到的每个同构子网络中的各个节点均为标识节点,那么通过将各个同构子网络作为关系网络,可使得每个关系网络中只包括标识节点,这样可使得在后续步骤S203的实施过程中,有效降低对每个关系网络中的标识节点之间的边进行表征处理的复杂度,提升表征处理的效率。需要说明的是,由于各个关系网络是通过对不同边属性所对应的异构子网络进行同构处理所得到的,因此即使存在某些关系网络的结构相同,但这些结构相同的关系网络所反映的信息也是不同的。例如,图3c所示的标识同构子网络可作为标识关系网络,设备同构子网络可作为设备关系网络,对象同构子网络可作为对象关系网络。虽然,标识关系网络和设备关系网络的结构是相同的;但是标识关系网络反映的信息是:对象标识A和对象标识C位于同一条联系人关系链中,而设备关系网络反映的信息是:对象标识A和对象标识C均登陆过设备B。
S203,对每个关系网络中的标识节点之间的边进行表征处理,得到每个关系网络的边表征信息。
在具体实现中,计算机设备可遍历第m个关系网络中的标识节点之间的各条边,m∈[1,M]。针对当前遍历的当前边,可获取第m个关系网络中的当前边所连接的两个节点的节点表征,所谓的节点表征是指用于表征节点的表征向量。经实践表明,若每个关系网络是对多重异构网络进行拆解以及进行异构转同构处理所得到的,则每个关系网络中的用于记录第一对象标识的标识节点与用于记录第二对象标识的标识节点往往是相邻的(即相连接的);例如,若某第一对象标识和某第二对象标识登陆过同一个设备,则虽然多重异构网络中用于记录该第一对象标识的节点和用于记录该第二对象标识的节点之间,存在用于记录该设备的设备节点;但是通过对拆解多重异构网络所得到的设备异构子网络进行同构处理时,会去除该设备节点,因此同构处理后的设备同构子网络(即设备关系网络)中用于记录该第一对象标识的节点和用于记录该第二对象标识的节点会相邻。考虑在此情况下,节点的同质性失效,需要更多地聚焦于节点的结构性(所谓的同质性指相邻节点的表征应该尽量相像,结构性指在网络中充当相同角色的节点其表征应该尽量相像),因此计算机设备可采用Node2Vec算法对当前边所连接的两个节点分别进行表征处理,得到当前边所连接的两个节点的节点表征。此处所提及的Node2Vec算法是一种可灵活设置参数并基于广度优先搜索策略来生成节点表征,使得节点表征侧重于节点的结构性而非同质性;所谓的广度优先搜索策略本质上可理解成是一种随机游走策略,其倾向于在对网络中节点进行随机游走时远离出发点。
在得到当前边所连接的两个节点的节点表征后,可调用信息表征网络根据当前边所连接的两个节点的节点表征,对当前边进行表征处理,得到当前边的边表征向量。在一种具体实现中,信息表征网络的输入可以为两个相邻节点的节点表征的融合;那么相应的,计算机设备可先对当前边所连接的两个节点的节点表征进行融合处理,得到融合后的节点表征,然后调用信息表征网络根据融合后的节点表征对当前边进行表征处理,得到当前边的边表征向量。另一种具体实现中,信息表征网络的输入可以为两个相邻节点的节点表征的拼接,输出可以为与节点表征相同维度的向量;那么相应的,计算机设备可先对当前边所连接的两个节点的节点表征进行拼接处理,得到拼接后的节点表征,然后调用信息表征网络根据拼接后的节点表征对当前边进行表征处理,得到当前边的边表征向量。例如,设信息表征网络包括8个可学习的权重参数:w1,w2,…,w8;且各个权重参数在信息表征网络的训练迭代初始时,可以是被赋予均值为0的随机数。又设当前边所连接的两个节点分别为节点A和节点B;且节点A的节点表征为:a=(a1,a2),节点B的节点表征为:b=(b1,b2),则信息表征网络可通过如下运算得到当前边的边表征向量(即f(a,b)):
f(a,b)=(w1a1+w2a2+w3b1+w4b2, w5a1+w6a2+w7b1+w8b2)
在第m个关系网络中的各条边均被遍历后,可采用第m个关系网络中的各条边的边表征向量,构建第m个关系网络的边表征信息。具体的,可对第m个关系网络中的各条边的边表征向量进行堆叠处理,得到第m个关系网络的边表征信息;所谓的堆叠处理是指:将各个向量中位于同一向量维度下的向量元素放置在一列上的处理。例如设第m个关系网络中共有3条边,那么对这3条边的边表征向量进行堆叠处理的示意图可参见图3d所示。需要说明的是,上述所提及的第m个关系网络的边表征信息的构建方式,可对每个关系网络均进行类似的处理,从而得到每个关系网络的边表征信息。并且,计算机设备可依次对各个关系网络中的标识节点之间的边进行表征处理,以依次获取各个关系网络的边表征信息;或者,计算机设备也可并行地对各个关系网络中的标识节点之间的边进行表征处理(如图3e所示),以并行地获取各个关系网络的边表征信息,从而提升边表征信息的获取效率。
S204,对M个关系网络的边表征信息进行融合学习,得到融合表征信息。
在一种具体实现中,由于每个关系网络的边表征信息均是由一个或多个边表征向量堆叠得到的,因此每个关系网络的边表征信息本质上仍是向量;基于此,计算机设备可直接对M个关系网络的边表征信息进行向量融合,得到融合表征信息。
另一种具体实现中,计算机设备可调用注意力模型基于注意力机制,直接对M个关系网络中的每个关系网络的边表征信息进行融合学习,得到融合表征信息。其中,本申请实施例所提及的注意力模型具体可以例如是普通注意力模型,也可以是多头注意力模型,对此不作限定。由前述描述可知,注意力模型可简单理解成一个加权融合器,其可根据输入数据学习出输入数据中的各个元素的权重,从而进行加权汇总;基于此,普通注意力模型是指为输入数据赋予一套权重的注意力模型,多头注意力模型是指可为输入数据(如各个关系网络的边表征信息等)赋予多套权重,使得可以更充分地探索各个元素之间的不同关系,从而提升融合学习的效果。并且,由于多头之间的学习可以并行,因此调用多头注意力模型进行融合学习,可使得在学习到充分信息的同时,大幅降低模型学习时间。
另一种具体实现中,计算机设备在进行融合学习时,除了各个关系网络的边表征信息后,还可加入其他的标识节点对的特征相似度作为边信息一起输入至注意力模型,使得注意力模型可以利用更多维度的信息进行融合学习,从而进一步提升融合学习的效果,进而提升学习得到的融合表征信息的准确性。基于此,计算机设备在执行步骤S204时,可先对每个关系网络所包括的标识节点对进行并集运算,得到K个标识节点对;K为正整数,一个标识节点对包括关系网络中相连接的两个标识节点。其次,计算机设备可根据每个标识节点对中的两个标识节点的节点特征,计算每个标识节点对的特征相似度。然后,计算机设备可采用K个标识节点对的特征相似度,构建节点特征信息;具体的,与前述所提及的边表征信息的构建方式类似,计算机设备可对K个标识节点对的特征相似度进行堆叠处理,得到节点特征信息。最后,计算机设备可调用注意力模型基于注意力机制,对M个关系网络的边表征信息和节点特征信息进行融合学习,得到融合表征信息。
其中,任一标识节点的节点特征可以是对任一标识节点进行特征提取所得到的。计算机设备在根据每个标识节点对中的两个标识节点的节点特征,计算每个标识节点对的特征相似度时,可先对第k个标识节点对中的两个标识节点的节点特征进行相似度计算,得到第k个标识节点对的相似度向量,k∈[1,K];具体的,计算机设备采用相似度计算公式(如余弦夹角公式、欧式距离公式等)进行相似度计算,以得到第k个标识节点对的相似度向量。然后,在一种实施方式中,计算机设备可直接将第k个标识节点对的相似度向量,作为第k个标识节点对的特征相似度。
进一步的,由于任一关系网络的边表征信息包括任一关系网络中的标识节点之间的边的边表征向量,各个关系网络的边表征信息中的边表征向量的向量维度相同,而标识节点对的相似度向量的向量维度和边表征向量的向量维度可能不相同,从而使得关系网络的边表征信息的向量维度和节点特征信息的向量维度不同;因此为了便于后续可以更好地对边表征信息和节点特征信息进行融合学习,计算机设备可以在得到第k个标识节点对的相似度向量后,还可基于边表征向量的向量维度,对第k个标识节点对的相似度向量进行维度调整,得到第k个标识节点对的特征相似度;此情况下所得到的第k个标识节点对的特征相似度的向量维度,与边特征向量的向量维度相同。其中,计算机设备可通过一个全连接神经网络来进行维度调整处理,使得注意力模型的多个输入数据保持在同一个向量空间内;且当边表征向量的向量维度高于第k个标识节点对的相似度向量的向量维度时,此处所提及的维度调整可理解为降维处理(即降低向量维度的处理),如图3f所示;当边表征向量的向量维度低于第k个标识节点对的相似度向量的向量维度时,此处所提及的维度调整可理解为升维处理(即提升向量维度的处理)。
S205,获取目标标识节点的目标节点特征。
在具体实现中,计算机设备可以从多重异构网络中,选取一个用于记录第二对象标识的标识节点作为目标标识节点;然后,可以对目标标识节点进行特征提取,并将提取出的特征作为目标节点特征。也就是说,此处所提及的目标标识节点是指多重异构网络中的一个用于记录第二对象标识的标识节点。
需要说明的是:由前述可知,计算机设备主要是通过对象标识预测模型中的概率预测网络进行概率预测的;本申请实施例所提及的步骤S205-S206所对应的处理过程,可以是对象标识预测模型的模型优化过程中所涉及的前向计算过程(即计算模型损失值之前的计算过程),也可以是对象标识预测模型经模型优化达到收敛后所涉及的模型推理过程(即模型应用过程),对此不作限定。并且,当步骤S205-S206对应的处理流程是对象标识预测模型的前向计算过程时,该目标标识节点可以是用于对对象标识预测模型进行模型优化的多个样本中的其中一个样本;当步骤S205-S206对应的处理流程是对象标识预测模型经模型优化达到收敛后所涉及的模型推理过程时,该目标标识节点可以是收敛后的对象标识预测模型在模型推理过程中所涉及的其中一个实际标识节点。
S206,基于融合表征信息和目标节点特征,预测目标标识节点所记录的第二对象标识被第一类对象使用的概率。
由前述可知,对象标识预测模型至少包括概率预测网络。基于此,步骤S206的具体实施方式可以是:若目标标识节点为模型推理过程中的实际标识节点,则可调用收敛后的对象标识预测模型中的概率预测网络,基于融合表征信息和目标节点特征,对目标标识节点所记录的第二对象标识被第一类对象使用的概率进行预测,得到目标标识节点所记录的第二对象标识被第一类对象使用的目标概率。若目标标识节点为模型优化过程中的样本,则可调用待优化的对象标识预测模型中的概率预测网络,基于融合表征信息和目标节点特征,预测出目标标识节点所记录的第二对象标识被第一类对象使用的概率;在此情况下,计算机设备还可进一步基于预测出的概率以及目标标识节点的标注标签(用于指示目标标识节点所记录的第二对象标识是否被第一类对象使用的标签),对对象标识预测模型进行模型优化。
需要说明的是,计算机设备在通过步骤S206预测目标标识节点所记录的第二对象标识被第一类对象使用的概率时,可以具体预测目标标识节点所记录的第二对象标识,被第一类对象中注册了目标第一对象标识的对象使用的概率;此处的目标第一对象标识是指与目标标识节点所记录的第二对象标识同设备的第一对象标识,或者是指与目标标识节点所记录的第二对象标识使用同一个对象的身份信息进行实名认证的第一对象标识。其中,对象标识同设备是指:在一定时间周期内,两个对象标识共登陆过同一设备;一定时间周期可以根据业务需求或者经验值设置,例如在游戏场景下,一定时间周期可以以一周作为单位,因为在一周的时间段涵盖了大部分登陆游戏的场景,例如在周中工作/上课与周末休息时的不同作息时间中登陆游戏的场景。举例说明:设目标标识节点是图3a所示的多重异构网络中的节点31,该目标标识节点所记录的第二对象标识为“123456”,且注册“123456”的对象为对象x;而与“123456”同设备的对象标识为节点33所记录的“56782”,因此“56782”为目标第一对象标识,注册“56782”的对象为对象y。那么,计算机设备便可通过S206预测出“123456”这一第二对象标识被对象y使用的概率。
本申请实施例可基于业务场景的多重异构网络,给出第二类对象注册的第二对象标识被第一类对象使用的概率估计,从而通过该概率来辅助判断第二对象标识是否被第一类对象。由于该多重异构网络可包括M种节点和M种边,一种节点用于记录业务场景中的一类实体,且业务场景中的M类实体中的第一类实体可包括多个对象标识,而一种边对应一种边属性,且一种边属性用于表示对象标识与其中一类实体中的实体之间的属性关系。因此在基于多重异构网络进行概率预测时,可先根据每条边的边属性将多重异构网络拆解成M个关系网络,使得一个关系网络对应一种边属性,这样可使得在对每个关系网络中的标识节点之间的边进行表征处理时,避免不同边属性的边相互影响,可有效提升每个关系网络的边表征信息的准确性以及表征效率。然后,可对M个关系网络的边表征信息进行融合学习,并基于融合表征信息以及目标标识节点的目标节点特征,预测目标标识节点所记录的第二对象标识被第一类对象使用的概率;这样可使得在进行概率预测时,不仅可以运用到对象标识与对象标识之间的属性关系,还可运用到对象标识与其他类实体中的实体之间的属性关系,通过运用多种属性关系,可有效提升概率预测的准确性。
基于上述描述,本申请实施例进一步提出了一种数据处理方法。该数据处理方法可以由上述所提及的计算机设备(终端或服务器)执行,或者由终端和服务器共同执行;为便于阐述,后续均以计算机设备执行该数据处理方法为例进行说明。在本申请实施例中,主要以目标标识节点是对象标识预测模型的模型优化过程中所涉及的样本为例进行说明;且该对象标识预测模型至少包括概率预测网络,可选的,对象标识预测模型还可包括注意力模型、信息表征网络等。请参见图4,该数据处理方法可包括以下步骤S401-S409:
S401,获取业务场景的多重异构网络,并根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系网络。
其中,业务场景包括M类实体,M大于1。多重异构网络包括M种节点和M种边,一种节点记录一类实体;M类实体中的第一类实体包括多个对象标识,多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系。一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点。
S402,对每个关系网络中的标识节点之间的边进行表征处理,得到每个关系网络的边表征信息;并对M个关系网络的边表征信息进行融合学习,得到融合表征信息。
需要说明的是,步骤S401-S402的具体实施方式可参见上述方法实施例中的步骤S201-S204的相关描述,在此不再赘述。
S403,从多重异构网络中筛选出用于记录第二对象标识的标识节点,并将筛选出的各个标识节点作为用于优化对象标识预测模型的样本,添加至对象标识预测模型的样本集中。
在具体实施过程中,由于对象标识预测模型主要是用于预测某个第二对象标识被第一类对象中与该第二对象标识相关的对象使用的概率,第一类对象中与第二对象标识相关的对象可以包括:与第二对象标识登陆过同一设备的第一对象标识所对应的对象、与第二对象标识使用同一身份信息进行实名认证的第一对象标识所对应的对象,等等。因此,计算机设备可以以多重异构网络中的边为单位,组织获取对象标识预测模型的样本,使得获取到的样本所记录的第二对象标识均在第一类对象中存在与之对应的对象,进而使得对象标识预测模型可基于此类样本学习到如何预测第二对象标识被第一类对象中的相关对象使用的概率的能力,提升模型性能。基于此,计算机设备在从多重异构网络中筛选出用于记录第二对象标识的标识节点时,可确定多重异构网络中用于记录第一对象标识的各个标识节点;针对确定的任一标识节点,可从多重异构网络中确定该任一标识节点通过边所连接的设备节点(或对象节点),然后,从多重异构网络中选取出与该设备节点(或对象节点)通过边所连接的、且用于记录第二对象标识的标识节点。
进一步的,计算机设备还可获取各个样本的标注标签,添加至样本集中,以便于后续基于各个样本的标注标签对对象标识预测模型进行模型优化。其中,任一样本的标注标签用于指示:任一样本所记录的第二对象标识被第一类对象使用,或者任一样本的标注标签用于指示:任一样本所记录的第二对象标识未被第一类对象使用。在具体实现中,样本集中的任一样本的标注标签的构建方式可以如下:
首先,可采集任一样本所记录的第二对象标识的历史使用对象的对象图像;所谓的历史使用对象是指:在开始优化对象标识预测模型之前的预设时间段内,最后一个使用任一样本所记录的第二对象标识的对象。在具体实现中,可在历史使用对象所使用的终端中输出一个对象识别弹窗,从而通过该对象识别弹窗来采集历史使用对象的对象图像。在采集到历史使用对象的对象图像后,可根据采集到的对象图像对历史使用对象进行类型识别,以识别出历史使用对象是第一类对象还是第二类对象。具体的,可在身份信息数据库中查找与采集到的对象图像相匹配的身份信息,然后根据查找到的身份信息确定历史使用对象的年龄。例如,查找到的身份信息包括历史使用对象的身份证,由于身份证上记录有历史使用对象的出生时间,因此可基于该出生时间来确定历史使用对象的年龄。然后,可基于历史使用对象的年龄来识别历史使用对象是第一类对象还是第二类对象;具体的,若该年龄位于第一年龄范围内,则可确定历史使用对象为第一类对象,若该年龄位于第二年龄范围内,则可确定历史使用对象为第二类对象。进一步的,当识别出历史使用对象为第一类对象,则可将正标签作为任一样本的标注标签;此处所提及的正标签的取值可以为1,且正标签用于指示:任一样本所记录的第二对象标识被第一类对象使用。当识别出历史使用对象为第二类对象时,可将负标签作为任一样本的标注标签;此处所提及的负标签的取值可以为0,则负标签用于指示:任一样本所记录的第二对象标识未被第一类对象使用。
需要说明的是,考虑到可能存在任一样本的历史使用对象为第一类对象,且该历史使用对象为了逃避业务管控处理而拒绝对象图像的采集,从而导致无法成功采集到历史使用对象的对象图像的情况;那么在此情况下,可将正标签作为任一样本的标注标签。本申请实施例通过图像采集识别的方式来构建各个样本的标注标签,不仅可降低标签获取难度以及获取成本,还可有效提升标签获取效率以及标注标签的精准客观性。并且,计算机设备可以是通过调用管理机构(如公安机构)的接口来执行上述标签的构建方式,从而获取到各个样本的标注标签的,这样可使得计算机设备无需采集历史使用对象的对象图像,可有效保证对象的隐私安全。其中,上述所提及的历史使用对象本质上可以是用户,对象图像可以是人脸图像。
还需说明的是,计算机设备可以是每获取到一个样本的标注标签,便将该样本的标注标签添加至样本集中的。在其他实施例中,计算机设备也可在获取到所有样本的标注标签后,再执行将所有样本的标注标签添加至样本集中,对此不作限定。进一步的,计算机设备在获取到所有样本的标注标签后,还可基于各个样本的标注标签对各个样本进行正负样本比例平衡处理,从而将正负样本比例平衡处理后的样本添加至样本集中,使得样本集中的正负样本的比例是相对平衡的,这样有利于模型优化,提升模型的学习效果。其中,正样本是指具有正标签的样本,负样本是指具有负标签的样本;正负样本比例平衡处理是指:按照一定的正负样本比例对正样本进行采样以及对负样本进行采样,使得采样出的正样本和采样出的负样本之间的比例满足该正负样本比例的处理。那么样本集中包括的是:采样出的各个正样本和采样出的各个负样本。
S404,遍历样本集中的各个样本,将当前遍历的样本确定为目标标识节点,并获取目标标识节点的目标节点特征。
S405,基于融合表征信息和目标节点特征,预测目标标识节点所记录的第二对象标识被第一类对象使用的概率。
其中,目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,是调用对象标识预测模型得到的;并且,具体而言:该目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,是调用对象标识预测模型中的概率预测网络得到的。其中,概率预测网络主要是基于利用激活函数实现概率预测的,本申请实施例对激活函数不作限定,例如该激活函数可以是sigmoid函数(一种输出结果的取值范围位于(0,1)中的激活函数)。
在一种实施方式中,计算机设备在预测出概率后,可直接基于预测出的概率以及目标标识节点的标注标签,计算对象标识预测模型的模型损失值,从而按照减小模型损失值的方向优化对象标识预测模型;然后,再跳转至步骤S404以继续遍历样本集中未被遍历的样本,从而基于下一次被遍历的样本的标注标签和相应的概率,优化对象标识预测模型;也就是说,在此实施方式下,每次是采用一个样本来优化对象标识预测模型的。
另一种实施方式中,计算机设备在预测出目标标识节点所记录的第二对象标识被第一类对象使用的概率后,可跳转至步骤S404以继续遍历样本集中未被遍历的样本,从而得到各个样本所记录的第二对象标识被第一类对象使用的概率,进而通过后续步骤S406-S408对对象标识预测模型进行模型优化;也就是说,在此实施方式下,每次是采用样本集中的所有样本来优化对象标识预测模型的。
S406,在样本集中的各个样本均被遍历后,得到各个样本所记录的第二对象标识被第一类对象使用的概率。
S407,根据各个样本所记录的第二对象标识被第一类对象使用的概率,以及各个样本的标注标签,计算对象标识预测模型的模型损失值。
在具体实施过程中,计算机设备可获取对象标识预测模型的损失函数,然后将各个样本所记录的第二对象标识被第一类对象使用的概率,以及各个样本的标注标签代入至该损失函数中,从而计算得到对象标识预测模型的模型损失值。其中,损失函数可如下公式所示:
Loss=-Σyi*log(pi)+(1-yi)*log(1-pi)
其中,Loss表示模型损失值,pi表示第i个样本所记录的第二对象标识被第一类对象使用的概率,yi表示第i个样本的标注标签。i的取值大于等于1,且小于等于样本的数量。
S408,按照减小模型损失值的方向,优化对象标识预测模型的模型参数。
在具体实现中,计算机设备可按照减小模型损失值的方向,通过梯度下降法更新对象标识预测模型的模型参数,从而实现一次模型优化。具体的,可按照减小模型损失值的方向,采用梯度下降算法根据通过步骤S407所得到的模型损失值进行梯度后向计算,得到需学习的各个模型参数的更新值,并将对象标识预测模型的模型参数调整成该更新值,以优化对象标识预测模型。此处的梯度下降算法可包括但不限于:SGD(Stochastic GradientDescent,随机梯度下降)算法、GD(Gradient Dropping,梯度下降)算法、BGD(BatchGradient Descent,批量梯度下降法),等等。其中,“按照减小模型损失值的方向”是指:以最小化模型损失值为目标的模型优化方向;通过此方向进行模型优化,使得对象标识预测模型在每次优化后所再次产生的模型损失值,需小于对象标识预测模型在优化前所产生的模型损失值。例如,本次计算得到的对象标识预测模型的模型损失值为0.85,那么通过按照减小模型损失值的方向优化对象标识预测模型后,通过此次优化后的对象标识预测模型所产生的模型损失值应小于0.85。
在通过步骤S408实现对对象标识预测模型的一次优化后,可判断对象标识预测模型是否达到收敛。若已达到收敛,则可执行结束对象标识预测模型的模型优化过程,并执行步骤S409;若未达到收敛,则可迭代执行步骤S404-S408,并在每次通过步骤S404-S408优化对象标识预测模型后,均可判断对象标识预测模型是否达到收敛,直至对象标识预测模型达到收敛后,执行步骤S409。其中,对象标识预测模型达到收敛是指:对象标识预测模型的模型参数不再发生变化,或模型参数的变化幅度小于阈值;或者对象标识预测模型达到收敛是指:对象标识预测模型的模型损失值不再减小,或对象标识预测模型的模型损失值的减小幅度小于阈值;或者对象标识预测模型达到收敛是指:对象标识预测模型的迭代优化次数大于或等于预设优化次数,等等。由此可见,对象标识预测模型可进行一次或多次优化后达到收敛。
S409,将对象标识预测模型达到收敛时的各个样本所对应的概率,确定为各个样本所记录的第二对象标识被第一类对象使用的目标概率。
例如,在对象标识预测模型达到收敛时,对象标识预测模型预测出某个样本所记录的第二对象标识被第一类对象使用的概率为0.9(即某个样本对应的概率为0.9),则可直接将0.9确定为该样本所记录的第二对象标识被第一类对象使用的目标概率。通过此方式,可使得在对象标识预测模型达到收敛后,无需再调用收敛后的对象标识预测模型来预测各个第二对象标识被第一类对象使用的目标概率,可有效节省处理资源。并且,由于对象标识预测模型在进行概率预测时,采取了有监督的二分类标签进行学习,因此可有效提升目标概率的准确性。
进一步的,计算机设备在得到各个样本所记录的第二对象标识被第一类对象使用的目标概率后,还可根据各个样本所对应的目标概率,从样本集中选取出目标概率大于概率阈值的样本;将选取出的各个样本所记录的第二对象标识确定为可疑对象标识,并存储确定出的各个可疑对象标识。其中,此处的概率阈值可以是根据经验值或者业务需求所预先设置的固定阈值(如0.75),也可以是一个基于各个样本对应的目标概率所确定的动态阈值,对此不作限制。当概率阈值为动态阈值时,计算机设备可通过如下步骤得到概率阈值:将各个样本对应的目标概率进行降序排列,得到概率序列;并将概率序列中位于目标排列位置处的目标作为概率阈值,该目标排列位置可根据业务需求或者经验值设置,如top 40%(即前40%)的位置。例如,设0.1,0.7,0.2,0.36,0.13,0.5,0.65,0.45,0.8,0.9共10个目标概率,对10个目标概率进行降序排列所得到概率序列为:0.9,0.8,0.7,0.65,0.5,0.45,0.36,0.2,0.13,0.1;那么top 40%的位置是指概率序列中的第4位,即top 40%的位置(目标排列位置)是指0.65所处的排列位置,那么概率阈值便可为0.65。
更进一步的,当检测到存储的任一可疑对象标识被用于执行业务处理时,还可在任一可疑对象标识的当前使用对象的终端中输出对象识别弹窗;然后,可通过对象识别弹窗获取当前使用对象的对象图像,并根据获取到的对象图像检测当前使用对象的对象类型。若对象类型指示当前使用对象为第二类对象,则允许当前使用对象继续使用任一可疑对象标识执行业务处理;若对象类型指示当前使用对象为第一类对象,则可对当前使用对象进行业务管控处理。其中,业务管控处理可根据不同的业务场景进行设置。例如,以业务场景为游戏场景为例,由于第一类对象可以是未成年人,因此对当前使用对象进行业务管控处理包括:对当前使用对象进行游戏防沉迷处理。其中,游戏防沉迷处理可包括以下至少一种处理:限制任一可疑对象标识的登陆时长、限制任一可疑对象标识的游戏充值操作,等等。需要说明的是,为了保证对象隐私安全,计算机设备可通过调用管理机构的接口,使得管理机构执行对象识别弹窗的输出,对象图像的采集以及对象类型的检测操作,从而将检测结果返回给计算机设备。
本申请实施例可采用设备、对象以及对象标识构建成多重边属性的复杂多重异构网络,并拆解多重异构网络为多个关系网络,以及使用注意力机制融合关系网络的边表征信息以及若干标识节点对的特征相似度,得到融合表征信息。然后可从多重异构网络中选取用于记录第二对象标识的标识节点作为对象标识预测模型的样本,从而使得在调用对象标识预测模型基于融合表征信息和各个样本的节点特征,预测出各个样本所记录的第二对象标识被第一类对象使用的概率后,可基于预测出的各个概率反向对对象标识预测模型进行有监督学习,使得对象标识预测模型可提升概率预测能力,进而较为准确地给出各个第二对象标识被第一类对象使用的目标概率。并且,通过将对象标识预测模型达到收敛时的各个样本所对应的概率,确定为各个样本所记录的第二对象标识被第一类对象使用的目标概率;可使得在对象标识预测模型达到收敛后,无需再调用收敛后的对象标识预测模型来预测各个第二对象标识被第一类对象使用的目标概率,可有效节省处理资源。
基于上述描述,本申请实施例进一步提出了一种数据处理方法。该数据处理方法可以由上述所提及的计算机设备(终端或服务器)执行,或者由终端和服务器共同执行;为便于阐述,后续均以计算机设备执行该数据处理方法为例进行说明。在本申请实施例中,主要以目标标识节点是对象标识预测模型的模型推理过程中所涉及的实际标识节点为例进行说明;且该对象标识预测模型至少包括概率预测网络,可选的,对象标识预测模型还可包括注意力模型、信息表征网络等。请参见图5,该数据处理方法可包括以下步骤S501-S506:
S501,获取业务场景的多重异构网络,并根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系网络。
其中,业务场景包括M类实体,M大于1。多重异构网络包括M种节点和M种边,一种节点记录一类实体;M类实体中的第一类实体包括多个对象标识,多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系。一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点。
S502,对每个关系网络中的标识节点之间的边进行表征处理,得到每个关系网络的边表征信息;并对M个关系网络的边表征信息进行融合学习,得到融合表征信息。
需要说明的是,步骤S501-S502的具体实施方式可参见上述方法实施例中的步骤S201-S204的相关描述,在此不再赘述。
S503,从多重异构网络中筛选出用于记录第二对象标识的标识节点,并从筛选出的全部标识节点中,选取部分标识节点作为用于优化对象标识预测模型的样本,添加至对象标识预测模型的样本集中。
在一种实施方式中,计算机设备可从筛选出的全部标识节点中,随机选取部分标识节点作为用于优化对象标识预测模型的样本;在此实施方式下,计算机设备在选取出样本后,可分别采集各个样本的历史使用者的人脸图像,以设置各个样本的标注标签,从而将各个样本的标注标签添加至样本集中。另一种实施方式中,计算机设备可分别采集筛选出的各个标识节点所记录的第二对象标识的历史使用对象的对象图像,将成功采集到对象图像的相应标识节点作为用于优化对象标识预测模型的样本,通过此方式可使得各个样本的标注标签均是基于采集到的对象图像的识别结果来设置的,有效提升各个样本的标注标签的可信度和准确性。
S504,采用样本集对对象标识预测模型进行迭代优化,直至对象标识预测模型达到收敛。
在具体实施过程中,计算机设备可分别获取样本集中的各个样本的节点特征;调用对象标识预测模型基于融合表征信息和各个样本的节点特征,分别预测各个样本所记录的第二对象标识被第一类对象使用的概率。然后,可基于根据各个样本所记录的第二对象标识被第一类对象使用的概率,以及各个样本的标注标签,计算对象标识预测模型的模型损失值,进而按照减小模型损失值的方向,优化对象标识预测模型的模型参数。需要说明的是,步骤S504所涉及的各个细化步骤的具体实施方式,可参见上述图4所示的方法实施例的相关描述,在此不再赘述。
S505,获取目标标识节点的目标节点特征。
S506,调用收敛后的对象标识预测模型,基于融合表征信息和目标节点特征,预测目标标识节点所记录的第二对象标识被第一类对象使用的概率,从而得到目标标识节点所记录的第二对象标识被第一类对象使用的目标概率。
进一步的,与图4所示的方法实施例中所提及的任一可疑对象标识的处理方式类似,当检测到目标标识节点所记录的第二对象标识被用于执行业务处理时,计算机设备也可确定当前使用该第二对象标识的目标使用对象的对象类型。若对象类型指示目标使用对象为第二类对象,则允许目标使用对象继续使用目标标识节点所记录的第二对象标识执行业务处理;若对象类型指示目标使用对象为第二类对象,则可对目标使用对象进行业务管控处理。
本申请实施例可采用设备、对象以及对象标识构建成多重边属性的复杂多重异构网络,并拆解多重异构网络为多个关系网络,以及使用注意力机制融合关系网络的边表征信息以及若干标识节点对的特征相似度,得到融合表征信息。然后可从多重异构网络中选取用于记录第二对象标识的部分标识节点作为对象标识预测模型的样本,从而使得在调用对象标识预测模型基于融合表征信息和各个样本的节点特征,预测出各个样本所记录的第二对象标识被第一类对象使用的概率后,可基于预测出的各个概率反向对对象标识预测模型进行有监督学习,使得对象标识预测模型可提升概率预测能力。通过选取用于记录第二对象标识的部分标识节点作为样本,可在一定程度上减少样本的数量,从而提升后续模型训练的效率;并在对象标识预测模型的性能达到稳定后,再调用收敛后的对象标识预测模型预测出目标标识节点所记录的第二对象标识被第一类对象使用的目标概率,这样可有效提升目标概率的准确性。需要说明的是,从模型训练效率的角度考虑,在实际应用过程中,可优先选择图5所示的数据处理方法来实现概率预测。
基于上述方法实施例的相关描述,下面对本申请实施例所提出的数据处理方法在实际应用中所适用的应用场景进行举例说明:
例如,当上述方法实施例所提及的业务场景为游戏场景时,游戏场景中的对象具体可以是游戏用户,那么上述所提及的第一类对象可以是未成年的游戏用户(简称为未成年人),第二类对象可以是成年的游戏用户(简称为成年人);并且,游戏场景中的对象标识具体可以是游戏账号,那么上述所提及的第一对象标识可以具体是第一游戏账号(即未成年人注册的游戏账号),第二对象标识可以具体是第二游戏账号(即成年人注册的游戏账号)。在此情况下,该数据处理方法的应用场景可以是:识别第二游戏账号被同设备的未成年人使用的概率的场景;具体的,该数据处理方法的应用原理大致如下:
首先,可获取游戏场景中出现的M类实体,该M类实体中的第一类实体包括多个游戏账号,且多个游戏账号中包括一个或多个第一游戏账号以及一个或多个第二游戏账号。进一步的,M类实体还可包括第二类实体、第三类实体等;第二类实体可包括一个或多个设备,每个设备均用于登陆过第一类实体中的至少一个游戏账号;第三类实体可包括一个或多个游戏用户,每个游戏用户在第一类实体中均存在注册的游戏账号。其次,可采用M类实体构建游戏场景的多重异构网络,并根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系网络;以及,对M个关系网络的边表征信息进行融合学习,得到融合表征信息。当需要预测某个成年人(设游戏用户A)所注册的第二游戏账号(设游戏账号A),是否被同设备的未成年人(设游戏用户a)使用时,可根据用于记录该游戏账号A的账号节点的节点特征和融合表征信息,预测游戏账号A被游戏用户a使用的概率,从而基于预测出的概率判定该游戏账号A是否被游戏用户a使用。进一步的,若判定游戏账号A被游戏用户a使用,则可对游戏账号A进行游戏防沉迷处理。
又如,当上述方法实施例所提及的业务场景为购物场景时,购物场景中的对象具体可以是购物用户,那么上述所提及的第一类对象可以是老年的购物用户(简称老年人),第二类对象可以是非老年的购物用户(简称年轻人);并且,业务场景中的对象标识具体可以是购物账号,那么上述所提及的第一对象标识可以具体是第一购物账号(即老年人注册的购物账号),第二对象标识可以具体是第二购物账号(即年轻人注册的购物账号)。在此情况下,该数据处理方法的应用场景可以是:识别第二购物账号被同设备的老年人使用的概率的场景;具体的,该数据处理方法的应用原理大致如下:
首先,可获取购物场景中出现的M类实体,该M类实体中的第一类实体包括多个购物账号,且多个购物账号中包括一个或多个第一购物账号以及一个或多个第二购物账号。其次,可采用M类实体构建购物场景的多重异构网络,并根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系网络;以及,对M个关系网络的边表征信息进行融合学习,得到融合表征信息。当需要预测某个年轻人(设购物用户A)所注册的第二购物账号(设购物账号A),是否被同设备的老年人(设购物用户a)使用时,可根据用于记录该购物账号A的账号节点的节点特征和融合表征信息,预测购物账号A被购物用户a使用的概率,从而基于预测出的概率判定该购物账号A是否被购物用户a使用。进一步的,若判定购物账号A是否被购物用户a使用,则可对购物账号A进行购物管控处理,如限制购物账号A的购物所支持的金额,或在生成购物账号A的购物订单之前,向购物用户A发送验证信息,从而在验证通过后,生成购物账号A的购物订单,等等。
又如,当上述方法实施例所提及的业务场景为音视频播放场景时,音视频播放场景中的对象具体可以是音视频播放用户,那么上述所提及的第一类对象可以是成年的音视频播放用户(简称成年人),第二类对象可以是未成年的音视频播放用户(简称未成年人);并且,业务场景中的对象标识具体可以是音视频播放账号,那么上述所提及的第一对象标识可以具体是第一音视频播放账号(即未成年人注册的音视频播放账号),第二对象标识可以具体是第二音视频播放账号(即成年人注册的音视频播放账号)。在此情况下,该数据处理方法的应用场景可以是:识别第二音视频播放账号被同设备的未成年人使用的概率的场景;具体的,该数据处理方法的应用原理大致如下:
首先,可获取音视频播放场景中出现的M类实体,该M类实体中的第一类实体包括多个音视频播放账号,且多个音视频播放账号中包括一个或多个第一音视频播放账号以及一个或多个第二音视频播放账号。其次,可采用M类实体构建音视频播放场景的多重异构网络,并根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系网络;以及,对M个关系网络的边表征信息进行融合学习,得到融合表征信息。当需要预测某个成年人(设音视频播放用户A)所注册的第二音视频播放账号(设音视频播放账号A),是否被同设备的未成年人(设音视频播放用户a)使用时,可根据用于记录该音视频播放账号A的账号节点的节点特征和融合表征信息,预测音视频播放账号A被音视频播放用户a使用的概率,从而基于预测出的概率判定该音视频播放账号A是否被音视频播放用户a使用。进一步的,若判定音视频播放账号A是否被音视频播放用户a使用,则可对音视频播放账号A进行音视频播放管控处理,如音视频的筛选处理,以输出符合未成年人播放的音视频;或者限制音视频播放账号A的音视频播放时长,以在音视频播放时长大于时长阈值(如1小时)时,控制音视频播放账A退出登陆,等等。
需要说明的是,上述只是示例性地列举了数据处理方法所适用的应用场景,并非穷举;当业务场景为其他场景(如社交场景)时,数据处理方法的应用场景还可以是:识别第二社交账号被同设备的未成年人使用的概率的场景,其应用过程与上述所提及的三个应用场景的应用过程类似,在此不再赘述。
基于上述图2、图4以及图5所示的数据处理方法的相关描述,为了进一步证明上述数据处理方法所产生的有益效果,本申请实施例在游戏场景中,对本申请中的数据处理方法、目标业界常用于账号识别的现有技术方案以及简易识别规则(模型基线)进行了测试,测试结果可如下述表示1所示:
表1
Figure 579168DEST_PATH_IMAGE001
其中,表1中的查准率是指:人脸识别成功的人群中,实际验证为未成年人的比例。应理解的是,由于实际被人脸识别弹窗(如前述所提及的对象识别弹窗)命中的用户可能选择拒绝人脸识别,此情况下这些拒绝人脸识别的用户可被默认为未成年人,因此实际的未成年人的比例可能会高于上表中的查准率。表1中的受管控比例是指:本次测试中被投放人脸识别弹窗的所有人中,由于没有完成人脸识别,因此被默认为未成年,从而被进行游戏防沉迷处理的用户所占的比例,1-受监管比例则为通过人脸识别被成功验证为成年人的用户所占的比例。表1中的近似F1-score则是指:查准率与受管控比例的调和平均数,旨在综合这两个指标给出汇总参考。
通过对比上述表1所示的数据可知,本申请实施例所提出的数据处理方法相较现有技术方案而言,数据处理方法的查准率上可提高4.25%;且相较简易识别规则而言,数据处理方法的查准率可提高接近3倍。并且,在保证高精度的同时,还可大幅度提高投放名单转化为未成年人的效率,与误伤较多用户的现有技术方案相比,受管控比例从83.53%提高了将近13个百分点,且与简易识别规则相比也有显著提高,可达到96.01%的受管控比例。由此可说明:本申请实施例所提出的数据处理方法不仅相当于降低了13%的正常成年人误伤,可有效维护了正常成年人的游戏登陆体验,还使得在能获取到相同未成年人数量时,缩减13%的无效人脸,节省了无效人脸而带来的成本(人脸成本按次计费)。
基于上述数据处理方法实施例的描述,本申请实施例还公开了一种数据处理装置,所述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该数据处理装置可以执行图2、图4以及图5所示的方法。请参见图6,所述数据处理装置可以运行如下单元:
获取单元601,用于获取业务场景的多重异构网络,所述业务场景包括M类实体,M大于1;所述多重异构网络包括M种节点和M种边,一种节点记录一类实体;所述M类实体中的第一类实体包括多个对象标识,所述多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系;
处理单元602,用于根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点,标识节点是指所述M种节点中用于记录对象标识的节点;
所述处理单元602,还用于对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息;并对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息;
所述处理单元602,还用于获取目标标识节点的目标节点特征,所述目标标识节点是指所述多重异构网络中的一个用于记录第二对象标识的标识节点;
预测单元603,用于基于所述融合表征信息和所述目标节点特征,预测所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率。
在一种实施方式中,处理单元602在用于根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络时,可具体用于:
按照具有相同边属性的边被划分至同一个网络的原则,根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个异构子网络;
基于保留异构子网络中的标识节点的原则,对所述M个异构子网络中的各个异构子网络进行同构处理,得到M个同构子网络,每个同构子网络中的各个节点均为标识节点;
将所述M个同构子网络作为M个关系网络。
另一种实施方式中,处理单元602在用于对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息时,可具体用于:
遍历第m个关系网络中的标识节点之间的各条边,m∈[1,M];
针对当前遍历的当前边,获取所述第m个关系网络中的所述当前边所连接的两个节点的节点表征;
根据所述当前边所连接的两个节点的节点表征,对所述当前边进行表征处理,得到所述当前边的边表征向量;
在所述第m个关系网络中的各条边均被遍历后,采用所述第m个关系网络中的各条边的边表征向量,构建所述第m个关系网络的边表征信息。
另一种实施方式中,处理单元602在用于对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息时,可具体用于:
对每个关系网络所包括的标识节点对进行并集运算,得到K个标识节点对;K为正整数,一个标识节点对包括关系网络中相连接的两个标识节点;
根据每个标识节点对中的两个标识节点的节点特征,计算所述每个标识节点对的特征相似度;并采用所述K个标识节点对的特征相似度,构建节点特征信息;
调用注意力模型基于注意力机制,对所述M个关系网络的边表征信息和所述节点特征信息进行融合学习,得到融合表征信息。
另一种实施方式中,任一关系网络的边表征信息包括所述任一关系网络中的标识节点之间的边的边表征向量,各个关系网络的边表征信息中的边表征向量的向量维度相同;相应的,处理单元602在用于根据每个标识节点对中的两个标识节点的节点特征,计算所述每个标识节点对的特征相似度时,可具体用于:
对第k个标识节点对中的两个标识节点的节点特征进行相似度计算,得到所述第k个标识节点对的相似度向量,k∈[1,K];
基于边表征向量的向量维度,对所述第k个标识节点对的相似度向量进行维度调整,得到所述第k个标识节点对的特征相似度;其中,所述第k个标识节点对的特征相似度的向量维度,与边特征向量的向量维度相同。
另一种实施方式中,处理单元602在用于获取目标标识节点的目标节点特征之前,该处理单元602还可用于:
从所述多重异构网络中筛选出用于记录第二对象标识的标识节点;
将筛选出的各个标识节点作为用于优化对象标识预测模型的样本,添加至所述对象标识预测模型的样本集中;
遍历所述样本集中的各个样本,将当前遍历的样本确定为目标标识节点;
其中,所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,是调用所述对象标识预测模型得到的。
另一种实施方式中,所述样本集中还包括各个样本的标注标签,任一样本的标注标签的构建方式如下:
采集所述任一样本所记录的第二对象标识的历史使用对象的对象图像,并根据采集到的对象图像对所述历史使用对象进行类型识别;所述历史使用对象是指:在开始优化所述对象标识预测模型之前的预设时间段内,最后一个使用所述任一样本所记录的第二对象标识的对象;
若识别出所述历史使用对象为所述第一类对象,则将正标签作为所述任一样本的标注标签;所述正标签用于指示:所述任一样本所记录的第二对象标识被所述第一类对象使用;
若识别出所述历史使用对象为所述第二类对象,则将负标签作为所述任一样本的标注标签;所述负标签用于指示:所述任一样本所记录的第二对象标识未被所述第一类对象使用。
另一种实施方式中,所述样本集中还包括各个样本的标注标签;任一样本的标注标签用于指示:所述任一样本所记录的第二对象标识被所述第一类对象使用,或者任一样本的标注标签用于指示:所述任一样本所记录的第二对象标识未被所述第一类对象使用;相应的,处理单元602还可用于:
在所述样本集中的各个样本均被遍历后,得到所述各个样本所记录的第二对象标识被所述第一类对象使用的概率;
根据所述各个样本所记录的第二对象标识被所述第一类对象使用的概率,以及所述各个样本的标注标签,计算所述对象标识预测模型的模型损失值;
按照减小所述模型损失值的方向,优化所述对象标识预测模型的模型参数。
另一种实施方式中,所述对象标识预测模型进行一次或多次优化后达到收敛;相应的,处理单元602还可用于:
将所述对象标识预测模型达到收敛时的所述各个样本所对应的概率,确定为所述各个样本所记录的第二对象标识被所述第一类对象使用的目标概率;
根据所述各个样本所对应的目标概率,从所述样本集中选取出目标概率大于概率阈值的样本;
将选取出的各个样本所记录的第二对象标识确定为可疑对象标识,并存储确定出的各个可疑对象标识。
另一种实施方式中,处理单元602还可用于:
当检测到存储的任一可疑对象标识被用于执行业务处理时,在所述任一可疑对象标识的当前使用对象的终端中输出对象识别弹窗;
通过所述对象识别弹窗获取所述当前使用对象的对象图像,并根据获取到的对象图像检测所述当前使用对象的对象类型;
若所述对象类型指示所述当前使用对象为所述第二类对象,则允许所述当前使用对象继续使用所述任一可疑对象标识执行所述业务处理;若所述对象类型指示所述当前使用对象为所述第一类对象,则对所述当前使用者进行业务管控处理。
另一种实施方式中,处理单元602在用于获取目标标识节点的目标节点特征之前,处理单元602还可用于:
从所述多重异构网络中筛选出用于记录所述第二对象标识的各个标识节点;
从筛选出的全部标识节点中,选取部分标识节点作为用于优化对象标识预测模型的样本,添加至所述对象标识预测模型的样本集中;
采用所述样本集对所述对象标识预测模型进行迭代优化,直至所述对象标识预测模型达到收敛;
其中,所述目标标识节点是所述筛选出的全部标识节点中,未被选取作为样本的任一标识节点;所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,是调用收敛后的对象标识预测模型得到的。
根据本申请的一个实施例,图2、图4以及图5所示的方法所涉及的各个步骤均可以是由图6所示的数据处理装置中的各个单元来执行的。例如,图2中所示的步骤S201可由图6中所示的获取单元601来执行,步骤S202-S205均可由图6中所示的处理单元602来执行,步骤S206可由图6中所示的预测单元603来执行;又如,图4所示的步骤S401中的“获取业务场景的多重异构网络”这一步骤可由图6中所示的获取单元601来执行,步骤S401中的“根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系”这一步骤,以及步骤S402-S404、以及步骤S406-S409均可由图6中所示的处理单元602来执行,步骤S405可由图6中所示的预测单元603来执行;再如,图5所示的步骤S501中的“获取业务场景的多重异构网络”这一步骤可由图6中所示的获取单元601来执行,步骤S501中的“根据多重异构网络中的每条边的边属性,将多重异构网络拆解成M个关系”这一步骤,以及步骤S502-S505均可由图6中所示的处理单元602来执行,步骤S506可由图6中所示的预测单元603来执行,等等。
根据本申请的另一个实施例,图6所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图4或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的数据处理装置设备,以及来实现本申请实施例的数据处理方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例可基于业务场景的多重异构网络,给出第二类对象注册的第二对象标识被第一类对象使用的概率估计,从而通过该概率来辅助判断第二对象标识是否被第一类对象。由于该多重异构网络可包括M种节点和M种边,一种节点用于记录业务场景中的一类实体,且业务场景中的M类实体中的第一类实体可包括多个对象标识,而一种边对应一种边属性,且一种边属性用于表示对象标识与其中一类实体中的实体之间的属性关系。因此在基于多重异构网络进行概率预测时,可先根据每条边的边属性将多重异构网络拆解成M个关系网络,使得一个关系网络对应一种边属性,这样可使得在对每个关系网络中的标识节点之间的边进行表征处理时,避免不同边属性的边相互影响,可有效提升每个关系网络的边表征信息的准确性以及表征效率。然后,可对M个关系网络的边表征信息进行融合学习,并基于融合表征信息以及目标标识节点的目标节点特征,预测目标标识节点所记录的第二对象标识被第一类对象使用的概率;这样可使得在进行概率预测时,不仅可以运用到对象标识与对象标识之间的属性关系,还可运用到对象标识与其他类实体中的实体之间的属性关系,通过运用多种属性关系,可有效提升概率预测的准确性。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备。请参见图7,该计算机设备至少包括处理器701、输入接口702、输出接口703以及计算机存储介质704。其中,计算机设备内的处理器701、输入接口702、输出接口703以及计算机存储介质704可通过总线或其他方式连接。计算机存储介质704可以存储在计算机设备的存储器中,所述计算机存储介质704用于存储计算机程序,所述计算机程序包括程序指令,所述处理器701用于执行所述计算机存储介质704存储的程序指令。处理器701(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例所述的处理器701可以用于进行一系列的数据处理,具体包括:获取业务场景的多重异构网络,所述业务场景包括M类实体,M大于1;所述多重异构网络包括M种节点和M种边,一种节点记录一类实体;所述M类实体中的第一类实体包括多个对象标识,所述多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系;根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点,标识节点是指所述M种节点中用于记录对象标识的节点;对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息;并对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息;获取目标标识节点的目标节点特征,所述目标标识节点是指所述多重异构网络中的一个用于记录第二对象标识的标识节点;基于所述融合表征信息和所述目标节点特征,预测所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,等等。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2、图4或图5所示的数据处理方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器701加载并执行如下步骤:
获取业务场景的多重异构网络,所述业务场景包括M类实体,M大于1;所述多重异构网络包括M种节点和M种边,一种节点记录一类实体;所述M类实体中的第一类实体包括多个对象标识,所述多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系;
根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点,标识节点是指所述M种节点中用于记录对象标识的节点;
对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息;并对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息;
获取目标标识节点的目标节点特征,所述目标标识节点是指所述多重异构网络中的一个用于记录第二对象标识的标识节点;
基于所述融合表征信息和所述目标节点特征,预测所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率。
在一种实施方式中,在根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络时,所述一条或多条指令可由处理器加载并具体执行:
按照具有相同边属性的边被划分至同一个网络的原则,根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个异构子网络;
基于保留异构子网络中的标识节点的原则,对所述M个异构子网络中的各个异构子网络进行同构处理,得到M个同构子网络,每个同构子网络中的各个节点均为标识节点;
将所述M个同构子网络作为M个关系网络。
另一种实施方式中,在对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息时,所述一条或多条指令可由处理器加载并具体执行:
遍历第m个关系网络中的标识节点之间的各条边,m∈[1,M];
针对当前遍历的当前边,获取所述第m个关系网络中的所述当前边所连接的两个节点的节点表征;
根据所述当前边所连接的两个节点的节点表征,对所述当前边进行表征处理,得到所述当前边的边表征向量;
在所述第m个关系网络中的各条边均被遍历后,采用所述第m个关系网络中的各条边的边表征向量,构建所述第m个关系网络的边表征信息。
另一种实施方式中,在对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息时,所述一条或多条指令可由处理器加载并具体执行:
对每个关系网络所包括的标识节点对进行并集运算,得到K个标识节点对;K为正整数,一个标识节点对包括关系网络中相连接的两个标识节点;
根据每个标识节点对中的两个标识节点的节点特征,计算所述每个标识节点对的特征相似度;并采用所述K个标识节点对的特征相似度,构建节点特征信息;
调用注意力模型基于注意力机制,对所述M个关系网络的边表征信息和所述节点特征信息进行融合学习,得到融合表征信息。
另一种实施方式中,任一关系网络的边表征信息包括所述任一关系网络中的标识节点之间的边的边表征向量,各个关系网络的边表征信息中的边表征向量的向量维度相同;相应的,在根据每个标识节点对中的两个标识节点的节点特征,计算所述每个标识节点对的特征相似度时,所述一条或多条指令可由处理器加载并具体执行:
对第k个标识节点对中的两个标识节点的节点特征进行相似度计算,得到所述第k个标识节点对的相似度向量,k∈[1,K];
基于边表征向量的向量维度,对所述第k个标识节点对的相似度向量进行维度调整,得到所述第k个标识节点对的特征相似度;其中,所述第k个标识节点对的特征相似度的向量维度,与边特征向量的向量维度相同。
另一种实施方式中,在获取目标标识节点的目标节点特征之前,所述一条或多条指令可由处理器加载并具体执行:
从所述多重异构网络中筛选出用于记录第二对象标识的标识节点;
将筛选出的各个标识节点作为用于优化对象标识预测模型的样本,添加至所述对象标识预测模型的样本集中;
遍历所述样本集中的各个样本,将当前遍历的样本确定为目标标识节点;
其中,所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,是调用所述对象标识预测模型得到的。
另一种实施方式中,所述样本集中还包括各个样本的标注标签;任一样本的标注标签用于指示:所述任一样本所记录的第二对象标识被所述第一类对象使用,或者任一样本的标注标签用于指示:所述任一样本所记录的第二对象标识未被所述第一类对象使用;相应的,所述一条或多条指令可由处理器加载并具体执行:
在所述样本集中的各个样本均被遍历后,得到所述各个样本所记录的第二对象标识被所述第一类对象使用的概率;
根据所述各个样本所记录的第二对象标识被所述第一类对象使用的概率,以及所述各个样本的标注标签,计算所述对象标识预测模型的模型损失值;
按照减小所述模型损失值的方向,优化所述对象标识预测模型的模型参数。
另一种实施方式中,所述对象标识预测模型进行一次或多次优化后达到收敛;相应的,所述一条或多条指令可由处理器加载并具体执行:
将所述对象标识预测模型达到收敛时的所述各个样本所对应的概率,确定为所述各个样本所记录的第二对象标识被所述第一类对象使用的目标概率;
根据所述各个样本所对应的目标概率,从所述样本集中选取出目标概率大于概率阈值的样本;
将选取出的各个样本所记录的第二对象标识确定为可疑对象标识,并存储确定出的各个可疑对象标识。
另一种实施方式中,所述一条或多条指令可由处理器加载并具体执行:
当检测到存储的任一可疑对象标识被用于执行业务处理时,在所述任一可疑对象标识的当前使用对象的终端中输出对象识别弹窗;
通过所述对象识别弹窗获取所述当前使用对象的对象图像,并根据获取到的对象图像检测所述当前使用对象的对象类型;
若所述对象类型指示所述当前使用对象为所述第二类对象,则允许所述当前使用对象继续使用所述任一可疑对象标识执行所述业务处理;若所述对象类型指示所述当前使用对象为所述第一类对象,则对所述当前使用对象进行业务管控处理。
另一种实施方式中,在获取目标标识节点的目标节点特征之前,所述一条或多条指令可由处理器加载并具体执行:
从所述多重异构网络中筛选出用于记录所述第二对象标识的各个标识节点;
从筛选出的全部标识节点中,选取部分标识节点作为用于优化对象标识预测模型的样本,添加至所述对象标识预测模型的样本集中;
采用所述样本集对所述对象标识预测模型进行迭代优化,直至所述对象标识预测模型达到收敛;
其中,所述目标标识节点是所述筛选出的全部标识节点中,未被选取作为样本的任一标识节点;所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,是调用收敛后的对象标识预测模型得到的。
本申请实施例可基于业务场景的多重异构网络,给出第二类对象注册的第二对象标识被第一类对象使用的概率估计,从而通过该概率来辅助判断第二对象标识是否被第一类对象。由于该多重异构网络可包括M种节点和M种边,一种节点用于记录业务场景中的一类实体,且业务场景中的M类实体中的第一类实体可包括多个对象标识,而一种边对应一种边属性,且一种边属性用于表示对象标识与其中一类实体中的实体之间的属性关系。因此在基于多重异构网络进行概率预测时,可先根据每条边的边属性将多重异构网络拆解成M个关系网络,使得一个关系网络对应一种边属性,这样可使得在对每个关系网络中的标识节点之间的边进行表征处理时,避免不同边属性的边相互影响,可有效提升每个关系网络的边表征信息的准确性以及表征效率。然后,可对M个关系网络的边表征信息进行融合学习,并基于融合表征信息以及目标标识节点的目标节点特征,预测目标标识节点所记录的第二对象标识被第一类对象使用的概率;这样可使得在进行概率预测时,不仅可以运用到对象标识与对象标识之间的属性关系,还可运用到对象标识与其他类实体中的实体之间的属性关系,通过运用多种属性关系,可有效提升概率预测的准确性。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2、图4或图5所示的数据处理方法实施例方面的各种可选方式中提供的方法。
并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取业务场景的多重异构网络,所述业务场景包括M类实体,M大于1;所述多重异构网络包括M种节点和M种边,一种节点记录一类实体;所述M类实体中的第一类实体包括多个对象标识,所述多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系;
根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点,标识节点是指所述M种节点中用于记录对象标识的节点;
对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息;并对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息;
获取目标标识节点的目标节点特征,所述目标标识节点是指所述多重异构网络中的一个用于记录第二对象标识的标识节点;
基于所述融合表征信息和所述目标节点特征,预测所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率。
2.如权利要求1所述的方法,其特征在于,所述根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络,包括:
按照具有相同边属性的边被划分至同一个网络的原则,根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个异构子网络;
基于保留异构子网络中的标识节点的原则,对所述M个异构子网络中的各个异构子网络进行同构处理,得到M个同构子网络,每个同构子网络中的各个节点均为标识节点;
将所述M个同构子网络作为M个关系网络。
3.如权利要求1所述的方法,其特征在于,所述对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息,包括:
遍历第m个关系网络中的标识节点之间的各条边,m∈[1,M];
针对当前遍历的当前边,获取所述第m个关系网络中的所述当前边所连接的两个节点的节点表征;
根据所述当前边所连接的两个节点的节点表征,对所述当前边进行表征处理,得到所述当前边的边表征向量;
在所述第m个关系网络中的各条边均被遍历后,采用所述第m个关系网络中的各条边的边表征向量,构建所述第m个关系网络的边表征信息。
4.如权利要求1所述的方法,其特征在于,所述对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息,包括:
对每个关系网络所包括的标识节点对进行并集运算,得到K个标识节点对;K为正整数,一个标识节点对包括关系网络中相连接的两个标识节点;
根据每个标识节点对中的两个标识节点的节点特征,计算所述每个标识节点对的特征相似度;并采用所述K个标识节点对的特征相似度,构建节点特征信息;
调用注意力模型基于注意力机制,对所述M个关系网络的边表征信息和所述节点特征信息进行融合学习,得到融合表征信息。
5.如权利要求4所述的方法,其特征在于,任一关系网络的边表征信息包括所述任一关系网络中的标识节点之间的边的边表征向量,各个关系网络的边表征信息中的边表征向量的向量维度相同;
所述根据每个标识节点对中的两个标识节点的节点特征,计算所述每个标识节点对的特征相似度,包括:
对第k个标识节点对中的两个标识节点的节点特征进行相似度计算,得到所述第k个标识节点对的相似度向量,k∈[1,K];
基于边表征向量的向量维度,对所述第k个标识节点对的相似度向量进行维度调整,得到所述第k个标识节点对的特征相似度;其中,所述第k个标识节点对的特征相似度的向量维度,与边特征向量的向量维度相同。
6.如权利要求1所述的方法,其特征在于,所述获取目标标识节点的目标节点特征之前,所述方法还包括:
从所述多重异构网络中筛选出用于记录第二对象标识的标识节点;
将筛选出的各个标识节点作为用于优化对象标识预测模型的样本,添加至所述标识预测模型的样本集中;
遍历所述样本集中的各个样本,将当前遍历的样本确定为目标标识节点;
其中,所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,是调用所述对象标识预测模型得到的。
7.如权利要求6所述的方法,其特征在于,所述样本集中还包括各个样本的标注标签,任一样本的标注标签的构建方式如下:
采集所述任一样本所记录的第二对象标识的历史使用对象的对象图像,并根据采集到的对象图像对所述历史使用对象进行类型识别;所述历史使用对象是指:在开始优化所述对象标识预测模型之前的预设时间段内,最后一个使用所述任一样本所记录的第二对象标识的对象;
若识别出所述历史使用对象为所述第一类对象,则将正标签作为所述任一样本的标注标签;所述正标签用于指示:所述任一样本所记录的第二对象标识被所述第一类对象使用;
若识别出所述历史使用对象为所述第二类对象,则将负标签作为所述任一样本的标注标签;所述负标签用于指示:所述任一样本所记录的第二对象标识未被所述第一类对象使用。
8.如权利要求6所述的方法,其特征在于,所述样本集中还包括各个样本的标注标签;任一样本的标注标签用于指示:所述任一样本所记录的第二对象标识被所述第一类对象使用,或者任一样本的标注标签用于指示:所述任一样本所记录的第二对象标识未被所述第一类对象使用;所述方法还包括:
在所述样本集中的各个样本均被遍历后,得到所述各个样本所记录的第二对象标识被所述第一类对象使用的概率;
根据所述各个样本所记录的第二对象标识被所述第一类对象使用的概率,以及所述各个样本的标注标签,计算所述对象标识预测模型的模型损失值;
按照减小所述模型损失值的方向,优化所述对象标识预测模型的模型参数。
9.如权利要求8所述的方法,其特征在于,所述对象标识预测模型进行一次或多次优化后达到收敛;所述方法还包括:
将所述对象标识预测模型达到收敛时的所述各个样本所对应的概率,确定为所述各个样本所记录的第二对象标识被所述第一类对象使用的目标概率;
根据所述各个样本所对应的目标概率,从所述样本集中选取出目标概率大于概率阈值的样本;
将选取出的各个样本所记录的第二对象标识确定为可疑对象标识,并存储确定出的各个可疑对象标识。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
当检测到存储的任一可疑对象标识被用于执行业务处理时,在所述任一可疑对象标识的当前使用对象的终端中输出对象识别弹窗;
通过所述对象识别弹窗获取所述当前使用对象的对象图像,并根据获取到的对象图像检测所述当前使用对象的对象类型;
若所述对象类型指示所述当前使用对象为所述第二类对象,则允许所述当前使用对象继续使用所述任一可疑对象标识执行所述业务处理;若所述对象类型指示所述当前使用对象为所述第一类对象,则对所述当前使用对象进行业务管控处理。
11.如权利要求1所述的方法,其特征在于,所述获取目标标识节点的目标节点特征之前,所述方法还包括:
从所述多重异构网络中筛选出用于记录所述第二对象标识的标识节点;
从筛选出的全部标识节点中,选取部分标识节点作为用于优化对象标识预测模型的样本,添加至所述对象标识预测模型的样本集中;
采用所述样本集对所述对象标识预测模型进行迭代优化,直至所述对象标识预测模型达到收敛;
其中,所述目标标识节点是所述筛选出的全部标识节点中,未被选取作为样本的任一标识节点;所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率,是调用收敛后的对象标识预测模型得到的。
12.如权利要求1所述的方法,其特征在于,所述业务场景为游戏场景;
所述第一类对象是指年龄处于第一年龄范围内的游戏用户,所述第二类对象是指年龄处于第二年龄范围内的游戏用户。
13.如权利要求1所述的方法,其特征在于,所述M类实体还包括第二类实体和第三类实体;所述第二类实体包括一个或多个设备,所述第三类实体包括一个或多个对象;
所述M种边对应的M种边属性包括第一种边属性、第二种边属性以及第三种边属性;其中:所述第一种边属性表示对象标识与对象标识之间存在联系人关系链的属性关系,所述第二种边属性表示对象标识在设备中登陆的属性关系,所述第三种边属性表示对象标识使用对象的身份信息进行实名认证的属性关系。
14.一种数据处理装置,其特征在于,包括:
获取单元,用于获取业务场景的多重异构网络,所述业务场景包括M类实体,M大于1;所述多重异构网络包括M种节点和M种边,一种节点记录一类实体;所述M类实体中的第一类实体包括多个对象标识,所述多个对象标识包括:第一类对象注册的一个或多个第一对象标识,以及第二类对象注册的一个或多个第二对象标识;一种边对应一种边属性,且一种边属性表示对象标识与所述M类实体中的一类实体中的实体之间的属性关系;
处理单元,用于根据所述多重异构网络中的每条边的边属性,将所述多重异构网络拆解成M个关系网络;一个关系网络对应一种边属性,且任一关系网络中包括一个或多个标识节点,标识节点是指所述M种节点中用于记录对象标识的节点;
所述处理单元,还用于对每个关系网络中的标识节点之间的边进行表征处理,得到所述每个关系网络的边表征信息;并对所述M个关系网络的边表征信息进行融合学习,得到融合表征信息;
所述处理单元,还用于获取目标标识节点的目标节点特征,所述目标标识节点是指所述多重异构网络中的一个用于记录第二对象标识的标识节点;
预测单元,用于基于所述融合表征信息和所述目标节点特征,预测所述目标标识节点所记录的第二对象标识被所述第一类对象使用的概率。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-13任一项所述的数据处理方法。
CN202111218394.4A 2021-10-20 2021-10-20 数据处理方法、相关设备及计算机存储介质 Active CN113656927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111218394.4A CN113656927B (zh) 2021-10-20 2021-10-20 数据处理方法、相关设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111218394.4A CN113656927B (zh) 2021-10-20 2021-10-20 数据处理方法、相关设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113656927A true CN113656927A (zh) 2021-11-16
CN113656927B CN113656927B (zh) 2022-02-11

Family

ID=78484260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111218394.4A Active CN113656927B (zh) 2021-10-20 2021-10-20 数据处理方法、相关设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113656927B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098726A (zh) * 2022-06-20 2022-09-23 河南省信息中心 一种视频数据处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140330809A1 (en) * 2013-05-03 2014-11-06 Rajat Raina Using Inverse Operators for Queries on Online Social Networks
US20150188941A1 (en) * 2013-12-26 2015-07-02 Telefonica Digital Espana, S.L.U. Method and system for predicting victim users and detecting fake user accounts in online social networks
CN111144577A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN111291125A (zh) * 2020-02-18 2020-06-16 广州腾讯科技有限公司 一种数据处理方法及相关设备
CN111932130A (zh) * 2020-08-12 2020-11-13 上海冰鉴信息科技有限公司 业务类型识别方法及装置
CN112566093A (zh) * 2020-11-13 2021-03-26 腾讯科技(深圳)有限公司 一种终端关系识别方法、装置、计算机设备及存储介质
CN113011646A (zh) * 2021-03-15 2021-06-22 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及可读存储介质
CN113297462A (zh) * 2020-05-12 2021-08-24 阿里巴巴集团控股有限公司 数据处理方法、装置、设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140330809A1 (en) * 2013-05-03 2014-11-06 Rajat Raina Using Inverse Operators for Queries on Online Social Networks
US20150188941A1 (en) * 2013-12-26 2015-07-02 Telefonica Digital Espana, S.L.U. Method and system for predicting victim users and detecting fake user accounts in online social networks
CN111144577A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN111291125A (zh) * 2020-02-18 2020-06-16 广州腾讯科技有限公司 一种数据处理方法及相关设备
CN113297462A (zh) * 2020-05-12 2021-08-24 阿里巴巴集团控股有限公司 数据处理方法、装置、设备和存储介质
CN111932130A (zh) * 2020-08-12 2020-11-13 上海冰鉴信息科技有限公司 业务类型识别方法及装置
CN112566093A (zh) * 2020-11-13 2021-03-26 腾讯科技(深圳)有限公司 一种终端关系识别方法、装置、计算机设备及存储介质
CN113011646A (zh) * 2021-03-15 2021-06-22 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098726A (zh) * 2022-06-20 2022-09-23 河南省信息中心 一种视频数据处理方法及系统

Also Published As

Publication number Publication date
CN113656927B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
KR102252081B1 (ko) 이미지 특성의 획득
CN111651671B (zh) 用户对象推荐方法、装置、计算机设备和存储介质
Cazabet et al. Simulate to detect: a multi-agent system for community detection
CN115511501A (zh) 一种数据处理方法、计算机设备以及可读存储介质
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
US20220019916A1 (en) Apparatus and method for recommending federated learning based on tendency analysis of recognition model and method for federated learning in user terminal
CN112395515B (zh) 一种信息推荐方法、装置、计算机设备及存储介质
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN111598711A (zh) 目标用户账号识别方法、计算机设备及存储介质
CN113890902A (zh) 特征识别库的构建方法及装置、流量识别方法
CN112258250A (zh) 基于网络热点的目标用户识别方法、装置和计算机设备
CN113656927B (zh) 数据处理方法、相关设备及计算机存储介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
Moulahi Joining formal concept analysis to feature extraction for data pruning in cloud of things
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN115578765A (zh) 目标识别方法、装置、系统及计算机可读存储介质
CN111935259B (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
CN113411405A (zh) 针对云计算环境的信息安全处理方法及人工智能服务器
CN115131058A (zh) 账号识别方法、装置、设备及存储介质
CN114494809A (zh) 特征提取模型优化方法、装置及电子设备
Vulpe et al. AI/ML-based real-time classification of Software Defined Networking traffic
CN112231571A (zh) 资讯数据的处理方法、装置、设备及存储介质
CN114820085B (zh) 用户筛选方法、相关装置及存储介质
CN117151727B (zh) 基于用户行为分析的客服智能切换方法
EP4318318A1 (en) Information processing device for improving quality of generator of generative adversarial network (gan)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40054058

Country of ref document: HK