CN113705786A - 基于模型的数据处理方法、装置及存储介质 - Google Patents

基于模型的数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN113705786A
CN113705786A CN202110989439.1A CN202110989439A CN113705786A CN 113705786 A CN113705786 A CN 113705786A CN 202110989439 A CN202110989439 A CN 202110989439A CN 113705786 A CN113705786 A CN 113705786A
Authority
CN
China
Prior art keywords
estimated
model
attribute
target object
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110989439.1A
Other languages
English (en)
Other versions
CN113705786B (zh
Inventor
黄佳程
宁振
胡伟
赵耀
徐晓舟
陈起进
霍承富
邱小侠
任卫军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202110989439.1A priority Critical patent/CN113705786B/zh
Priority claimed from CN202110989439.1A external-priority patent/CN113705786B/zh
Publication of CN113705786A publication Critical patent/CN113705786A/zh
Application granted granted Critical
Publication of CN113705786B publication Critical patent/CN113705786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种基于模型的数据处理方法、装置及存储介质,其中,基于模型的数据处理方法包括:获取至少两个对象的已知属性信息,已知属性信息包括对象的至少一项已知属性的采集值;利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性;基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据;利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。考虑了各个对象之间的关联性,提高了置信度的准确性。

Description

基于模型的数据处理方法、装置及存储介质
技术领域
本申请实施例涉及电子信息技术领域,尤其涉及一种基于模型的数据处理方法、装置及存储介质。
背景技术
信息收集在各个行业都非常重要,但是收集到的信息的质量也可能参差不齐,这会带来较大影响,因此,甄别收集的信息的真实性就极为关键。例如,在工厂行业,工厂的各项属性信息可能有多种数据来源,相关技术中,通过投票或者基于概率图模型判断真实性,判断依据较为单一,导致结果不够准确。
发明内容
有鉴于此,本申请实施例提供一种基于模型的数据处理方法、装置及存储介质,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种基于模型的数据处理方法,包括:获取至少两个对象的已知属性信息,已知属性信息包括对象的至少一项已知属性的采集值;利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性;基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据;利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。
根据本申请实施例的第二方面,提供了一种基于模型的数据处理装置,包括:获取模块,用于获取至少两个对象的已知属性信息,已知属性信息包括对象的至少一项已知属性的采集值;关联模块,用于利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性;聚合模块,用于基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据;置信度模块,用于利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。
根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行如第一方面的基于模型的数据处理方法对应的操作。
根据本申请实施例的第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如第一方面的基于模型的数据处理方法。
本申请实施例提供的基于模型的数据处理方法、装置及存储介质,获取至少两个对象的已知属性信息,已知属性信息包括对象的至少一项已知属性的采集值;利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性;基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据;利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。因为通过目标对象和关联对象的已知属性信息生成聚合数据,再利用聚合数据计算置信度,考虑了各个对象之间的关联性,提高了置信度的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种基于模型的数据处理方法的场景示意图;
图2为本申请实施例一提供的一种基于模型的数据处理方法的流程图;
图3为本申请实施例一提供的一种图网络模型示意图;
图4为本申请实施例一提供的一种模型架构示意图;
图5为本申请实施例二提供的一种基于模型的数据处理装置的结构图;
图6为本申请实施例三提供的一种电子设备的结构图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一
本申请实施例一提供一种基于模型的数据处理方法,应用于电子设备,为了便于理解,对本申请实施例一所提供的基于模型的数据处理方法的应用场景进行说明,参照图1所示,图1为本申请实施例一提供的一种基于模型的数据处理方法的场景示意图。图1所示的场景中包括电子设备101,电子设备101可以是执行本申请实施例一提供的基于模型的数据处理方法的设备。
电子设备101是带有显示屏的设备,可以是智能手机、平板电脑、笔记本电脑、车载终端等终端设备,当然,此处只是示例性说明,并不代表本申请局限于此。
电子设备101可以接入网络,通过网络与服务端连接,并进行数据交互,或者,电子设备101可以是服务端的设备。本申请中,网络包括局域网(英文:Local Area Network,LAN)、广域网(英文:Wide Area Network,WAN)、移动通信网络;如万维网(英文:World WideWeb,WWW)、长期演进(英文:Long Term Evolution,LTE)网络、2G网络(英文:2thGeneration Mobile Network)、3G网络(英文:3th Generation Mobile Network),5G网络(英文:5th Generation Mobile Network)等。服务端可以包括通过网络连接的各种设备,例如,服务器、中继设备、端到端(英文:Device-to-Device,D2D)设备等。当然,此处只是示例性说明,并不代表本申请局限于此。
结合图1所示的场景,详细说明本申请实施例一提供的基于模型的数据处理方法,需要说明的是,图1只是本申请实施例一提供的基于模型的数据处理方法的一种应用场景,并不代表该基于模型的数据处理方法必须应用于图1所示的场景,具体可以应用于电子设备,参照图2所示,图2为本申请实施例一提供的一种基于模型的数据处理方法的流程图,该方法包括以下步骤:
步骤201、获取至少两个对象的已知属性信息。
已知属性信息包括对象的至少一项已知属性的采集值。需要说明的是,至少两个对象中每一个对象可以是任意一个实体,例如,一个对象可以是一个工厂、一个企业、一个个人、一个建筑、一个产品等。以对象是工厂为例,至少一项已知属性可以包括工厂的注册资本、位置、厂房面积等,已知属性的采集值表示通过数据源直接获取到的已知属性的属性值。
步骤202、利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象。
其中,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性。以目标对象是一个工厂为例,目标对象的至少一个关联对象可以包括该工厂行业上游的工厂、行业下游的工厂、该工厂所位于的地区、该工厂的法人、投资方等。如图3所述,图3为本申请实施例一提供的一种图网络模型示意图。
步骤203、基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据。
聚合数据可以包含多组向量,多组向量分别用于指示目标对象和至少一个关联对象的已知属性。可选地,可以通过图网络模型执行步骤202和203,图网络模型可以包括节点采样和节点聚合两部分。可选地,在一种应用场景中,如果至少两个对象的数量过多,可以通过节点采样减少运算量,一个节点即表示一个对象。例如,对于一个节点e,可以利用一个采样函数N(e)采样预设数量的节点(即对象)。对于图网络模型的不同层次,可以使用不同的参数。可选地,在另一种应用场景中,为了更好地利用关联对象地已知属性信息,可以使用两层图注意力模型(英文:Graph Attention Networks,GAT)得到聚合数据。例如,可以通过公式一得到聚合数据:
Figure BDA0003231950820000041
其中
Figure BDA0003231950820000042
是节点h的第i层表征,
Figure BDA0003231950820000043
是节点n的第i层表征,N(h)是与节点h关联的节点集合,ak是K个注意力函数中的第k个注意力函数,此处采用多头注意力机制来避免过拟合,每个注意力函数使用相同的结构
Figure BDA0003231950820000044
不同的参数Wk
Figure BDA0003231950820000045
表示
Figure BDA0003231950820000046
Figure BDA0003231950820000047
表示
Figure BDA0003231950820000048
这两种应用场景可以单独存在,也可以结合形成新的方案。
步骤204、利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。
需要说明的是,预设网络模型可以包括图网络模型和评分模型两部分。评分模型可以根据目标对象的聚合数据估计出待估计属性的估计值及其置信度。例如,在第一个示例中,对于T个对象,每个对象包含S个属性,T和S均为大于0的整数,对于第t个对象,如果已知属性为R个,利用图网络模型,根据第t个对象的R个属性的采集值(即属性值)以及与第t个对象关联的关联对象的属性的采集值生成第t个对象的聚合数据,将第t个对象的聚合数据输入评分模型可以得到第t个对象的剩余S-R个待估计属性的估计值,以及每个估计值的置信度。
此处,列举一个具体应用场景进行说明,可选地,利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度,包括:利用评分模型的真值估计层对聚合数据进行运算得到待估计属性的估计值;基于待估计属性的估计值,利用评分模型的三元组评分层计算估计值的概率向量;基于待估计属性的概率向量,利用评分模型的置信度评分层计算估计值的置信度。在此应用场景中,评分模型包括真值估计层、三元组评分层以及置信度评分层。
结合上述步骤201-204,此处,列举一具体应用场景对评分模型如何训练进行说明,可选地,该方法还包括:根据待估计属性的采集值以及待估计属性的估计值计算评分模型的损失函数值;根据损失函数值对评分模型中的模型参数进行调整。进一步地,该方法还包括:将至少两个对象的属性中,每一个属性依次作为待估计属性,利用至少两个对象的属性信息对预设神经网络模型进行多次训练,至少两个对象的属性信息包括至少两个对象的已知属性的采集值和至少两个对象的待估计属性的采集值。每一个属性依次作为待估计属性进行训练,考虑了对象的各个属性之间的关联,进一步提高了评分模型的准确性。需要说明的是,对于预设神经网络模型进行训练,可以对预设神经网络模型进行整体训练,还可以分别对图网络模型和评分模型进行训练。
结合上述应用场景,对评分模型的结构进行进一步说明,评分模型可以整体进行训练,也可以单独对某一层进行训练,如图4所示,图4为本申请实施例一提供的一种模型架构示意图。图4示出了图网络模型、真值估计层、三元组评分层、置信度评分层、表示层。
其中,表示层用于将每个对象的属性信息进行处理,转化为向量,即对象的特征向量,也可以称为特征表征或表征,将对象的表征输入后续模型进行学习调整。在应用评分模型估计待估计属性时,每个对象的属性信息包括每个对象的至少一项已知属性的采集值;在训练评分模型时,每个对象的属性信息包括每个对象的所有属性的采集值,将每一个属性依次作为待估计属性对评分模型进行训练。此处,基于评分模型在应用过程和训练过程,对每一层网络进行示例性说明。
真值估计层用于根据聚合数据进行运算得到待估计属性的估计值。需要说明的是,为了提高真值估计的准确性,可以进行残差连接,强化目标对象自身的表示。可选地,在一种实现方式中,利用评分模型的真值估计层对聚合数据进行运算得到待估计属性的估计值,包括:将聚合数据及目标对象的已知属性信息输入评分模型的真值估计层,通过评分模型的真值估计层进行运算得到待估计属性的估计值。对于节点e,经过2层GAT网络可以得到聚合数据
Figure BDA0003231950820000052
简单采用残差连接会带来节点自身表示过拟合的问题,导致无法得到有效的聚合数据,可以利用Transformer的架构避免(即组合使用Dropout)过拟合问题,利用层规范化和前馈网络来修正对象的表征。最后得到的节点表示(即聚合数据)如公式二所示:
Figure BDA0003231950820000051
其中LN是层规范化函数,Dropout使用的参数为0.05,前馈网络具有两层,神经元数量分别为de,4de,使用ReLU(x)=max(x,0)作为激活函数。
三元组评分层用于根据待估计属性的估计值进行运算得到估计值的概率向量。需要说明的是,待估计属性的估计值可以有多个,每个估计值可以对应一个概率。可选地,已知属性信息包括基于多个数据源的对象的至少一项已知属性的采集值,基于待估计属性的概率向量,利用评分模型的置信度评分层计算估计值的置信度,包括:基于待估计属性的概率向量,利用评分模型的置信度评分层计算基于各个数据源的估计值的置信度。
还需要说明的是,待估计属性不同,估计值的数量也不同,根据不同的待估计属性,可以利用不同方式训练三元组评分层。示例性地,对于三元组(e,a,v),其中,e表示对象,a表示属性,v表示属性值,需要说明的是,属性值表示一个属性可能的取值,一个属性可以有一个或多个属性值。可以设置一个损失函数f(e,a,v),所有真实的三元组满足fr(e,a,v)=0,对所有不真实的三元组满足|fr(e,a,v)|>0。此处列举三个具体示例进行说明:
可选地,在第一个示例中,估计值的数量为1,按照实数值进行处理。首先,按照公式三进行归一化处理:
Figure BDA0003231950820000061
需要说明是,v表示待估计属性的采集值(即实际值),在公式三中,假设实数值接近均匀分布或受限正态分布,如果分布是有偏的情况,可以使用对应的规范化方法处理。通常对于回归任务,可以利用一个前馈网络
Figure BDA0003231950820000062
对待估计属性的估计值v`进行预测,可以将实数值的损失函数fnum(e,a,v)按照公式四计算:
Figure BDA0003231950820000063
其中,Wa为属性a对应的模型参数,
Figure BDA0003231950820000064
为对象(节点)的表征,v表示待估计属性的采集值(即实际值),对于待估计属性的估计值,直接使用激活函数
Figure BDA0003231950820000065
进行计算。
可选地,在第二个示例中,估计值的数量为2,即二分类任务,待估计属性的估计值v`可以利用一个前馈网络
Figure BDA0003231950820000066
进行预测,同时使用交叉熵作为损失函数,此时可以将损失函数按照公式五计算:
Figure BDA0003231950820000067
对于一些只有部分对象(节点)包含的属性,可以调整不同类型的权重来提高模型预测的敏感性。可以将损失函数按照公式六定义:
Figure BDA0003231950820000068
其中,λa为负样本的权重,负样本的权重可以设置为关于属性的常数,以避免人工寻找大量的超参数。
可选地,在第三个示例中,估计值的数量大于2,即多分类任务,可以使用一个前馈网络对待估计属性的估计值进行多分类预测,同时多分类交叉熵函数作为损失函数,得到最终的损失函数。例如,对于n分类,属性为a,三元组(e,a,v)损失函数按照公式七定义:
Figure BDA0003231950820000069
其中,v∈{1,2,…,n},
Figure BDA00032319508200000612
表示属性a的第k种分类对应的模型参数,
Figure BDA00032319508200000613
表示待估计属性的估计值对应的模型参数。
可选地,结合上述示例,在一种实现方式中,该方法还包括:当估计值的概率向量列数大于或等于预设阈值时,为估计值的概率向量设置掩蔽向量,得到掩蔽后的估计值的概率向量。估计值的概率向量列数即为估计值的数量,将每个对象的估计值处理成固定数量的N分类。考虑n分类属性a,存在下面三种情况:
(1)n<N时,使用一个掩蔽向量
Figure BDA00032319508200000610
隐藏多余的列,掩蔽向量
Figure BDA00032319508200000611
为:
Figure BDA0003231950820000071
Figure BDA0003231950820000072
按照公式八计算分类概率:
Figure BDA0003231950820000073
(1)n=N时,不需要做特殊处理,掩蔽向量定义为mi=0。
(2)n>N时,使用负采样的方法另外选择N-1个分类,再使用N分类的交叉熵损失函数进行计算,掩蔽向量定义为mi=0。损失函数按照公式九计算:
Figure BDA0003231950820000074
置信度评分层用于根据待估计属性的概率向量计算估计值的置信度。因为人工提供和自动抽取的属性信息往往包含噪音,因此需要对噪音进行建模。此处,列举三种实现方式具体说明如何对噪音建模:
可选地,在第一种实现方式中,利用属性化的方式建模。把不同来源的数据建模成不同属性,通过标准化属性作为真值进行监督。这种方法中,属性信息包含采样值和数据源。
可选地,在第二种实现方式中,利用方差建模数据源。基于概率图模型(英文:Probabilistic Graphical Models,PGM)的方式建模,通常假设观测值服从正态分布,均值由真值确定,方差σs由数据源确定。先考虑实数值的情形,给定元组(e,a,v,s),待估计属性的采集值(即实际值)v=f(e,a),方差σ2 s由s决定,通过训练得到。因为一个待估计属性可以有多个可能的属性值,此时,待估计属性的属性值的概率估计通过公式十确定:
Figure BDA0003231950820000075
此时,知识图谱中元组集合T的对数似然函数根据公式十一确定:
Figure BDA0003231950820000076
可选地,在第三种实现方式中,对于多分类和二分类的情况,使用混淆矩阵Cs来建模数据源误差,此时,待估计属性的属性值的概率估计为
Figure BDA0003231950820000077
其中
Figure BDA0003231950820000078
是多分类的概率向量。此时,知识图谱中元组集合T的对数似然函数根据公式十二确定:
Figure BDA0003231950820000079
Figure BDA00032319508200000710
表示矩阵Cs的第v列向量,可以通过先验误差和后验误差进行建模,其中,对于先验误差,可以基于变分自编码器的思想,将数据源建模成噪音向量(或噪音分布),通过噪音改变对象(节点)的表示,从而建模不一致的数据;对于后验误差,可以基于贝叶斯神经网络的思想,添加数据源后给出估计值的分布,对不确定性建模。需要说明的是,对象地表征
Figure BDA00032319508200000711
可以作为评分模型的参数,因此可以建模成参数的分布
Figure BDA00032319508200000712
Figure BDA0003231950820000081
这种方法可以用区间估计代替点估计。
本申请实施例提供的基于模型的数据处理方法,获取至少两个对象的已知属性信息,已知属性信息包括对象的至少一项已知属性的采集值;利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性;基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据;利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。因为通过目标对象和关联对象的已知属性信息生成聚合数据,再利用聚合数据计算置信度,考虑了各个对象之间的关联性,提高了置信度的准确性。
实施例二
基于上述实施例一所描述的方法,本申请实施例二提供一种基于模型的数据处理装置,用于执行上述实施例一所描述的方法,参照图5所示,基于模型的数据处理装置50,包括:
获取模块501,用于获取至少两个对象的已知属性信息,已知属性信息包括对象的至少一项已知属性的采集值;
关联模块502,用于利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性;
聚合模块503,用于基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据;
置信度模块504,用于利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。
可选地,在一种具体示例中,基于模型的数据处理装置50还包括训练模块505,用于根据待估计属性的采集值以及待估计属性的估计值计算评分模型的损失函数值;根据损失函数值对评分模型中的模型参数进行调整。
可选地,在一种具体示例中,训练模块505,用于将至少两个对象的属性中,每一个属性依次作为待估计属性,利用至少两个对象的属性信息对预设神经网络模型进行多次训练,至少两个对象的属性信息包括至少两个对象的已知属性的采集值和至少两个对象的待估计属性的采集值。
可选地,在一种具体示例中,置信度模块504,用于利用评分模型的真值估计层对聚合数据进行运算得到待估计属性的估计值;基于待估计属性的估计值,利用评分模型的三元组评分层计算估计值的概率向量;基于待估计属性的概率向量,利用评分模型的置信度评分层计算估计值的置信度。
可选地,在一种具体示例中,已知属性信息包括基于多个数据源的对象的至少一项已知属性的采集值,置信度模块504,用于基于待估计属性的概率向量,利用评分模型的置信度评分层计算基于各个数据源的估计值的置信度。
可选地,在一种具体示例中,置信度模块504,用于将聚合数据及目标对象的已知属性信息输入评分模型的真值估计层,通过评分模型的真值估计层进行运算得到待估计属性的估计值。
可选地,在一种具体示例中,置信度模块504,用于当估计值的概率向量列数大于或等于预设阈值时,为估计值的概率向量设置掩蔽向量,得到掩蔽后的估计值的概率向量。
本申请实施例提供的基于模型的数据处理装置,获取至少两个对象的已知属性信息,已知属性信息包括对象的至少一项已知属性的采集值;利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性;基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据;利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。因为通过目标对象和关联对象的已知属性信息生成聚合数据,再利用聚合数据计算置信度,考虑了各个对象之间的关联性,提高了置信度的准确性。
实施例三
基于上述实施例一所描述的方法,本申请实施例三提供一种电子设备,用于执行上述实施例一所描述的方法,参照图6,示出了根据本申请实施例三的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图6所示,该电子设备60可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:
处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它电子设备或服务器进行通信。
处理器602,用于执行程序610,具体可以执行上述基于模型的数据处理方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行以实现实施例一中所描述的基于模型的数据处理方法。程序610中各步骤的具体实现可以参见上述基于模型的数据处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请实施例提供的电子设备,获取至少两个对象的已知属性信息,已知属性信息包括对象的至少一项已知属性的采集值;利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,至少两个对象包括目标对象与至少一个关联对象,图网络模型用于指示至少两个对象之间的关联性;基于目标对象的已知属性信息以及至少一个关联对象的已知属性信息生成目标对象的聚合数据;利用预设网络模型包含的评分模型对目标对象的聚合数据进行运算得到目标对象的待估计属性的估计值以及估计值的置信度。因为通过目标对象和关联对象的已知属性信息生成聚合数据,再利用聚合数据计算置信度,考虑了各个对象之间的关联性,提高了置信度的准确性。
实施例四
基于上述实施例一所描述的方法,本申请实施例四提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所描述的方法。
实施例五
基于上述实施例一所描述的方法,本申请实施例四提供一种计算机程序产品,该计算机程序产品被处理器执行时实现如实施例一所描述的方法。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的导航方法。此外,当通用计算机访问用于实现在此示出的导航方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的导航方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (10)

1.一种基于模型的数据处理方法,包括:
获取至少两个对象的已知属性信息,所述已知属性信息包括所述对象的至少一项已知属性的采集值;
利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,所述至少两个对象包括所述目标对象与所述至少一个关联对象,所述图网络模型用于指示所述至少两个对象之间的关联性;
基于所述目标对象的已知属性信息以及所述至少一个关联对象的已知属性信息生成所述目标对象的聚合数据;
利用所述预设网络模型包含的评分模型对所述目标对象的聚合数据进行运算得到所述目标对象的待估计属性的估计值以及所述估计值的置信度。
2.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述待估计属性的采集值以及所述待估计属性的估计值计算所述评分模型的损失函数值;根据所述损失函数值对所述评分模型中的模型参数进行调整。
3.根据权利要求2所述的方法,其中,所述方法还包括:
将所述至少两个对象的属性中,每一个属性依次作为所述待估计属性,利用所述至少两个对象的属性信息对所述预设神经网络模型进行多次训练,所述至少两个对象的属性信息包括所述至少两个对象的已知属性的采集值和所述至少两个对象的待估计属性的采集值。
4.根据权利要求1-3任一项所述的方法,其中,所述利用所述预设网络模型包含的评分模型对所述目标对象的聚合数据进行运算得到所述目标对象的待估计属性的估计值以及所述估计值的置信度,包括:
利用所述评分模型的真值估计层对所述聚合数据进行运算得到所述待估计属性的估计值;
基于所述待估计属性的估计值,利用所述评分模型的三元组评分层计算所述估计值的概率向量;
基于所述待估计属性的概率向量,利用所述评分模型的置信度评分层计算所述估计值的置信度。
5.根据权利要求4所述的方法,其中,所述已知属性信息包括基于多个数据源的所述对象的至少一项已知属性的采集值,所述基于所述待估计属性的概率向量,利用所述评分模型的置信度评分层计算所述估计值的置信度,包括:
基于所述待估计属性的概率向量,利用所述评分模型的置信度评分层计算基于各个数据源的所述估计值的置信度。
6.根据权利要求4所述的方法,其中,所述利用所述评分模型的真值估计层对所述聚合数据进行运算得到所述待估计属性的估计值,包括:
将所述聚合数据及所述目标对象的已知属性信息输入所述评分模型的真值估计层,通过所述评分模型的真值估计层进行运算得到所述待估计属性的估计值。
7.根据权利要求4所述的方法,其中,所述方法还包括:
当所述估计值的概率向量列数大于或等于预设阈值时,为所述估计值的概率向量设置掩蔽向量,得到掩蔽后的所述估计值的概率向量。
8.一种基于模型的数据处理装置,包括:
获取模块,用于获取至少两个对象的已知属性信息,所述已知属性信息包括所述对象的至少一项已知属性的采集值;
关联模块,用于利用预设网络模型包含的图网络模型,确定目标对象的至少一个关联对象,所述至少两个对象包括所述目标对象与所述至少一个关联对象,所述图网络模型用于指示所述至少两个对象之间的关联性;
聚合模块,用于基于所述目标对象的已知属性信息以及所述至少一个关联对象的已知属性信息生成所述目标对象的聚合数据;
置信度模块,用于利用所述预设网络模型包含的评分模型对所述目标对象的聚合数据进行运算得到所述目标对象的待估计属性的估计值以及所述估计值的置信度。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于模型的数据处理方法对应的操作。
10.一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7中任一所述的基于模型的数据处理方法。
CN202110989439.1A 2021-08-26 基于模型的数据处理方法、装置及存储介质 Active CN113705786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110989439.1A CN113705786B (zh) 2021-08-26 基于模型的数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110989439.1A CN113705786B (zh) 2021-08-26 基于模型的数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113705786A true CN113705786A (zh) 2021-11-26
CN113705786B CN113705786B (zh) 2024-06-04

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118434A (zh) * 2006-08-03 2008-02-06 松下电工株式会社 异常监控设备
CN205427846U (zh) * 2016-02-26 2016-08-03 云南六个人网络科技有限公司 网络专家可信度判断装置
US20190347515A1 (en) * 2018-05-08 2019-11-14 Toyota Research Institute, Inc. Method and apparatus for a manifold view of space
CN112508456A (zh) * 2020-12-25 2021-03-16 平安国际智慧城市科技股份有限公司 食品安全风险评估方法、系统、计算机设备及存储介质
CN112508304A (zh) * 2020-12-22 2021-03-16 上海浦东发展银行股份有限公司 交易对象流动性预测方法、装置、设备及存储介质
CN112836964A (zh) * 2021-02-02 2021-05-25 曹洪 一种企业异常的评估系统及评估方法
CN112949954A (zh) * 2019-11-22 2021-06-11 张捷 基于识别学习建立财务欺诈识别模型的方法
CN113110972A (zh) * 2021-04-15 2021-07-13 山东英信计算机技术有限公司 一种时序数据异常检测方法、装置及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118434A (zh) * 2006-08-03 2008-02-06 松下电工株式会社 异常监控设备
CN205427846U (zh) * 2016-02-26 2016-08-03 云南六个人网络科技有限公司 网络专家可信度判断装置
US20190347515A1 (en) * 2018-05-08 2019-11-14 Toyota Research Institute, Inc. Method and apparatus for a manifold view of space
CN112949954A (zh) * 2019-11-22 2021-06-11 张捷 基于识别学习建立财务欺诈识别模型的方法
CN112508304A (zh) * 2020-12-22 2021-03-16 上海浦东发展银行股份有限公司 交易对象流动性预测方法、装置、设备及存储介质
CN112508456A (zh) * 2020-12-25 2021-03-16 平安国际智慧城市科技股份有限公司 食品安全风险评估方法、系统、计算机设备及存储介质
CN112836964A (zh) * 2021-02-02 2021-05-25 曹洪 一种企业异常的评估系统及评估方法
CN113110972A (zh) * 2021-04-15 2021-07-13 山东英信计算机技术有限公司 一种时序数据异常检测方法、装置及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨博雄: "深度学习理论与实践", 北京邮电大学出版社, pages: 142 - 146 *

Similar Documents

Publication Publication Date Title
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
US11741361B2 (en) Machine learning-based network model building method and apparatus
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
US20190318256A1 (en) Method, apparatus and system for estimating causality among observed variables
US11030246B2 (en) Fast and accurate graphlet estimation
CN112862093B (zh) 一种图神经网络训练方法及装置
CN108509975B (zh) 一种异常在线聚类方法及装置,电子设备
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
EP3620982B1 (en) Sample processing method and device
CN114781272A (zh) 碳排放量预测方法、装置、设备及存储介质
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN113449012A (zh) 基于大数据预测的互联网服务挖掘方法及大数据预测系统
CN115797735A (zh) 目标检测方法、装置、设备和存储介质
CN115296984A (zh) 异常网络节点的检测方法及装置、设备、存储介质
CN114299304A (zh) 一种图像处理方法及相关设备
CN112115996B (zh) 图像数据的处理方法、装置、设备及存储介质
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
CN113705786B (zh) 基于模型的数据处理方法、装置及存储介质
CN113705786A (zh) 基于模型的数据处理方法、装置及存储介质
CN116246161A (zh) 领域知识引导下的遥感图像目标精细类型识别方法及装置
CN112528500B (zh) 一种场景图构造模型的评估方法及评估设备
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN110263196B (zh) 图像检索方法、装置、电子设备及存储介质
CN114119970A (zh) 目标跟踪方法及装置
CN110222622B (zh) 一种环境土壤检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant