CN110046247B - 样本数据处理方法及装置、模型训练方法及设备 - Google Patents

样本数据处理方法及装置、模型训练方法及设备 Download PDF

Info

Publication number
CN110046247B
CN110046247B CN201910166341.9A CN201910166341A CN110046247B CN 110046247 B CN110046247 B CN 110046247B CN 201910166341 A CN201910166341 A CN 201910166341A CN 110046247 B CN110046247 B CN 110046247B
Authority
CN
China
Prior art keywords
data
node
sample
dimension
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910166341.9A
Other languages
English (en)
Other versions
CN110046247A (zh
Inventor
向彪
周俊
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910166341.9A priority Critical patent/CN110046247B/zh
Publication of CN110046247A publication Critical patent/CN110046247A/zh
Application granted granted Critical
Publication of CN110046247B publication Critical patent/CN110046247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供用于样本数据扩充处理的方法及装置。该方法包括:获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度;以及针对样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据和/或标签数据,对该非完备样本数据进行数据扩充。

Description

样本数据处理方法及装置、模型训练方法及设备
技术领域
本公开通常涉及计算机技术领域,更具体地,涉及用于样本数据处理的方法及装置以及模型训练方法及设备。
背景技术
在大数据时代,通常会产生大量数据。数据根据其性质可以分为两类:标签数据和特征数据。在机器学习领域,一般将标签数据记为y,将特征数据记为x,机器学习的主要任务是寻找x和y之间的数学关系,即,找到一种模型f使得y=f(x)。一旦找到这个模型f,当出现任意一个未知标签的特征数据x’时,只要根据特征x和标签y之间存在的模型f,就能很轻易地推断出这个未知的标签y’,即y’=f(x’),从而完成模型预测。为了找到这个模型f并且使得模型的预测精度达到预定要求,需要使用一定数量的样本数据(即,样本数据集)来进行模型训练,该样本数据同时具备标签数据和特征数据。通常,这个样本数据集被记为D={(x1,y1),(x2,y2),…(xn,yn)}。样本数据集D越完备,通过机器学习方法找到的模型f就会越精准。
然而,在现实情况下,所收集的样本数据经常会遇到两个问题。第一个问题是标签数据太少,即y1~yn中,很多标签可能是未知的,只能表示成“?”。以贷款业务为例,在业务刚刚开始时,由于违约用户还比较少,所以可以使用的标签很少。第二个问题是特征数据缺失,或特征数据采集得不够丰富,即,特征数据x1~xn中,有些特征数据的中部分/全部属性特征值存在缺失。例如,在社交网络上,很多用户并不倾向于将自己个人简介完善,比如有些属性信息不公开,从而使得所收集的样本数据是不完备的样本数据。利用不完备的样本数据集训练得到的模型通常是不够精准的。
发明内容
鉴于上述,本公开提供了一种样本数据处理方法及装置、模型训练方法及装置。利用该样本数据处理方法及装置,可以通过获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系,并基于所获取的各个数据节点之间的关联关系来对非完备样本数据进行数据扩充,从而提高样本数据集的完备度,进而提高模型训练精度。
根据本公开的一个方面,提供了一种用于样本数据扩充处理的方法,所述样本数据包括用户特征数据和标签数据,所述方法包括:获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度;以及针对所述样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据和/或标签数据,对该非完备样本数据进行数据扩充,其中,所述非完备样本数据是特征数据存在维度缺失和/或标签数据存在维度缺失的样本数据。
可选地,在上述方面的一个示例中,在所述非完备样本数据的标签数据中存在维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的数据节点特征数据和/或标签数据,将该非完备样本数据扩充为完备样本数据包括:针对该非完备样本数据的标签数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的标签数据中的对应维度数据,确定该标签数据的维度缺失数据。
可选地,在上述方面的一个示例中,所述标签数据的维度缺失数据是基于下述公式确定出的:其中,yi表示数据节点i的标签数据的维度缺失数据,α是传播衰减系数,N(i)表示所述数据节点的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,yj表示数据节点j的标签数据中的与缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和。
可选地,在上述方面的一个示例中,在所述非完备样本数据的特征数据中存在维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的数据节点特征数据和/或标签数据,对该非完备样本数据进行数据扩充包括:针对该非完备样本数据的特征数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据中的与缺失维度对应的维度数据,确定该数据节点的特征数据的维度缺失数据;以及将该数据节点的特征数据与所确定出的维度缺失数据进行拼接,以得到该数据节点的经过数据扩充后的特征数据。
可选地,在上述方面的一个示例中,所述特征数据的维度缺失数据是按照以下等式确定出的:其中,表示数据节点i的特征数据中的维度缺失数据,xn表示数据节点i的特征数据,N(i)表示数据节点i的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,表示第j个关联数据节点的特征数据中的与缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和,W1是数据节点i的特征数据的加权因子,以及W2是与关联数据节点相关的维度缺失数据的加权因子。
根据本公开的另一方面,提供一种用于训练模型的方法,包括:在样本数据集中存在至少一个非完备样本数据时,使用如上所述的方法来对所述至少一个非完备样本数据进行数据扩充;以及使用经过数据扩充后的样本数据集来训练模型。
根据本公开的另一方面,提供一种用于样本数据处理的装置,所述样本数据包括特征数据和标签数据,所述装置包括:关联关系数据获取单元,被配置为获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度;以及样本数据扩充单元,被配置为针对所述样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据和/或标签数据,将对该非完备样本数据进行数据扩充,其中,所述非完备样本数据是特征数据存在维度缺失和/或标签数据存在维度缺失的样本数据。
可选地,在上述方面的一个示例中,所述样本数据扩充单元包括:标签数据扩充模块,被配置为在所述非完备样本数据的标签数据中存在维度缺失时,针对该非完备样本数据的标签数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的标签数据中的对应维度数据,确定该标签数据的维度缺失数据。
可选地,在上述方面的一个示例中,所述标签数据的维度缺失数据是基于下述公式确定出的:其中,yi表示数据节点i的标签数据的维度缺失数据,α是传播衰减系数,N(i)表示所述数据节点的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,yj表示数据节点j的标签数据中的与缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和。
可选地,在上述方面的一个示例中,所述样本数据扩充单元包括:特征数据扩充模块,被配置为在所述非完备样本数据的特征数据中存在维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据,对所述数据节点的特征数据进行数据扩充。
可选地,在上述方面的一个示例中,所述特征数据扩充模块包括:缺失维度特征数据确定子模块,被配置为针对该非完备样本数据的特征数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据中的与缺失维度对应的维度数据,确定该数据节点的特征数据中的维度缺失数据;以及拼接子模块,被配置为针对各个非完备样本数据,将该非完备样本数据的特征数据与所确定出的维度缺失数据进行拼接,以得到经过数据扩充后的特征数据。
可选地,在上述方面的一个示例中,所述特征数据的维度缺失数据是按照以下等式确定出的:其中,表示数据节点i的特征数据中的维度缺失数据,xn表示数据节点i的特征数据,N(i)表示数据节点i的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,表示第j个关联数据节点的特征数据中的与缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和,W1是数据节点i的特征数据的加权因子,以及W2是与关联数据节点相关的维度缺失数据的加权因子。
根据本公开的另一方面,提供一种用于训练模型的设备,包括:样本数据处理装置,被配置为在样本数据集中存在至少一个非完备样本数据时,使用如上所述的方法来对所述至少一个非完备样本数据进行数据扩充;以及训练装置,被配置为使用经过数据扩充后的样本数据集来训练模型。
根据本公开的另一方面,提供一种计算设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于样本数据处理的方法。
根据本公开的另一方面,提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于样本数据处理的方法。
附图说明
通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标签。
图1示出了根据本公开的实施例的用于样本数据处理的方法的流程图;
图2示出了根据本公开的实施例的标签数据扩充处理的一个示例过程的流程图;
图3示出了根据本公开的实施例的特征数据扩充处理的一个示例过程的流程图;
图4示出了根据本公开的实施例的模型训练方法的流程图;
图5示出了根据本公开的实施例的用于样本数据处理的装置的方框图;
图6示出了根据本公开的实施例的特征数据扩充模块的一个实现示例的方框图;
图7示出了根据本公开的实施例的模型训练设备的方框图;
图8示出了根据本公开的实施例的用于样本数据处理的计算设备的方框图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本公开中,术语“数据节点”用于指示样本数据所对应的数据实体,比如,在样本数据是用户数据时,数据节点是指样本数据所对应的用户。在样本数据是设备数据时,数据节点是指样本数据所对应的设备。在本公开中,“数据节点”也可以称为“实体节点”。
在本公开中,术语“完备样本数据”是指样本数据具有标签数据,并且所具有的标签数据在所有维度上都存在对应的数值,同时样本数据具有特征数据,并且所具有的特征数据在所有维度上都存在对应的数值。术语“非完备样本数据”是指样本数据所具有的标签数据在部分/全部维度上存在数值缺失,和/或样本数据所具有的特征数据在部分/全部维度上存在数值缺失。
例如,假设样本数据S具有特征数据X和标签数据Y,即,S={X,Y},并且特征数据的属性维度为5,即,X=(x1,x2,x3,x4,x5),标签数据Y的维度为3,即,Y=(y1,y2,y3)。如图1所示,样本S1={(0.7,0.6,0.3,0.95,0.02),(0.7,0.3,0.02)}在特征数据X和标签数据Y的所有维度上都存在对应的数值,从而样本数据S1是完备样本数据。样本S2={(0.7,?,0.3,?,0.02),(0.7,?,0.02)}在特征数据X的属性维度x2和x4以及标签数据Y的维度y2上存在数值缺失,从而样本数据S2是非完备样本数据。此外,特征数据X和标签数据Y也可以是在所有维度上都没有数值。
下面将结合附图来详细描述根据本公开的实施例的样本数据处理方法及装置以及模型训练方法及装置。
图1示出了根据本公开的实施例的样本数据处理方法100的流程图。
如图1所示,在块110,获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度。
例如,针对用于模型训练的样本数据集SG,获取该样本数据集SG的各个数据节点之间的关联关系数据。在本公开中,各个数据节点之间的关联关系可以采用关系图R来表示。关系图R用于指示各个数据节点之间的关联关系。例如,关系图R=(V,E),其中,V是关系图R中的节点集合,用于指示样本数据集SG中的各个样本数据所对应的数据节点,以及E是关系图R中的边,用于指示样本数据集SG中的各个样本数据所对应的数据节点之间的关联关系。在数据节点i和j之间的E存在取值时,说明数据节点i和数据节点j之间存在关联关系,并且E的取值大小用于指示数据节点i和数据节点j之间的关联关系强度值。在关系图R中,具有关联关系的数据节点也可以称为“邻居节点”。这里要说明的是,在数据节点i和j之间多种关联关系(即,由于多种关联方式而导致的关联关系)时,可以对各种关联关系对应的关联关系强度值进行归一化处理,然后对归一化处理后的各个关联关系强度值进行组合而得到数据节点i和数据节点j之间的关联关系强度值。所述组合例如可以是简单加和。或者,为每种关联关系分配权重,然后进行加权求和。
接着,在块120,针对样本数据集SG中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及每个关联数据节点的特征数据和/或标签数据,对该非完备样本数据进行数据扩充。经过块120的处理,可以使得经过数据扩充后的样本数据相对于先前的样本数据更为完备。更为优选地,经过数据扩充后的样本数据甚至可以变为完备样本数据。
具体地,在所述非完备样本数据中存在标签数据维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及每个关联数据节点的数据节点特征数据和/或标签数据,将该非完备样本数据扩充为完备样本数据包括:针对该非完备样本数据中的各个维度缺失标签数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及每个关联数据节点的对应维度标签数据,确定该标签数据的缺失维度数据,从而实现针对标签数据的数据扩充。
在所述非完备样本数据存在特征数据维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及每个关联数据节点的数据节点特征数据和/或标签数据,将该非完备样本数据扩充为完备样本数据包括:针对该非完备样本数据中的各个维度缺失标签数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及每个关联数据节点的特征数据,对所述数据节点的特征数据进行数据扩充。
图2示出了根据本公开的实施例的标签数据扩充处理的一个示例过程200的流程图。
如图2所示,在块210,初始化传播衰减系数α,其中α∈(0,1)。
在块220,对于样本数据集SG中的各个具有标签数据维度缺失的样本数据Si,初始化其维度缺失标签数据为零,即,yi-初始化=0。例如,如果样本数据Si的标签数据的维度为1,则假设该标签数据的初始值为0。如果样本数据Si的标签数据的维度为3,并且仅仅是维度y2缺失,则需要确定维度y2的值。在这种情况下,将维度y2所对应的维度缺失标签数据初始化为零。如果样本数据Si的标签数据的维度为3,并且维度y1和y2缺失,则将维度y1和y2所对应的维度缺失标签数据初始化为零。
接着,在块230,按照以下等式(1)确定样本数据Si的标签数据中的维度缺失数据:
其中,yi表示数据节点i的标签数据的维度缺失数据,α是传播衰减系数,N(i)表示所述数据节点的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,yj表示数据节点j的标签数据中与所述缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和。这里,集合N(i)以及aij可以基于所获取的样本数据集中的各个数据节点之间的关联关系数据得到。例如,可以基于样本数据集SG的关系图R来获得。
接着,在块240,判断是否满足预定条件。所述预定条件可以是在块230所计算出的样本数据Si的标签数据的维度缺失数据稳定,或者是块230的迭代次数达到预定次数,例如但不局限于,20次。在块240被判断为未满足预定条件时,返回到块230继续进行迭代计算。
利用如上所述的多次迭代计算,可以使得比如在进行当前迭代计算时,由于数据节点Si的一个关联节点Sj(即,邻居节点)的对应维度数据缺失,从而使得关联节点Sj在当前迭代计算中不会发生作用。但是,由于对于关联节点Sj,也会进行数据扩充处理,并且在针对数据节点Si的下次迭代计算之前,关联节点Sj的对应维度数据具有数值,由此关联节点Sj在针对数据节点Si的下次迭代计算中会发生作用。如此针对数据节点Si执行多次迭代计算,可以将数据节点Si的关联节点Sj的另一关联节点的标签数据传递到数据节点Si(即,经过一跳来完成标签数据传递),或者,可以经过多跳来完成标签数据传递,由此完成数据扩充。
图3示出了根据本公开的实施例的特征数据扩充处理的一个示例过程300的流程图。
如图3所示,在块310,对于样本数据集SG中的各个特征数据维度缺失的样本数据Sn,初始化加权因子W1和W2以及该样本数据Sn的特征数据中的维度缺失数据这里,W1是所述数据节点的特征数据的加权因子,以及W2是与关联数据节点相关的维度缺失数据的加权因子。在特征数据是向量数据的情况下,W1和W2是系数矩阵。
接着,在块320,按照以下等式(2)来计算各个样本数据Sn的特征数据中的维度缺失数据
其中,表示数据节点i的特征数据中的维度缺失数据,xn表示数据节点i的特征数据,N(i)表示数据节点i的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,表示第j个关联数据节点的特征数据中的与缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和。
然后,在块330,判断是否满足预定条件。所述预定条件可以是在块320所计算出的样本数据Si的特征数据的维度缺失数据稳定,或者是块320的迭代次数达到预定次数,例如但不局限于,20次。在块330被判断为未满足预定条件时,返回到块320继续进行迭代计算。上面针对标签数据的多次传递的描述内容,也同样适用于特征数据。即,也可以利用多次传递来将与数据节点i距离更远的数据节点的特征数据传递给数据节点i。
在块330被判断为未满足预定条件时,在块340,将样本数据Sn的原有特征数据和所获取的维度缺失数据拼接在一起,作为样本数据Sn的特征数据。例如,假设样本数据Sn的原有特征数据和维度缺失数据分别为[1,1,1,1]和[0,1,0,1],则拼接后得到的样本数据Sn的特征数据为[1,1,1,1,0,1,0,1]。
图4示出了根据本公开的实施例的模型训练方法400的流程图。
如图4所示,在块410,在样本数据集中存在至少一个非完备样本数据时,使用如上所述的样本数据处理方法来对所述至少一个非完备样本数据进行数据扩充。然后,在块420,使用经过数据扩充后的样本数据集来训练模型。
如上参照图1到图4对根据本公开的样本数据处理方法以及模型训练方法进行了描述。利用上述样本数据处理方法,通过获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系,并基于所获取的各个数据节点之间的关联关系,将有标签的样本数据的标签数据和具有缺失维度特征数据的样本数据的特征数据传导到无标签的样本数据和/或具有特征数据维度缺失的样本数据,从而使得该无标签的样本数据具有标签数据和/或特征数据维度缺失的样本数据在该缺失维度上具有特征数据,由此使得样本数据集变得更加完备,由此提高模型训练的精确度。
图5示出了根据本公开的实施例的用于样本数据处理的装置(下文中称为样本数据处理装置)500的方框图。如图5所示,样本数据处理装置500包括关联关系数据获取单元510和样本数据扩充单元520。
关联关系数据获取单元510被配置为获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度。关联关系数据获取单元510的操作可以参考上面参照图1描述的块110的操作。
样本数据扩充单元520被配置为针对所述样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及每个关联数据节点的特征数据和/或标签数据,对该非完备样本数据进行数据扩充。样本数据扩充单元520的操作可以参考上面参照图1描述的块120的操作以及参照图2和图3描述的操作。
如图5所示,样本数据扩充单元520还可以包括标签数据扩充模块521和特征数据扩充模块523。
标签数据扩充模块521被配置为在所述非完备样本数据的标签数据中存在维度缺失时,针对该非完备样本数据的标签数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的标签数据中的对应维度数据,确定该标签数据的维度缺失数据。标签数据扩充模块521的操作可以参考上面参照图1描述的块120的操作以及参照图2描述的操作。
特征数据扩充模块523被配置为在所述非完备样本数据的特征数据中存在维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据,对所述数据节点的特征数据进行数据扩充。特征数据扩充模块523的操作可以参考上面参照图1描述的块120的操作以及参照图3描述的操作。
图6示出了根据本公开的实施例的特征数据扩充模块523的一个实现示例的方框图。如图6所示,特征数据扩充模块523包括维度缺失特征数据确定子模块525和拼接子模块527。
维度缺失特征数据确定子模块525被配置为针对该非完备样本数据的特征数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据中的与缺失维度对应的维度数据,确定该数据节点的特征数据的维度缺失数据。维度缺失特征数据确定子模块525的操作可以参考上面参照图3描述的块310到330的操作。
拼接子模块527被配置为针对各个非完备样本数据,将该非完备样本数据的特征数据与所确定出的维度缺失数据进行拼接,以得到经过数据扩充后的特征数据。拼接子模块527的操作可以参考上面参照图3描述的块340的操作。
图7示出了根据本公开的实施例的模型训练设备700的方框图。如图7所示,模型训练设备700包括样本数据处理装置710和训练装置720。
样本数据处理装置710被配置为在样本数据集中存在至少一个非完备样本数据时,使用如上所述的方法来对所述至少一个非完备样本数据进行数据扩充。然后,训练装置720使用经过数据扩充后的样本数据集来训练模型。
如上参照图1到图7,对根据本公开的样本数据处理方法及样本数据处理装置的实施例进行了描述。上面的样本数据处理装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图8示出了根据本公开的实施例的用于样本数据处理的计算设备800的硬件结构图。如图8所示,计算设备800可以包括至少一个处理器810、存储器820、内存830和通信接口840,并且至少一个处理器810、存储器820、内存830和通信接口840经由总线860连接在一起。至少一个处理器810执行在存储器820中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器810:获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度;以及针对所述样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据和/或标签数据,将该非完备样本数据扩充为完备样本数据,其中,所述非完备样本数据是特征数据存在维度缺失和/或标签数据存在维度缺失的样本数据。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器810进行本公开的各个实施例中以上结合图1-7描述的各种操作和功能。
在本公开中,计算设备800可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。
根据一个实施例,提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-7描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
根据一个实施例,提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-7描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (10)

1.一种用于样本数据扩充处理的方法,所述样本数据包括用户特征数据和标签数据,所述方法包括:
获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度;以及
针对所述样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据和/或标签数据,对该非完备样本数据进行数据扩充,
其中,所述非完备样本数据是特征数据存在维度缺失和/或标签数据存在维度缺失的样本数据,
其中,在所述非完备样本数据的标签数据中存在维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的数据节点特征数据和/或标签数据,对该非完备样本数据进行数据扩充包括:
针对该非完备样本数据的标签数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的标签数据中的对应维度数据,确定该标签数据的维度缺失数据,
在所述非完备样本数据的特征数据存在维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的数据节点特征数据和/或标签数据,对该非完备样本数据进行数据扩充包括:
针对该非完备样本数据的特征数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据中的对应维度数据,确定该数据节点的特征数据的维度缺失数据;以及
将该数据节点的特征数据与所确定出的维度缺失数据进行拼接,以得到该数据节点的经过扩充处理后的特征数据。
2.如权利要求1所述的方法,其中,所述标签数据的维度缺失数据是基于下述公式确定出的:
Figure FDA0003958646930000021
其中,yi表示数据节点i的标签数据的维度缺失数据,α是传播衰减系数,N(i)表示数据节点i的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,yj表示数据节点j的标签数据中与缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和。
3.如权利要求1所述的方法,其中,所述特征数据的维度缺失数据是按照以下等式确定出的:
Figure FDA0003958646930000022
其中,
Figure FDA0003958646930000023
表示数据节点i的维度缺失数据,xn表示数据节点i的特征数据,N(i)表示数据节点i的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,
Figure FDA0003958646930000024
表示第j个关联数据节点的特征数据中的与缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和,W1是数据节点i的特征数据的加权因子,以及W2是与关联数据节点相关的维度缺失数据的加权因子。
4.一种用于训练模型的方法,包括:
在样本数据集中存在至少一个非完备样本数据时,使用如权利要求1到3中任一所述的方法来对所述至少一个非完备样本数据进行扩充处理;以及
使用经过扩充后的样本数据集来训练模型。
5.一种用于样本数据处理的装置,所述样本数据包括特征数据和标签数据,所述装置包括:
关联关系数据获取单元,被配置为获取样本数据集中的各个样本数据所对应的数据节点之间的关联关系数据,所述关联关系数据用于反映各个数据节点之间的关联关系强度;以及
样本数据扩充单元,被配置为针对所述样本数据集中的各个非完备样本数据,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及每个关联数据节点的特征数据和/或标签数据,对该非完备样本数据进行数据扩充,
其中,所述非完备样本数据是特征数据存在维度缺失和/或标签数据存在维度缺失的样本数据,
其中,所述样本数据扩充单元包括:
标签数据扩充模块,被配置为在所述非完备样本数据的标签数据中存在维度缺失时,针对该非完备样本数据的标签数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的标签数据中的对应维度数据,确定该标签数据的维度缺失数据;以及
特征数据扩充模块,被配置为在所述非完备样本数据的特征数据中存在维度缺失时,至少部分地基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据,对所述数据节点的特征数据进行数据扩充,
所述特征数据扩充模块包括:
维度缺失特征数据确定子模块,被配置为针对该非完备样本数据的特征数据中的各个维度缺失数据,基于该非完备样本数据所对应的数据节点与所有关联数据节点之间的关联关系数据以及各个关联数据节点的特征数据中的与缺失维度对应的维度数据,确定该数据节点的特征数据的维度缺失数据;以及
拼接子模块,被配置为针对各个非完备样本数据,将该非完备样本数据的特征数据与所确定出的维度缺失数据进行拼接,以得到经过扩充处理后的特征数据。
6.如权利要求5所述的装置,其中,所述标签数据的维度缺失数据是基于下述公式确定出的:
Figure FDA0003958646930000041
其中,yi表示数据节点i的标签数据的维度缺失数据,α是传播衰减系数,N(i)表示数据节点i的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,yj表示数据节点j的标签数据中与缺失维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和。
7.如权利要求5所述的装置,其中,所述特征数据的维度缺失数据是按照以下等式确定出的:
Figure FDA0003958646930000042
其中,
Figure FDA0003958646930000043
表示数据节点i的特征数据中的维度缺失数据,xn表示数据节点i的特征数据,N(i)表示数据节点i的关联数据节点集合,j表示N(i)中的第j个关联数据节点,aij表示数据节点i与第j个关联数据节点之间的关联关系强度,
Figure FDA0003958646930000044
表示第j个关联数据节点的特征数据中的与缺失特征维度对应的维度数据,以及di表示数据节点i与集合N(i)中的各个关联数据节点之间的关联关系强度之和,W1是数据节点i的特征数据的加权因子,以及W2是与关联数据节点相关的维度缺失数据的加权因子。
8.一种用于训练模型的设备,包括:
样本数据处理装置,被配置为在样本数据集中存在至少一个非完备样本数据时,使用如权利要求1到3中任一所述的方法来对所述至少一个非完备样本数据进行数据扩充;以及
训练装置,被配置为使用经过数据扩充后的样本数据集来训练模型。
9.一种计算设备,包括:
至少一个处理器;以及
存储器,其上存储有计算机可执行指令,所述计算机可执行指令当被执行时使得所述至少一个处理器执行权利要求1-3中的任意一个所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令当被执行时使得计算机执行权利要求1-3中的任意一个所述的方法。
CN201910166341.9A 2019-03-06 2019-03-06 样本数据处理方法及装置、模型训练方法及设备 Active CN110046247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910166341.9A CN110046247B (zh) 2019-03-06 2019-03-06 样本数据处理方法及装置、模型训练方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910166341.9A CN110046247B (zh) 2019-03-06 2019-03-06 样本数据处理方法及装置、模型训练方法及设备

Publications (2)

Publication Number Publication Date
CN110046247A CN110046247A (zh) 2019-07-23
CN110046247B true CN110046247B (zh) 2023-04-07

Family

ID=67274349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910166341.9A Active CN110046247B (zh) 2019-03-06 2019-03-06 样本数据处理方法及装置、模型训练方法及设备

Country Status (1)

Country Link
CN (1) CN110046247B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844407A (zh) * 2015-12-07 2017-06-13 华为技术有限公司 基于数据集相关性的标签网络产生方法和系统
US20170169215A1 (en) * 2015-12-10 2017-06-15 Ústav informatiky AV CR, v.v.i. Identification of mislabeled samples via phantom nodes in label propagation
CN108647272A (zh) * 2018-04-28 2018-10-12 江南大学 一种基于数据分布的小样本扩充方法
CN108734304A (zh) * 2018-05-31 2018-11-02 阿里巴巴集团控股有限公司 一种数据模型的训练方法、装置、及计算机设备
CN109411018A (zh) * 2019-01-23 2019-03-01 上海宝藤生物医药科技股份有限公司 根据基因突变信息对样本分类的方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844407A (zh) * 2015-12-07 2017-06-13 华为技术有限公司 基于数据集相关性的标签网络产生方法和系统
US20170169215A1 (en) * 2015-12-10 2017-06-15 Ústav informatiky AV CR, v.v.i. Identification of mislabeled samples via phantom nodes in label propagation
CN108647272A (zh) * 2018-04-28 2018-10-12 江南大学 一种基于数据分布的小样本扩充方法
CN108734304A (zh) * 2018-05-31 2018-11-02 阿里巴巴集团控股有限公司 一种数据模型的训练方法、装置、及计算机设备
CN109411018A (zh) * 2019-01-23 2019-03-01 上海宝藤生物医药科技股份有限公司 根据基因突变信息对样本分类的方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据挖掘中如何处理缺失数据;KK4SBB;《https://www.cnblogs.com/naive/p/5077312.html》;20151228;第1页 *

Also Published As

Publication number Publication date
CN110046247A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
EP2377080A1 (en) Machine optimization devices, methods, and systems
CN111382868A (zh) 神经网络结构搜索方法和神经网络结构搜索装置
CN111291765A (zh) 用于确定相似图片的方法和装置
CN109684629B (zh) 文本间相似度计算方法、装置、存储介质及电子设备
CN112860993B (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN111461164A (zh) 样本数据集的扩容方法及模型的训练方法
CN112183547A (zh) 基于多模态数据的多任务学习方法及系统
KR102459466B1 (ko) 메타버스와 nft 기반의 글로벌 이커머스 통합 관리 방법 및 시스템
CN109241529B (zh) 观点标签的确定方法和装置
CN113378855A (zh) 用于处理多任务的方法、相关装置及计算机程序产品
CN110046247B (zh) 样本数据处理方法及装置、模型训练方法及设备
CN113033194A (zh) 语义表示图模型的训练方法、装置、设备和存储介质
CN110348947B (zh) 对象推荐方法及装置
CN111275071A (zh) 预测模型训练、预测方法、装置及电子设备
CN113360672B (zh) 用于生成知识图谱的方法、装置、设备、介质和产品
CN111274907B (zh) 使用类别识别模型来确定用户的类别标签的方法和装置
CN112926678B (zh) 模型相似度确定方法及装置
Kanaeva et al. Camera pose and focal length estimation using regularized distance constraints
CN114792097A (zh) 预训练模型提示向量的确定方法、装置及电子设备
CN113393250A (zh) 一种信息处理方法及装置、存储介质
CN112214387B (zh) 基于知识图谱的用户操作行为预测方法及装置
CN117392260B (zh) 一种图像生成方法及装置
CN115688742B (zh) 基于人工智能的用户数据分析方法及ai系统
US11797961B2 (en) Vectorization of transactions
CN115034333A (zh) 联邦学习方法、联邦学习装置及联邦学习系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201019

Address after: English genus

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201019

Address after: English genus

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: English genus

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant