CN113762423A - 数据处理和模型训练方法、装置、电子设备及存储介质 - Google Patents

数据处理和模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113762423A
CN113762423A CN202111316866.XA CN202111316866A CN113762423A CN 113762423 A CN113762423 A CN 113762423A CN 202111316866 A CN202111316866 A CN 202111316866A CN 113762423 A CN113762423 A CN 113762423A
Authority
CN
China
Prior art keywords
data
user data
user
target
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111316866.XA
Other languages
English (en)
Inventor
陈勣
石建良
陈晓倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202111316866.XA priority Critical patent/CN113762423A/zh
Publication of CN113762423A publication Critical patent/CN113762423A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种数据处理和模型训练方法、装置、电子设备及存储介质。所述数据处理方法,包括:获取数据集,所述数据集包括多个用户数据;将每个用户数据分割为多个特征部分;组合不同用户数据的特征部分生成新的用户数据;根据所述数据集和所述新的用户数据生成增强数据集。本公开实施例的方案通过将数据集中的用户数据分割为多个特征部分,组合不同用户数据的特征部分来生成新的用户数据,并根据所述数据集和所述新的用户数据生成增强数据集,有效地增强了数据,进而提高了模型的训练效果。

Description

数据处理和模型训练方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据处理和模型训练方法、装置、终端以及存储介质。
背景技术
随着人工智能技术的发展,人们越来越多地将机器学习、深度学习算法应用到各种领域。比如,通过模型训练来实现用户的自动分类。机器学习中,模型训练往往需要大量的训练数据,通常情况下,数据量越大,模型训练的效果越好,训练得到的模型越准确。
然而实际应用中训练数据往往不够充足,或者训练数据不够均匀,即某个类型的训练数据不够充足,这都会导致模型训练的效果变差。
发明内容
本公开实施例提供了一种数据处理和模型训练方法、装置、终端以及存储介质,能够提高模型的训练效果。
根据本公开的一方面,提供了一种数据处理方法,包括:获取数据集,所述数据集包括多个用户数据;将每个用户数据分割为多个特征部分;组合不同用户数据的特征部分生成新的用户数据;根据所述数据集和所述新的用户数据生成增强数据集。
根据本公开的第二方面,提供了一种模型训练方法,包括:获取训练数据,所述训练数据包括本公开第一方面所述的增强数据集;根据所述训练数据对预设的用户分类模型进行训练。
根据本公开的第三方面,提供了一种数据处理装置,包括:获取模块,用于获取数据集,所述数据集包括多个用户数据;分割模块,用于将每个用户数据分割为多个特征部分;组合模块,用于组合不同用户数据的特征部分生成新的用户数据;增强模块,用于根据所述数据集和所述新的用户数据生成增强数据集。
根据本公开的第四方面,提供了一种模型训练装置,包括:数据获取模块,用于获取训练数据,所述训练数据包括本公开第一方面所述的增强数据集;模型训练模块,用于根据所述训练数据对预设的用户分类模型进行训练。
根据本公开的第五方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行如第一或第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一或第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行如第一或第二方面所述的方法。
本公开实施例中提供的一个或多个技术方案,通过将数据集中的用户数据分割为多个特征部分,组合不同用户数据的特征部分来生成新的用户数据,并根据所述数据集和所述新的用户数据生成增强数据集,有效地增强了数据,进而提高了模型的训练效果。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1A示出了根据本公开示例性实施例的数据处理方法的流程示意图;
图1B示出了图1A的示例的数据处理方法的示意图;
图1C示出了图1A的又一示例的数据处理方法的示意图;
图2示出了根据本公开又一示例性实施例的数据处理方法的流程示意图;
图3示出了根据本公开又一示例性实施例的数据处理方法的流程示意图;
图4示出了根据本公开又一示例性实施例的数据处理方法的流程示意图;
图5示出了根据本公开又一示例性实施例的数据处理方法的流程示意图;
图6示出了根据本公开又一示例性实施例的数据处理方法的流程示意图;
图7示出了根据本公开示例性实施例的模型训练方法的流程示意图;
图8示出了根据本公开示例性实施例的数据处理装置的示意性结构图;以及
图9示出了根据本公开示例性实施例的模型训练装置的示意性结构图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语:“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在购物、视频、音乐等商务平台应用场景中,通常需要对用户进行预测分类,从而定位目标用户或者更有针对性的进行内容、广告以及优惠活动信息等的推送。对用户进行预测分类往往通过根据用户数据训练分类模型,再由分类模型根据待分类用户的数据来对实现分类预测。用户数据是训练模型和分类预测的基础。然而,实际应用中训练数据往往不够充足,这将导致模型训练的效果变差,进而不能准确地进行用户预测分类。
面对这种情况,一种提高模型训练效果的方式为:基于少量的初始数据进行模型训练,对模型进行调整(例如,调整损失函数或模型参数),以对数量少的数据进行拟合。另一种方式为:对初始数据进行过采样,也就是对数据量不足的初始数据进行重复采样,以引入更多能够用于模型训练的数据。单纯地增加重复数据容易产生模型过拟合的问题,而且增加重复数据。换言之,单纯地增加重复数据并没有为训练模型引入更多数据,反而会增加数据中噪声对模型的影响,从而降低模型训练效果。
以下参照附图描述本公开的方案。本公开的第一方面,如图1A所示,本公开示意性实施例提供一种数据处理方法,包括以下步骤:
S100,获取数据集,所述数据集包括多个用户数据。
本公开的数据处理方法包括但不限于上述各种应用场景。具体地,用户数据可以包括用户ID,用户特征和用户分类。每个用户数据可以包括多个用户特征,用户特征可以是用户画像标签,比如用户的性别、年龄、地理位置、消费次数和消费金额等。用户分类可以有一个或者多个,比如购买意愿、续费意愿或者退费意愿等。当某个分类只包括两种分类结果或分类标签时,用户数据可以被分为正样本数据和负样本数据,比如购买意愿分类可以分为愿意购买和不愿购买时,可以将愿意购买的用户数据作为正样本数据,将不愿意购买的用户数据作为负样本数据。需要注意的是,每个用户分类可以包括两种分类结果或分类标签,也可以包括多种分类结果或分类标签。以上列举的用户特征和用户分类都只是示意性的,不作为对本公开技术方案的限定。
S120,将每个用户数据分割为多个特征部分。
具体地,将每个用户数据的多个特征分为多个特征部分,可以是在用户特征较少时将用户的每个用户特征分别作为一个特征部分,也可以是在用户特征较多时将某几个特征共同作为一个特征部分。
用户数据的分割可以有多种方式,例如:根据用户数据中特征的维度进行分割,比如将用户数据分为基础特征部分、地理特征部分和消费特征部分,其中基础特征部分可以包括性别、年龄等基础信息特征,地理特征部分可以包括所在省、市等地理信息特征,消费特征部分可以包括消费次数、消费金额等消费信息特征;根据用户数据中特征的类型进行分割,比如将用户数据分为数值型特征部分和类别型特征部分,其中数值型特征部分可以包括年龄、消费金额等数值型特征,类别性特征部分可以包括性别、城市等类别型特征;根据用户数据中特征的重要性进行分割,比如将用户数据中非常重要的标签征分为第一特征部分,相对重要的特征分为第二特征部分,不太重要的特征分为第三特征部分。
特征的重要性可以人为设定,也可以根据用户数据的模型训练结果确定,比如先利用现有的数据集先进行模型训练,再利用逻辑回归和决策树等工具对特征进行重要性排序,得到特征的重要性。这种方式确定的特征重要性更准确合理,数据增强的效果也更好。
S150, 组合不同用户数据的特征部分生成新的用户数据。
组合不同用户数据的特征部分,可以生成新的用户数据。比如,用户数据划分成两部分时,可以将用户数据A的第一部分和用户数据B的第二部分进行组合生成一个新的用户数据,将用户数据A的第二部分和用户数据B的第一部分进行组合生成另一个新的用户数据,也即通过组合分别包括两个部分的两个用户数据生成了两个新的用户数据。用户数据划分为多个部分时,可以由多个用户数据组合生成新的用户数据,比如用户数据分割为五个部分时,可以用用户数据A的一个或者两个、三个、四个部分和用户数据B的四个或者三个、两个、一个来组合生成新数据,也可以用三个用户或者四个、五个用户数据的部分来组合生成新的用户数据。显然,当用户数据的数量和分割的特征部分的数量相同时,每个用户数据取一个特征部分即可生成新的用户数据。各部分的组合可以是随机的,也可以是按照设定的规则进行的,本公开对此不做限定。
S180,根据所述数据集和所述新的用户数据生成增强数据集。
在生成新的用户数据后,将原先的数据集和新的用户数据结合可以生成增强数据集,实现对用户数据集的增强。
本公开实施例中提供的一个或多个技术方案,通过将数据集中的用户数据分割为多个特征部分,组合不同用户数据的特征部分来生成新的用户数据,并根据所述数据集和所述新的用户数据生成增强数据集,有效地增强了数据,进而提高了模型的训练效果。
具体而言,在步骤S100中,获取的数据集中包括用户数据A、B和C,其中每个用户数据都包括多个特征,比如用户数据A包括特征Aa、Ab、Ac、Ad、Ae和Af。
在步骤S120中,可以将用户数据A、B和C分别分割成两个特征部分或三个特征部分。比如,用户数据A分割成两个特征部分时,可以是特征Aa为第一部分,Ab、Ac、Ad、Ae和Af为第二部分;也可以是Aa和Ab为第一部分,Ac、Ad、Ae和Af为第二部分;或者Aa、Ab和Ac为第一部分, Ad、Ae和Af为第二部分;或者Aa、Ab、Ac和Ad为第一部分, Ae和Af为第二部分;或者Aa、Ab、Ac、Ad和Ae为第一部分, Af为第二部分。
如图1B所示,示例性的,将用户数据A分割为A1,A2和A3的三个特征部分,A1包括特征Aa和Ab, A2包括特征Ac和Ad, A3包括特征Ae和Af。类似地,用户数据B分割为B1,B2和B3三个特征部分,用户数据C分割为C1,C2和C3三个特征部分。即用户数据A为[A1,A2,A3],用户数据B为[B1,B2,B3],用户数据C为[C1,C2,C3]。
在步骤S150中,将用户数据A、B和C的多个特征部分进行组合,可以生成D,E和F等三个新的用户数据。
如图1C所示,示例性的,用户数据A,B和C同样被分割为三个特征部分,但分割方式不同。以用户数据A为例,第一部分只包括了一个特征Aa,第二部分包括了两个特征Ab和Ac,第三部分包括了三个特征Ad、Ae和Af。用户数据B和C以同样的方式分割。由于分割的方式不同,对特征部分进行组合后生成了另外三个新的用户数据G,H和I。
应理解,用户数据A、B和C可以为表示为具有相同元素个数的用户数据向量,A1,A2,A3,B1,B2,B3,C1,C2和C3分别为至少一个元素。用户数据A、B和C也可以表示为大小相同的用户数据矩阵,换言之,多个用户数据矩阵在对应的维度上具有相同元素个数,A1,A2,A3,B1,B2,B3,C1,C2和C3分别为至少一个元素形成的子矩阵。
在步骤S180中,根据组合不同用户的特征部分生成的新的用户数据和原先的数据集生成了增强数据集。增强数据集可以包括原先的数据集的全部数据,也可以只包括原先的数据集中的部分用户数据。例如,数据增强模型可以通过数据过滤算法对增强后的数据进行过滤。
在本公开的另一个示意性实施例中,数据处理方法还包括在获取数据后,对数据进行数据预处理,包括但不限于离散型特征独热编码、连续型特征归一化、标准化、分箱等。
如图2所示,在本公开的另一个示意性实施例中,上述数据处理方法还包括:
S230,从所述数据集中确定多个相似用户数据;
S240,将所述多个相似用户数据确定为所述不同用户数据。
在这种示意性实施例中,首先从数据集中确定相似的用户数据,再组合相似用户的特征部分生成新的用户数据。这可以使得生成的新的用户数据更接近原有的用户数据,避免出现明显不合理的用户数据。
如图3所示,在本公开的另一个示意性实施例中,上述步骤S230包括:
S331,确定所述每个用户数据的多个特征部分中的目标特征部分。
S332,根据所述每个用户数据的目标特征部分确定多个相似用户数据。
具体而言,确定相似用户可以根据确定的目标特征部分进行,即先从分割的多个特征部分中确定一个特征部分为目标特征部分,再比较多个用户数据的目标特征部分,根据对目标特征部分的比较结果确定其中的相似用户数据。目标特征部分可以根据预先设定的规则来确定,比如根据特征部分的重要性确定,即确定重要性最高的特征部分为目标特征部分。示例性的,如前所述,特征部分的重要性可以人为设定,也可以根据用户数据的模型训练结果确定,比如先利用现有的数据集先进行模型训练,再利用逻辑回归和决策树等工具对特征部分进行重要性排序,得到特征部分的重要性。
在这种示意性实施例中,根据用户数据的目标特征部分来确定相似的用户数据,更加便捷有效,可以提高数据处理的效率。
如图4所示,在本公开的另一个示意性实施例中,上述步骤S332包括:
S4321,确定所述每个用户数据的目标特征部分对应的目标向量。
如前所述,用户数据可以用矩阵表示,其中每个特征部分对应一个向量。确定目标特征部分之后,即可确定对应该特征部分的向量为目标向量。
S4322,根据目标哈希函数对所述多个每个用户数据的目标向量构成的矩阵进行哈希计算,得到哈希签名矩阵。
多个用户数据的目标向量可以组合成一个目标矩阵,利用哈希函数对其进行哈希计算即可得到哈希签名矩阵。哈希计算可以对矩阵进行降维,从而简化确定相似用户的计算过程。
S4333,根据局部敏感哈希函数对所述哈希签名矩阵进行局部敏感哈希计算,得到局部敏感哈希值。
局部敏感哈希的基本思想:在高维数据空间中的两个相邻的数据被映射到低维数据空间中后,将会有很大的概率任然相邻;而原本不相邻的两个数据,在低维空间中也将有很大的概率不相邻。通过这样一映射,我们可以在低维数据空间来寻找相邻的数据点,避免在高维数据空间中寻找,因为在高维空间中会很耗时。有这样性质的哈希映射称为是局部敏感的。
根据局部敏感哈希函数对哈希签名矩阵进一步进行局部敏感哈希计算,可以得到代表目标特征部分或目标向量的局部敏感哈希值。
S4334,根据所述局部敏感哈希值计算所述每个用户数据之间的相似度,并确定所述多个相似用户数据.
根据每个目标特征或目标向量的局部敏感哈希值计算目标特征部分或目标向量之间的相似度即为用户数据之间的相似度。根据用户数据之间的相似度可以进一步确定多个相似用户数据,具体地,可以确定一个相似度阈值,当用户数据之间的相似度超过相似度阈值时确定这些用户数据为相似用户数据。相似度阈值可以根据实际情况灵活确定。比如,用户数据之间的相似度普遍较高时相似度阈值可以设定的高一些,用户数据之间的相似度普遍较低时相似度阈值可以设定的低一些。
文中所述的相似度包括但不限于:欧几里得距离、皮尔逊相关系数以及余弦相似度。
其中,欧几里得度量(Euclidean Metric)(也称欧氏距离)是一种表示在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)的度量。例如,在二维和三维空间中,欧氏距离为两点之间的距离。
皮尔逊(Pearson)相关系数为一种通过协方差除以两个变量的标准差得到的度量。协方差能够反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),引入相关系数以消除量纲的概念,其中,相关系数的取值范围为[-1,1],当相关系数为1时,成为完全正相关;当相关系数为-1时,成为完全负相关;相关系数的绝对值越大,相关性越强;相关系数越接近于0,相关度越弱。
余弦距离,也可以被称为余弦相似度,是一种采用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
在这种示意性实施例中,根据目标特征部分确定用户数据的目标向量,将多个用户的目标向量组成的目标矩阵进行哈希计算得到哈希签名矩阵,再通过局部敏感哈希函数和局部敏感哈希计算得到局部敏感哈希值,进而确定用户数据之间的相似度并确定相似用户数据。相似用户的确定过程准确高效,因而数据处理更高效,效果也更好。
如图5所示,在本公开的的另一个示意性实施例中,上述步骤S150包括:
S551,从所述多个用户数据中确定相似的第一用户数据和第二用户数据。
S552,确定替换规则指示的目标特征部分,所述目标特征部分为所述多个特征部分的子集。
S553,根据所述替换规则,将所述第一用户数据的目标特征部分替换为所述第二用户数据的目标特征部分。
这种组合方式简单方便,可以高效地完成对样本数据的增强。
如图6所示,在本公开的另一个示意性实施例中,上述步骤S552包括:
S6521,确定所述多个用户数据之间分别关于第一特征部分和第二特征部分的第一相似度和第二相似度。
S6522,若所述第一相似度大于所述第二相似度,则将所述第一特征部分确定为替换规则指示的目标特征部分。
如前所述,文中所述的相似度包括但不限于:欧几里得距离、皮尔逊相关系数以及余弦相似度。
在这种示意性实施例中,根据用户数据之间关于用户特征的相似度来进型用户数据特征部分的替换,可以使得生成的新的用户数据更真实合理。
在本公开的第二方面,如图7所示,本公开的示意性实施例提供一种模型训练方法,包括以下步骤:
S710,获取训练数据,所述训练数据包括如本公开第一方面所述的增强数据集。
S720,根据所述训练数据对预设的用户分类模型进行训练。
由于增强数据集中不仅包括了原先的数据集还包括了新的用户数据,因而可以有效地解决数据数量不足的问题,改善模型训练效果。
模型训练完成后,可以根据模型实现对新的用户数据的分类,可以使后续的广告推送,优惠信息推送等商业行为更加有的放矢,更为高效。
在本公开的另一个示意性实施例中,所述训练数据包括多个不同类别的数据集,所述增强数据集为根据本公开第一方面所述的数据处理方法对所述多个不同类别的数据集中目标类别的数据集进行处理得到。
训练数据中包括多个类别的数据集,其中某个类别的数据集数量不足时,可以只针对这一类别的数据集进行数据处理得到相应的增强数据集。这种示意性实施例中,数据增强更有针对性,可以明显提高模型训练的效果。
在本公开的第四方面,如图8所示,本公开的示意性实施例提供一种数据处理装置,包括:
获取模块800,用于获取数据集,所述数据集包括多个用户数据。
具体地,用户数据可以包括用户ID,用户特征和用户分类。每个用户数据可以包括多个用户特征,用户特征可以是用户画像标签,比如用户的性别、年龄、地理位置、消费次数和消费金额等。用户分类可以有一个或者多个,比如购买意愿、续费意愿或者退费意愿等。当某个分类只包括两种分类结果或分类标签时,用户数据可以被分为正样本数据和负样本数据,比如购买意愿分类可以分为愿意购买和不愿购买时,可以将愿意购买的用户数据作为正样本数据,将不愿意购买的用户数据作为负样本数据。需要注意的是,每个用户分类可以包括两种分类结果或分类标签,也可以包括多种分类结果或分类标签。以上列举的用户特征和用户分类都只是示意性的,不作为对本公开技术方案的限定。
分割模块820,用于将每个用户数据分割为多个特征部分。
具体地,将每个用户数据的多个特征分为多个特征部分,可以是在用户特征较少时将用户的每个用户特征分别作为一个特征部分,也可以是在用户特征较多时将某几个特征共同作为一个特征部分。
用户数据的分割可以有多种方式,例如:根据用户数据中特征的维度进行分割,比如将用户数据分为基础特征部分、地理特征部分和消费特征部分,其中基础特征部分可以包括性别、年龄等基础信息特征,地理特征部分可以包括所在省、市等地理信息特征,消费特征部分可以包括消费次数、消费金额等消费信息特征;根据用户数据中特征的类型进行分割,比如将用户数据分为数值型特征部分和类别型特征部分,其中数值型特征部分可以包括年龄、消费金额等数值型特征,类别性特征部分可以包括性别、城市等类别型特征;根据用户数据中特征的重要性进行分割,比如将用户数据中非常重要的标签征分为第一特征部分,相对重要的特征分为第二特征部分,不太重要的特征分为第三特征部分。
特征的重要性可以人为设定,也可以根据用户数据的模型训练结果确定,比如先利用现有的数据集先进行模型训练,再利用逻辑回归和决策树等工具对特征进行重要性排序,得到特征的重要性。这种方式确定的特征重要性更准确合理,数据增强的效果也更好。
组合模块850, 组合不同用户数据的特征部分生成新的用户数据。
组合不同用户数据的特征部分,可以生成新的用户数据。比如,用户数据划分成两部分时,可以将用户数据A的第一部分和用户数据B的第二部分进行组合生成一个新的用户数据,将用户数据A的第二部分和用户数据B的第一部分进行组合生成另一个新的用户数据,也即通过组合分别包括两个部分的两个用户数据生成了两个新的用户数据。用户数据划分为多个部分时,可以由多个用户数据组合生成新的用户数据,比如用户数据分割为五个部分时,可以用用户数据A的一个或者两个、三个、四个部分和用户数据B的四个或者三个、两个、一个来组合生成新数据,也可以用三个用户或者四个、五个用户数据的部分来组合生成新的用户数据。显然,当用户数据的数量和分割的特征部分的数量相同时,每个用户数据取一个特征部分即可生成新的用户数据。各部分的组合可以是随机的,也可以是按照设定的规则进行的,本公开对此不做限定。
生成模块880,根据所述数据集和所述新的用户数据生成增强数据集。
在生成新的用户数据后,将原先的数据集和新的用户数据结合可以生成增强数据集,实现对用户数据集的增强。
本公开实施例中提供的一个或多个技术方案,数据处理装置通过将数据集中的用户数据分割为多个特征部分,组合不同用户数据的特征部分来生成新的用户数据,并根据所述数据集和所述新的用户数据生成增强数据集,有效地增强了数据,进而提高了模型的训练效果。
具体而言,获取模块800获取的数据集中包括用户数据A、B和C,其中每个用户数据都包括多个特征,比如用户数据A包括特征Aa、Ab、Ac、Ad、Ae和Af。
分割模块820可以将用户数据A、B和C分别分割成两个特征部分或三个特征部分。比如,用户数据A分割成两个特征部分时,可以是特征Aa为第一部分,Ab、Ac、Ad、Ae和Af为第二部分;也可以是Aa和Ab为第一部分,Ac、Ad、Ae和Af为第二部分;或者Aa、Ab和Ac为第一部分, Ad、Ae和Af为第二部分;或者Aa、Ab、Ac和Ad为第一部分, Ae和Af为第二部分;或者Aa、Ab、Ac、Ad和Ae为第一部分, Af为第二部分。
如图1B所示,示例性的,将用户数据A分割为A1,A2和A3的三个特征部分,A1包括特征Aa和Ab, A2包括特征Ac和Ad, A3包括特征Ae和Af。类似地,用户数据B分割为B1,B2和B3三个特征部分,用户数据C分割为C1,C2和C3三个特征部分。即用户数据A为[A1,A2,A3],用户数据B为[B1,B2,B3],用户数据C为[C1,C2,C3]。
组合模块850将用户数据A、B和C的多个特征部分进行组合,可以生成D,E和F等三个新的用户数据。
如图1C所示,示例性的,用户数据A,B和C同样被分割为三个特征部分,但分割方式不同。以用户数据A为例,第一部分只包括了一个特征Aa,第二部分包括了两个特征Ab和Ac,第三部分包括了三个特征Ad、Ae和Af。用户数据B和C以同样的方式分割。由于分割的方式不同,对特征部分进行组合后生成了另外三个新的用户数据G,H和I。
应理解,用户数据A、B和C可以为表示为具有相同元素个数的用户数据向量,A1,A2,A3,B1,B2,B3,C1,C2和C3分别为至少一个元素。用户数据A、B和C也可以表示为大小相同的用户数据矩阵,换言之,多个用户数据矩阵在对应的维度上具有相同元素个数,A1,A2,A3,B1,B2,B3,C1,C2和C3分别为至少一个元素形成的子矩阵。
生成模块880根据组合不同用户的特征部分生成的新的用户数据和原先的数据集生成了增强数据集。增强数据集可以包括原先的数据集的全部数据,也可以只包括原先的数据集中的部分用户数据。例如,数据增强模型可以通过数据过滤算法对增强后的数据进行过滤。
在本公开的另一个示意性实施例中,数据处理装置还包括在数据预处理模块,用于在获取数据后,对数据集进行数据预处理,包括但不限于离散型特征独热编码、连续型特征归一化、标准化、分箱等。
需要注意的是,在本公开的数据处理装置还可以包括其他模块或单元用于执行本公开第一方面示意性实施例中的其他方法或步骤,在此不再赘述。
在本公开的第四方面,如图9所示,本公开的示意性实施例提供一种模型训练装置,包括:
数据获取模块910,用于获取训练数据,所述训练数据包括如本公开第一方面所述的增强数据集。
数据训练模块920,用于根据所述训练数据对预设的用户分类模型进行训练。
在本公开的另一个示意性实施例中,所述训练数据包括多个不同类别的数据集,所述增强数据集为根据本公开第一方面所述的数据处理方法对所述多个不同类别的数据集中目标类别的数据集进行处理得到。
在本公开的第五方面,本公开的示意性实施例提供一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行如本公开第一或第二方面所述的方法。
在本公开的第六方面,本公开的示意性实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如本公开第一或第二方面所述的方法。
在本公开的第七方面,本公开的示意性实施例提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现如本公开第一或第二方面所述的方法。

Claims (15)

1.一种数据处理方法,包括:
获取数据集,所述数据集包括多个用户数据;
将每个用户数据分割为多个特征部分;
组合不同用户数据的特征部分生成新的用户数据;
根据所述数据集和所述新的用户数据生成增强数据集。
2.如权利要求1所述的数据处理方法,其中,所述方法还包括:
从所述数据集中确定多个相似用户数据;
将所述多个相似用户数据确定为所述不同用户数据。
3.如权利要求2所述的数据处理方法,其中,所述从所述数据集中确定多个相似用户数据,包括:
确定所述每个用户数据的多个特征部分中的目标特征部分;
根据所述每个用户数据的目标特征部分确定多个相似用户数据。
4.如权利要求3所述的数据处理方法,其中所述根据所述每个用户数据的目标特征部分确定多个相似用户数据,包括:
确定所述每个用户数据的目标特征部分对应的目标向量;
根据目标哈希函数对所述多个每个用户数据的目标向量构成的矩阵进行哈希计算,得到哈希签名矩阵;
根据局部敏感哈希函数对所述哈希签名矩阵进行局部敏感哈希计算,得到局部敏感哈希值;
根据所述局部敏感哈希值计算所述每个用户数据之间的相似度,并确定所述多个相似用户数据。
5.如权利要求1所述的数据处理方法,其中,所述将每个用户数据分割为多个特征部分,包括以下任一种:
根据用户数据中特征的维度将所述每个用户数据分割为多个特征部分;
根据用户数据中特征的类型将所述每个用户数据分割为多个特征部分;
根据用户数据中特征的重要性将所述每个用户数据分割为多个特征部分。
6.如权利要求5所述的数据处理方法,其中,所述特征的重要性根据所述用户数据的模型训练结果确定。
7.如权利要求1所述的数据处理方法,其中,所述组合不同用户数据的特征部分生成新的用户数据,包括:
从所述多个用户数据中确定相似的第一用户数据和第二用户数据;
确定替换规则指示的目标特征部分,所述目标特征部分为所述多个特征部分的子集;
根据所述替换规则,将所述第一用户数据的目标特征部分替换为所述第二用户数据的目标特征部分。
8.如权利要求7所述的数据处理方法,其中,所述确定替换规则指示的目标特征部分,包括:
确定所述多个用户数据之间分别关于第一特征部分和第二特征部分的第一相似度和第二相似度;
若所述第一相似度大于所述第二相似度,则将所述第一特征部分确定为替换规则指示的目标特征部分。
9.一种模型训练方法,包括:
获取训练数据,所述训练数据包括如权利要求1-8中任一项所述的增强数据集;
根据所述训练数据对预设的用户分类模型进行训练。
10.如权利要求9所述的模型训练方法,其中,所述训练数据包括多个不同类别的数据集,所述增强数据集为根据权利要求1-8中任一项所述的数据处理方法对所述多个不同类别的数据集中目标类别的数据集进行处理得到。
11.一种数据处理装置,包括:
获取模块,用于获取数据集,所述数据集包括多个用户数据;
分割模块,用于将每个用户数据分割为多个特征部分;
组合模块,用于组合不同用户数据的特征部分生成新的用户数据;
增强模块,用于根据所述数据集和所述新的用户数据生成增强数据集。
12.一种模型训练装置,包括:
数据获取模块,用于获取训练数据,所述训练数据包括如权利要求1-8中任一项所述的增强数据集;
模型训练模块,用于根据所述训练数据对预设的用户分类模型进行训练。
13.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-10中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的方法。
CN202111316866.XA 2021-11-09 2021-11-09 数据处理和模型训练方法、装置、电子设备及存储介质 Pending CN113762423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111316866.XA CN113762423A (zh) 2021-11-09 2021-11-09 数据处理和模型训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111316866.XA CN113762423A (zh) 2021-11-09 2021-11-09 数据处理和模型训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113762423A true CN113762423A (zh) 2021-12-07

Family

ID=78784617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111316866.XA Pending CN113762423A (zh) 2021-11-09 2021-11-09 数据处理和模型训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113762423A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821398A (zh) * 2023-08-14 2023-09-29 新唐信通(北京)科技有限公司 一种道路缺陷识别模型训练用数据集获取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866558A (zh) * 2015-05-18 2015-08-26 中国科学院计算技术研究所 一种社交网络账号映射模型训练方法及映射方法和系统
CN111523951A (zh) * 2019-01-16 2020-08-11 北京京东尚科信息技术有限公司 数据增强方法和装置
CN111667022A (zh) * 2020-06-30 2020-09-15 腾讯科技(深圳)有限公司 用户数据处理方法、装置、计算机设备和存储介质
CN112052915A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 一种数据训练方法、装置、设备及存储介质
CN112162977A (zh) * 2020-10-20 2021-01-01 北京理工大学 一种面向mes的海量数据去冗余方法和系统
WO2021218336A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 用户信息判别方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866558A (zh) * 2015-05-18 2015-08-26 中国科学院计算技术研究所 一种社交网络账号映射模型训练方法及映射方法和系统
CN111523951A (zh) * 2019-01-16 2020-08-11 北京京东尚科信息技术有限公司 数据增强方法和装置
WO2021218336A1 (zh) * 2020-04-30 2021-11-04 深圳壹账通智能科技有限公司 用户信息判别方法、装置、设备及计算机可读存储介质
CN111667022A (zh) * 2020-06-30 2020-09-15 腾讯科技(深圳)有限公司 用户数据处理方法、装置、计算机设备和存储介质
CN112052915A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 一种数据训练方法、装置、设备及存储介质
CN112162977A (zh) * 2020-10-20 2021-01-01 北京理工大学 一种面向mes的海量数据去冗余方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821398A (zh) * 2023-08-14 2023-09-29 新唐信通(北京)科技有限公司 一种道路缺陷识别模型训练用数据集获取方法
CN116821398B (zh) * 2023-08-14 2023-11-10 新唐信通(浙江)科技有限公司 一种道路缺陷识别模型训练用数据集获取方法

Similar Documents

Publication Publication Date Title
CN111597348B (zh) 用户画像方法、装置、计算机设备和存储介质
CN109492772A (zh) 生成信息的方法和装置
CN111078742B (zh) 用户分类模型训练方法、用户分类方法及装置
Silvestre et al. Feature selection for clustering categorical data with an embedded modelling approach
Zhang et al. Deep unsupervised self-evolutionary hashing for image retrieval
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN115293919A (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
CN113762423A (zh) 数据处理和模型训练方法、装置、电子设备及存储介质
CN113590898A (zh) 数据检索方法、装置、电子设备、存储介质及计算机产品
CN113821703B (zh) 一种车联网用户画像生成方法及其系统
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
CN114090401A (zh) 处理用户行为序列的方法及装置
Putra et al. Multilevel neural network for reducing expected inference time
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN112148994A (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN116541592A (zh) 向量生成方法、信息推荐方法、装置、设备及介质
Lee Online clustering for collaborative filtering
Dornaika et al. Instance selection using nonlinear sparse modeling
CN114330519A (zh) 数据确定方法、装置、电子设备及存储介质
CN113807370A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质
CN112434174A (zh) 多媒体信息的发布账号的识别方法、装置、设备及介质
CN113204714A (zh) 一种基于用户画像的任务推荐方法、装置、存储介质及终端
CN114936327B (zh) 元素识别模型的获取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211207