CN110796179A - 用于模型训练的样本数据处理方法及装置、存储介质、终端 - Google Patents

用于模型训练的样本数据处理方法及装置、存储介质、终端 Download PDF

Info

Publication number
CN110796179A
CN110796179A CN201910967125.4A CN201910967125A CN110796179A CN 110796179 A CN110796179 A CN 110796179A CN 201910967125 A CN201910967125 A CN 201910967125A CN 110796179 A CN110796179 A CN 110796179A
Authority
CN
China
Prior art keywords
attribute information
application program
mapping table
code value
preset mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910967125.4A
Other languages
English (en)
Other versions
CN110796179B (zh
Inventor
李君浩
顾少丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lake Information Technology Co Ltd
Original Assignee
Shanghai Lake Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lake Information Technology Co Ltd filed Critical Shanghai Lake Information Technology Co Ltd
Priority to CN201910967125.4A priority Critical patent/CN110796179B/zh
Publication of CN110796179A publication Critical patent/CN110796179A/zh
Application granted granted Critical
Publication of CN110796179B publication Critical patent/CN110796179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于模型训练的样本数据处理方法及装置、存储介质、终端,所述方法包括:获取待处理样本数据,待处理样本数据包括应用程序列表;对于应用程序列表中的每一应用程序,获取应用程序的至少一个属性信息;对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。通过本发明提供的方案能够充分利用应用程序列表中的冷门应用程序,以优化模型训练效果,使训练得到的模型更能体现用户偏好。

Description

用于模型训练的样本数据处理方法及装置、存储介质、终端
技术领域
本发明涉及机器学习技术领域,具体地涉及一种用于模型训练的样本数据处理方法及装置、存储介质、终端。
背景技术
在智能营销、信息推送、智能风控等场景中,为了获得更好的的使用体验,用户常常会主动授权服务商,使服务商能够获取用户移动设备中安装的应用程序(Application,简称APP)的安装列表信息,用于评估用户的兴趣偏好。
以用户的应用程序列表为样本数据进行实际建模时发现,根据获取的应用程序列表,列表中一些热门常用的应用程序(如微信,支付宝等)并不能完全体现出用户的偏好。反倒是用户安装的一些小众、冷门的应用程序才能够更好的体现出用户的个性化风格。例如,安装“番茄闹钟”应用程序的用户通常更加自律;安装小众收费版本的图像处理工具应用程序的用户消费水平普遍更高一些。
因此,如何充分利用冷门应用程序信息对于模型建模来说显得极其重要。
发明内容
本发明解决的技术问题是如何充分利用应用程序列表中的冷门应用程序,以优化模型训练效果,使训练得到的模型更能体现用户偏好。
为解决上述技术问题,本发明实施例提供一种用于模型训练的样本数据处理方法,包括:获取待处理样本数据,所述待处理样本数据包括应用程序列表;对于所述应用程序列表中的每一应用程序,获取所述应用程序的至少一个属性信息;对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。
可选的,所述获取所述应用程序的至少一个属性信息包括:根据所述应用程序的名称查询预设数据平台,以得到所述应用程序的至少一个属性信息,其中,所述预设数据平台存储有多个应用程序的名称以及关联的至少一个属性信息。
可选的,所述预设映射表与所述属性信息的类型一一对应。
可选的,所述属性信息的类型至少包括数值型和类别型,所述预设映射表至少包括第一预设映射表和第二预设映射表,其中,所述第一预设映射表与数值型的属性信息相对应,所述第二预设映射表与类别型的属性信息相对应。
可选的,所述根据预设映射表确定所述属性信息关联的码值包括:当所述属性信息的类型为数值型时,查找所述第一预设映射表中与所述属性信息的数值相关联的码值;当所述属性信息的类型为类别型时,查找所述第二预设映射表中与所述属性信息的类别相关联的码值。
可选的,对于所述第一预设映射表中记录的每一属性信息,所述第一预设映射表记录有所述属性信息的至少一个数值区间段与码值的关联关系;所述查找所述第一预设映射表中与所述属性信息的数值相关联的码值包括:确定所述属性信息的数值在所述第一预设映射表中所属的数值区间段;将确定的数值区间段关联的码值作为所述属性信息关联的码值。
可选的,所述根据预设映射表确定所述属性信息关联的码值包括:当所述预设映射表中未记录所述属性信息及关联的码值时,确定所述属性信息关联的码值为缺省值。
可选的,所述基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息包括:从所述至少一个属性信息中选择预设数量的属性信息,并将所述预设数量的属性信息各自关联的码值组合生成所述编码信息。
可选的,所述从所述至少一个属性信息中选择预设数量的属性信息包括:对于所述至少一个属性信息,从其中码值为非缺省值的属性信息中选择预设数量的属性信息。
为解决上述技术问题,本发明实施例还提供一种用于模型训练的样本数据处理装置,包括:第一获取模块,用于获取待处理样本数据,所述待处理样本数据包括应用程序列表;第二获取模块,对于所述应用程序列表中的每一应用程序,获取所述应用程序的至少一个属性信息;码值确定模块,对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;生成模块,对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;统计模块,用于统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。
为解决上述技术问题,本发明实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述方法的步骤。
为解决上述技术问题,本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供一种用于模型训练的样本数据处理方法,包括:获取待处理样本数据,所述待处理样本数据包括应用程序列表;对于所述应用程序列表中的每一应用程序,获取所述应用程序的至少一个属性信息;对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。较之现有在建模时直接丢弃冷门应用程序信息的技术方案,本实施例的方案能够充分利用应用程序列表中的冷门应用程序,以优化模型训练效果,使训练得到的模型更能体现用户偏好。具体而言,针对获取的用户应用程序列表中的每一应用程序,均将所述应用程序的属性信息转换成编码信息作为模型训练的输入数据,从而在进行模型训练之前尽量保留所有应用程序的属性信息,且进行聚类处理。所述聚类处理是指,基于预设映射表将属性相似的应用程序用相同的类别进行编码,从而在模型训练过程中可以将热门应用程序和冷门应用程序的属性信息充分利用。
进一步,所述属性信息的类型至少包括数值型和类别型,所述预设映射表至少包括第一预设映射表和第二预设映射表,其中,所述第一预设映射表与数值型的属性信息相对应,所述第二预设映射表与类别型的属性信息相对应。由此,可以针对不同类型的属性信息分别设置合适的预设映射表,以精准保留属性信息的特征内容。
附图说明
图1是本发明实施例的一种用于模型训练的样本数据处理方法的流程图;
图2是本发明实施例的一种用于模型训练的样本数据处理装置的结构示意图。
具体实施方式
如背景技术所言,在根据用户的应用程序列表进行模型训练时,冷门应用程序比热门应用程序更为重要,通过对冷门应用程序的属性信息进行机器学习训练得到的模型更符合用户实际。其中,热门应用程序是指下载量较大的,基本上所有用户均下载安装的应用程序;冷门应用程序是指下载量一般甚至很少,少部分或具有相同共性的用户才会下载安装的应用程序。
本申请发明人经过分析发现,现有技术在利用应用程序列表进行建模过程中,常用的处理方法是根据数据集(包括多个用户的应用程序列表)中的所有应用程序出现的次数,按照从大到小排序,选择排序最靠前的N个应用程序进行建模,其他的应用程序则做过滤处理。
然而,这样的机器学习模型无法处理冷门应用程序信息,无法对用户进行区分。
如果将数据集中所有应用程序信息均作为特征进行模型训练,也即,将数据集中每一个应用程序的每一个属性信息都作为one-hot变量,则将会产生高维稀疏数据,不利于模型训练。
为解决上述技术问题,本发明实施例提供一种用于模型训练的样本数据处理方法,包括:获取待处理样本数据,所述待处理样本数据包括应用程序列表;对于所述应用程序列表中的每一应用程序,获取所述应用程序的至少一个属性信息;对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。
本领域技术人员理解,本实施例的方案能够充分利用应用程序列表中的冷门应用程序,以优化模型训练效果,使训练得到的模型更能体现用户偏好。具体而言,针对获取的用户应用程序列表中的每一应用程序,均将所述应用程序的属性信息转换成编码信息作为模型训练的输入数据,从而在进行模型训练之前尽量保留所有应用程序的属性信息,且进行聚类处理。所述聚类处理是指,基于预设映射表将属性相似的应用程序用相同的类别进行编码,从而在模型训练过程中可以将热门应用程序和冷门应用程序的属性信息充分利用。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种用于模型训练的样本数据处理方法的流程图。本实施例的方案可以应用于机器学习场景,如在进行模型训练之前的样本数据预处理场景,以在模型训练过程中能够充分利用热门应用程序和冷门应用程序的属性信息。
具体地,参考图1,本实施例所述用于模型训练的样本数据处理方法可以包括如下步骤:
步骤S101,获取待处理样本数据,所述待处理样本数据包括应用程序列表;
步骤S102,对于所述应用程序列表中的每一应用程序,获取所述应用程序的至少一个属性信息;
步骤S103,对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;
步骤S104,对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;
步骤S105,统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。
在一个或多个实施例中,所述待处理样本数据可以包括单个用户的单个智能设备上安装的应用程序列表。
或者,也可以包括单个用户授权获取的多个智能设备上分别安装的应用程序列表。相应的,在执行所述步骤S102时,对所述待处理样本数据中存在重复的应用程序,可以仅获取一次所述应用程序的至少一个属性信息。
又或者,还可以包括多个用户分别授权获取的至少一个智能设备上安装的应用程序列表。相应的,在执行所述步骤S102时,对所述待处理样本数据中存在重复的应用程序,可以仅获取一次所述应用程序的至少一个属性信息。
在一个或多个实施例中,当所述待处理样本数据包括多个用户的应用程序列表时,在执行所述步骤S102之前,还可以包括步骤:剔除所述待处理样本数据中出现次数最多的n个应用程序,n为正整数。由此,可以适当剔除所述待处理样本数据中所有用户都下载安装的应用程序,以更好的体现冷门应用程序对训练结果的影响。优选地,n可以为5-10,本领域技术人员可以根据需要调整n的具体数值。
在一个或多个实施例中,所述步骤S102可以包括步骤:根据所述应用程序的名称查询预设数据平台,以得到所述应用程序的至少一个属性信息,其中,所述预设数据平台存储有多个应用程序的名称以及关联的至少一个属性信息。
例如,所述预设数据平台可以为第三方平台,专用于统计、采集各应用程序的属性信息。
进一步地,获取的所述至少一个属性信息可以是所述预设数据平台针对所述应用程序定义的。
或者,所述至少一个属性信息可以是执行本实施例的终端针对所述应用程序定义,并从所述预设数据平台获取对应的数值。
在一个或多个实施例中,所述预设数据平台可以为多个,所述应用程序的每一属性信息均可以是融合多个预设数据平台的数据得到的,以提高属性信息的准确度。
例如,对于数值型的属性信息,可以对从多个预设数据平台分别获取的同一属性信息的数值进行求平均或加权平均处理,并将处理结果作为该属性信息的值。
在一个或多个实施例中,所述至少一个属性信息的数量可以不超过十个,以确保聚类效果。当所述应用程序在所述预设数据平台上记载的属性信息多于十个时,可以从中选取十个用于生成所述编码信息。
具体地,选取的逻辑可以是选取排列靠前的十个属性信息。
在一个或多个实施例中,所述预设映射表可以与所述属性信息的类型一一对应。
具体地,所述属性信息的类型至少可以包括数值型和类别型。
数值型的属性信息可以是以数值为特征的属性信息,如下载量、好评率、评论数、应用程序大小等。
类别型的属性信息可以是以文本为特征的属性信息,如所述应用程序的一级类目、二级类目等。
按照是否与具体业务有关,除了前述这些与具体业务无关的属性信息外,如在针对借贷类应用程序进行分析时,所述属性信息还可以包括逾期率、应用程序是否属于该业务的黑名单等与具体业务有关的属性信息。其中,逾期率可以归属于数值型的属性信息,应用程序是否在该业务的黑名单中可以归属于类别型的属性信息。
所述属性信息还可以包括所述应用程序的开发者信息。
在一个或多个实施例中,所述预设映射表至少可以包括第一预设映射表和第二预设映射表,其中,所述第一预设映射表与数值型的属性信息相对应,所述第二预设映射表与类别型的属性信息相对应。
具体地,所述第一预设映射表的建立过程可以理解为切分阈值的过程,每个属性切分得到的分段的数量、各分段的区间长度可以不相同。
例如,利用给定的数据集,分别统计每个属性信息的取值区间,根据取值区间选择等距离切分。以好评率为例,假设取值区间是[0,1],则可以事先定义均匀切5等分,得到5个数值区间[0,0.2),[0.2,0.4),[0.4,0.6)...。
进一步地,可以根据所述待处理样本数据中的用户覆盖量做切分,以达到均衡效果。
在一个或多个实施例中,所述步骤S103可以包括:当所述属性信息的类型为数值型时,查找所述第一预设映射表中与所述属性信息的数值相关联的码值
表1第一预设映射表
Figure BDA0002230859710000081
具体地,参考表1示出的第一预设映射表的部分内容,对于所述第一预设映射表中记录的每一属性信息,所述第一预设映射表可以记录有所述属性信息的至少一个数值区间段与码值的关联关系。
相应的,可以确定从所述预设数据平台获取的所述属性信息的数值在所述第一预设映射表中所属的数值区间段。进而将确定的数值区间段关联的码值作为所述属性信息关联的码值。
进一步地,所述数值区间段关联的码值可以由所述数值区间段所对应的行和列的字符组成。
例如,假设所述应用程序的属性信息为评论数,自所述预设数据平台收集得到所述评论数为6万(W),则可以确定所述应用程序的评论数对应的码值为c2。
在一个或多个实施例中,所述步骤S103可以包括步骤:当所述预设映射表中未记录所述属性信息及关联的码值时,确定所述属性信息关联的码值为缺省值。
仍以表1所示第一预设映射表为例,所述第一预设映射表中可以存在缺省值,如码值c5的位置并没有设置相应的评论数的具体数值。相应的,当所述应用程序的评论数在所述预设数据平台上采集到的数值恰好无法落入评论数的其他几个数值区间段内时,所述评论数关联的码值即为缺省值。
对于类别型的属性信息,由于天然是离散的数据,所以不需要切分阈值。
具体而言,类别型的属性信息之间的相关性可以不考虑,对于类目信息一般是存在层级关系的,如一级类目,二级类目等
当然,也可以根据属性相关性进行手动选择,以使建立的第二预设映射表中各类别型属性信息的分布更为合理。
在建立所述第二预设映射表时,可以针对所述预设数据平台中记录的每一类别型的属性信息分配一个数值编号,以得到所述第二预设映射表。
在一个或多个实施例中,所述步骤S103可以包括:当所述属性信息的类型为类别型时,查找所述第二预设映射表中与所述属性信息的类别相关联的码值。
表2第二预设映射表
Figure BDA0002230859710000091
具体地,参考表2示出的第二预设映射表的部分内容,对于所述第二预设映射表中记录的每一属性信息,所述第二预设映射表可以记录有所述属性信息的码值,所述码值可以由所述属性信息所对应的的行和列的字符组成。
例如,假设所述应用程序在所述预设数据平台上收录的其中一个属性信息为借贷,则对应的可以得到码值f4。
在一个或多个实施例中,所述步骤S104可以包括步骤:从所述至少一个属性信息中选择预设数量的属性信息,并将所述预设数量的属性信息各自关联的码值组合生成所述编码信息。
例如,所述预设数量可以为10个。
进一步地,所述从所述至少一个属性信息中选择预设数量的属性信息可以包括:对于所述至少一个属性信息,从其中码值为非缺省值的属性信息中选择预设数量的属性信息。也即,可以优先筛除码值为缺省值的属性信息,然后从剩余的属性信息中选择10个生成编码信息。
例如,假设从所述预设数据平台收集到一应用程序的下载量为2057.5W、好评率为0.8、评论数为0、软件大小为21.24、分类下面一级类目类别1为“金融”、二级类目列别2为“借贷”。采用本实施例所述方案,基于前述表1和表2,可以将所述应用程序的属性信息转化为编码:a5_b4_c0_d2_e1_f4。
依次类推,将所述待处理样本数据中的所有应用程序的属性信息进行编码,这样每一应用程序都有一个编码信息,使得冷门应用程序的属性信息也可以得到充分利用,而不需要被丢弃。
在所述步骤S105中,在进行模型训练时,可以基于所述编码信息查找所述预设映射表,以得到具体的属性信息进行模型训练。
由上,采用本实施例的方案,能够充分利用应用程序列表中的冷门应用程序,以优化模型训练效果,使训练得到的模型更能体现用户偏好。具体而言,针对获取的用户应用程序列表中的每一应用程序,均将所述应用程序的属性信息转换成编码信息作为模型训练的输入数据,从而在进行模型训练之前尽量保留所有应用程序的属性信息,且进行聚类处理。所述聚类处理是指,基于预设映射表将属性相似的应用程序用相同的类别进行编码,从而在模型训练过程中可以将热门应用程序和冷门应用程序的属性信息充分利用。
图2是本发明实施例的一种用于模型训练的样本数据处理装置的结构示意图。本领域技术人员理解,本实施例所述用于模型训练的样本数据处理装置2(以下简称为样本数据处理装置2)可以用于实施上述图1所示实施例中所述的方法技术方案。
具体地,本实施例所述样本数据处理装置2可以包括:第一获取模块21,用于获取待处理样本数据,所述待处理样本数据包括应用程序列表;第二获取模块22,对于所述应用程序列表中的每一应用程序,获取所述应用程序的至少一个属性信息;码值确定模块23,对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;生成模块24,对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;统计模块25,用于统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。
在一个或多个实施例中,所述第二获取模块22可以包括:第一查找子模块221,用于根据所述应用程序的名称查询预设数据平台,以得到所述应用程序的至少一个属性信息,其中,所述预设数据平台存储有多个应用程序的名称以及关联的至少一个属性信息。
在一个或多个实施例中,所述预设映射表可以与所述属性信息的类型一一对应。
在一个或多个实施例中,所述属性信息的类型至少可以包括数值型和类别型,所述预设映射表至少可以包括第一预设映射表和第二预设映射表,其中,所述第一预设映射表可以与数值型的属性信息相对应,所述第二预设映射表可以与类别型的属性信息相对应。
在一个或多个实施例中,所述码值确定模块23可以包括:第二查找子模块231,当所述属性信息的类型为数值型时,查找所述第一预设映射表中与所述属性信息的数值相关联的码值;第三查找子模块232,当所述属性信息的类型为类别型时,查找所述第二预设映射表中与所述属性信息的类别相关联的码值。
在一个或多个实施例中,对于所述第一预设映射表中记录的每一属性信息,所述第一预设映射表可以记录有所述属性信息的至少一个数值区间段与码值的关联关系;所述第二查找子模块231可以包括:第一确定单元2311,用于确定所述属性信息的数值在所述第一预设映射表中所属的数值区间段;第二确定单元2312,用于将确定的数值区间段关联的码值作为所述属性信息关联的码值。
在一个或多个实施例中,所述码值确定模块23可以包括:确定子模块233,当所述预设映射表中未记录所述属性信息及关联的码值时,确定所述属性信息关联的码值为缺省值。
在一个或多个实施例中,所述生成模块24可以包括:生成子模块241,用于从所述至少一个属性信息中选择预设数量的属性信息,并将所述预设数量的属性信息各自关联的码值组合生成所述编码信息。
在一个或多个实施例中,所述生成子模块241可以包括:选择单元2411,对于所述至少一个属性信息,从其中码值为非缺省值的属性信息中选择预设数量的属性信息。
关于所述样本数据处理装置2的工作原理、工作方式的更多内容,可以参照上述图1中的相关描述,这里不再赘述。
进一步地,本发明实施例还公开一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述图1所示实施例中所述的方法技术方案。优选地,所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。
进一步地,本发明实施例还公开一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述图1所示实施例中所述的方法技术方案。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (12)

1.一种用于模型训练的样本数据处理方法,其特征在于,包括:
获取待处理样本数据,所述待处理样本数据包括应用程序列表;
对于所述应用程序列表中的每一应用程序,获取所述应用程序的至少一个属性信息;
对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;
对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;
统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。
2.根据权利要求1所述的样本数据处理方法,其特征在于,所述获取所述应用程序的至少一个属性信息包括:
根据所述应用程序的名称查询预设数据平台,以得到所述应用程序的至少一个属性信息,其中,所述预设数据平台存储有多个应用程序的名称以及关联的至少一个属性信息。
3.根据权利要求1所述的样本数据处理方法,其特征在于,所述预设映射表与所述属性信息的类型一一对应。
4.根据权利要求3所述的样本数据处理方法,其特征在于,所述属性信息的类型至少包括数值型和类别型,所述预设映射表至少包括第一预设映射表和第二预设映射表,其中,所述第一预设映射表与数值型的属性信息相对应,所述第二预设映射表与类别型的属性信息相对应。
5.根据权利要求4所述的样本数据处理方法,其特征在于,所述根据预设映射表确定所述属性信息关联的码值包括:
当所述属性信息的类型为数值型时,查找所述第一预设映射表中与所述属性信息的数值相关联的码值;
当所述属性信息的类型为类别型时,查找所述第二预设映射表中与所述属性信息的类别相关联的码值。
6.根据权利要求5所述的样本数据处理方法,其特征在于,对于所述第一预设映射表中记录的每一属性信息,所述第一预设映射表记录有所述属性信息的至少一个数值区间段与码值的关联关系;所述查找所述第一预设映射表中与所述属性信息的数值相关联的码值包括:
确定所述属性信息的数值在所述第一预设映射表中所属的数值区间段;
将确定的数值区间段关联的码值作为所述属性信息关联的码值。
7.根据权利要求1所述的样本数据处理方法,其特征在于,所述根据预设映射表确定所述属性信息关联的码值包括:
当所述预设映射表中未记录所述属性信息及关联的码值时,确定所述属性信息关联的码值为缺省值。
8.根据权利要求1所述的样本数据处理方法,其特征在于,所述基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息包括:
从所述至少一个属性信息中选择预设数量的属性信息,并将所述预设数量的属性信息各自关联的码值组合生成所述编码信息。
9.根据权利要求8所述的样本数据处理方法,其特征在于,所述从所述至少一个属性信息中选择预设数量的属性信息包括:
对于所述至少一个属性信息,从其中码值为非缺省值的属性信息中选择预设数量的属性信息。
10.一种用于模型训练的样本数据处理装置,其特征在于,包括:
第一获取模块,用于获取待处理样本数据,所述待处理样本数据包括应用程序列表;
第二获取模块,对于所述应用程序列表中的每一应用程序,获取所述应用程序的至少一个属性信息;
码值确定模块,对于每一属性信息,根据预设映射表确定所述属性信息关联的码值,所述预设映射表记录有属性信息与码值的关联关系;
生成模块,对于每一应用程序,基于所述应用程序的至少一个属性信息各自关联的码值生成编码信息;
统计模块,用于统计所述应用程序列表中所有应用程序各自对应的编码信息,其中,统计结果作为处理后的样本数据输入模型进行训练。
11.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至9所述方法的步骤。
12.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至9任一项所述方法的步骤。
CN201910967125.4A 2019-10-12 2019-10-12 用于模型训练的样本数据处理方法及装置、存储介质、终端 Active CN110796179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910967125.4A CN110796179B (zh) 2019-10-12 2019-10-12 用于模型训练的样本数据处理方法及装置、存储介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910967125.4A CN110796179B (zh) 2019-10-12 2019-10-12 用于模型训练的样本数据处理方法及装置、存储介质、终端

Publications (2)

Publication Number Publication Date
CN110796179A true CN110796179A (zh) 2020-02-14
CN110796179B CN110796179B (zh) 2023-05-26

Family

ID=69438935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910967125.4A Active CN110796179B (zh) 2019-10-12 2019-10-12 用于模型训练的样本数据处理方法及装置、存储介质、终端

Country Status (1)

Country Link
CN (1) CN110796179B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358807A (zh) * 2021-03-12 2022-04-15 上海序言泽网络科技有限公司 基于可预测用户特征属性的用户画像方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874449A (zh) * 2017-02-10 2017-06-20 维沃移动通信有限公司 一种应用程序的搜索方法及移动终端
CN107291728A (zh) * 2016-03-31 2017-10-24 北京金山安全软件有限公司 一种获取用户属性的方法、装置及电子设备
CN107798243A (zh) * 2017-11-25 2018-03-13 国网河南省电力公司电力科学研究院 终端应用的检测方法和装置
CN107909087A (zh) * 2017-09-08 2018-04-13 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN108710911A (zh) * 2018-05-21 2018-10-26 华东师范大学 一种基于半监督的应用市场刷榜应用检测方法
CN109213833A (zh) * 2018-09-10 2019-01-15 成都四方伟业软件股份有限公司 二分类模型训练方法、数据分类方法及对应装置
US20190205701A1 (en) * 2017-12-29 2019-07-04 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for Training Model and Information Recommendation System
CN110276359A (zh) * 2019-05-24 2019-09-24 天津亿玛科技有限公司 一种特征提取方法和装置
CN110298171A (zh) * 2019-06-17 2019-10-01 暨南大学 移动互联网大数据应用的智能检测与安全防护方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291728A (zh) * 2016-03-31 2017-10-24 北京金山安全软件有限公司 一种获取用户属性的方法、装置及电子设备
CN106874449A (zh) * 2017-02-10 2017-06-20 维沃移动通信有限公司 一种应用程序的搜索方法及移动终端
CN107909087A (zh) * 2017-09-08 2018-04-13 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107798243A (zh) * 2017-11-25 2018-03-13 国网河南省电力公司电力科学研究院 终端应用的检测方法和装置
US20190205701A1 (en) * 2017-12-29 2019-07-04 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for Training Model and Information Recommendation System
CN108710911A (zh) * 2018-05-21 2018-10-26 华东师范大学 一种基于半监督的应用市场刷榜应用检测方法
CN109213833A (zh) * 2018-09-10 2019-01-15 成都四方伟业软件股份有限公司 二分类模型训练方法、数据分类方法及对应装置
CN110276359A (zh) * 2019-05-24 2019-09-24 天津亿玛科技有限公司 一种特征提取方法和装置
CN110298171A (zh) * 2019-06-17 2019-10-01 暨南大学 移动互联网大数据应用的智能检测与安全防护方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358807A (zh) * 2021-03-12 2022-04-15 上海序言泽网络科技有限公司 基于可预测用户特征属性的用户画像方法及系统

Also Published As

Publication number Publication date
CN110796179B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN110674408B (zh) 业务平台、训练样本的实时生成方法及装置
CN107273489B (zh) 内容推送方法、电子设备及计算机存储介质
US10402039B2 (en) Adaptive user interface using machine learning model
CN104298679B (zh) 应用业务推荐方法及装置
CN107273269B (zh) 日志解析方法及装置
CN109597974B (zh) 报表生成方法及装置
CN112800097A (zh) 基于深度兴趣网络的专题推荐方法及装置
CN109168047B (zh) 视频推荐方法、装置、服务器及存储介质
CN111310037B (zh) 家居素材的推荐方法、装置及电子设备
CN111680165B (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN111737473B (zh) 文本分类方法、装置及设备
CN107704225A (zh) 基于指标的数据显示方法、装置、设备和计算机存储介质
CN106156098B (zh) 一种纠错对挖掘方法及系统
CN112905451B (zh) 应用程序的自动化测试方法及装置
CN109685255A (zh) 一种预测用户流失的方法和装置
CN111681049A (zh) 用户行为的处理方法、存储介质及相关设备
CN112633341A (zh) 一种界面测试方法、装置、计算机设备和存储介质
CN109460474B (zh) 用户偏好趋势挖掘方法
CN117540101B (zh) 一种基于人工智能的在线书城管理方法及系统
CN110796179A (zh) 用于模型训练的样本数据处理方法及装置、存储介质、终端
CN111611781B (zh) 数据标注方法、问答方法、装置及电子设备
CN111683280B (zh) 视频处理方法、装置及电子设备
CN113204642A (zh) 文本聚类方法、装置、存储介质和电子设备
CN108595395B (zh) 一种昵称的生成方法、装置及设备
CN112100991A (zh) 数据报表生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant