CN115344757A - 一种标签预测方法、电子设备及存储介质 - Google Patents
一种标签预测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115344757A CN115344757A CN202210589259.9A CN202210589259A CN115344757A CN 115344757 A CN115344757 A CN 115344757A CN 202210589259 A CN202210589259 A CN 202210589259A CN 115344757 A CN115344757 A CN 115344757A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- crowd
- user
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000004422 calculation algorithm Methods 0.000 claims description 140
- 230000015654 memory Effects 0.000 claims description 41
- 238000007635 classification algorithm Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000295 complement effect Effects 0.000 claims description 4
- 206010063385 Intellectualisation Diseases 0.000 abstract 1
- 238000011161 development Methods 0.000 description 183
- 230000008569 process Effects 0.000 description 65
- 238000010586 diagram Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 28
- 230000003993 interaction Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 20
- 230000004044 response Effects 0.000 description 17
- 238000007726 management method Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 230000006399 behavior Effects 0.000 description 11
- 238000010295 mobile communication Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000013075 data extraction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 101100264195 Caenorhabditis elegans app-1 gene Proteins 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及智慧化技术领域,具体涉及一种标签预测方法、电子设备及存储介质。该方法包括:获取用户选择的样本数据检索词和特征关键词;基于所述样本数据检索词从预设的样本数据库中检索出用于训练用户所需的标签预测模型的样本人群数据,并基于所述特征关键词从检索出的所述样本人群数据中提取出所述特征关键词对应类型的人群特征;基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,训练用户所需的标签预测模型,减少了开发人员的工作量;实现了无代码进行模型训练和预测;实现了标签预测模型的一站式生成,并提高了标签预测效率。
Description
本申请要求于2022年02月27日提交中国专利局、申请号为202210115751.2、发明名称为“一种生成预测类用户标签的方法及电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及智慧化技术领域,尤其涉及一种标签预测方法、电子设备及存储介质。
背景技术
用户画像,指通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。用户画像可以由众多的用户标签构成,用户标签在营销、广告、人群洞察以及用户产品优化升级等方面能够起到重要作用。
当前业界已有一些用户标签的开发平台,例如一些标签工厂、EasyTag、标签平台等,可以为一些需要定制用户标签的企业等提供数据源接入、标签建模服务以及标签管理等服务。然而,目前的用户标签开发平台,在生成用户标签方面涉及机器学习/深度学习算法等,需要标签开发人员具备较深的算法知识积累,并且需要标签开发人员投入较多的代码开发工作量,开发门槛高,实现难度大。并且,开发人员在开发不同的用户标签预测模型时所使用的样本数据、人群特征数据等可能存在重复,但由于平台提供给开发人员的开发环境是孤立的,开发人员的开发过程完全分开,从而导致不同的开发人员可能会就相同的原始用户数据进行特征提取,即导致重复性工作,因此开发效率也比较低。
发明内容
为了实现上述目的,本申请实施例提供了以下技术方案:
本申请实施例提供了一种标签预测方法、电子设备及存储介质,基于该方法,能够大大简化开发人员预测目标用户标签人群操作流程,降低了开发相应标签预测模型的技术门槛,减少了开发人员的开发工作量,也因此提高了开发人员的工作效率。
第一方面,本申请实施例提供了一种标签预测方法,应用于电子设备,该方法包括:
获取用户选择的样本数据检索词和特征关键词;
基于样本数据检索词从预设的样本数据库中检索出用于训练用户所需的标签预测模型的样本人群数据,并基于特征关键词从检索出的样本人群数据中提取出特征关键词对应类型的人群特征;
基于检索到的样本人群数据和特征关键词对应类型的人群特征,训练用户所需的标签预测模型。
上述用户在本申请实施例中即下文实施例中描述的开发人员,在另一些实施例中,也可以是开发人员以外的非技术人员,例如企业客户或者需要获取目标人群进行营销、广告、宣传等用途的任何人。
上述方法即提供一个预先设置的公共的样本数据库,进而当用户例如开发人员为获取目标人群数据时,在人机交互界面上输入样本数据检索词以及特征关键词后,电子设备则能够从该样本数据库匹配出于样本数据检索词相对应的样本人群数据,并对匹配出的样本人群数据提取出与用户输入的特征关键词相对应的人群特征数据,进而自动训练出能够预测目标用户标签人群的标签预测模型,即用户所需的标签预测模型。
可以理解,实施本申请方案的电子设备上可以运行基于本申请的标签预测平台,以提供开发人员可以操作的人机交互界面,例如下文实施例中描述的开发界面。上述样本数据检索词例如可以是下文具体实施方式中示例描述的通用标签,上述特征关键词例如可以是下文具体实施方式中示例描述的通用特征。
在上述第一方面的一种可能的实现中,上述方法还包括:
获取待预测数据;
采用训练出的标签预测模型对待预测数据进行人群分类预测,得到目标标签对应标记的目标人群。
即电子设备自动训练出的标签预测模型,可以用于标签预测。即开发人员可以在电子设备上操作运行训练出的标签预测模型,对待预测的人群数据(即待预测数据)进行人群分类预测,从而预测得到目标用户标签对应标记的人群,即上述目标标签对应标记的目标人群。可以理解,基于标签预测模型预测得到目标人群的结果,可以是生成目标用户标签对应标记的人群文件,该人群文件中可以存入目标人群中各目标用户的ID等数据。具体可以参考下文实施例中相关描述,在此不做赘述。
在上述第一方面的一种可能的实现中,基于样本数据检索词检索出的样本人群数据与目标人群对应的人群数据包括至少一项等同的人群特征,其中,等同的人群特征包括特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值的人群特征;并且,特征关键词对应类型的人群特征包括等同的人群特征。
即基于样本数据检索词从样本数据库中检索出的样本人群数据与标签预测需要得到的目标人群对应的人群数据,可以具有至少一项相同或相近的人群特征,即上述等同的人群特征。具体可以体现为:样本人群数据的该类人群特征与目标人群数据的该类人群特征对应的特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值。
在上述第一方面的一种可能的实现中,基于样本数据检索词检索出的样本人群数据与目标人群对应的人群数据包括至少一项等同的人群特征,其中,等同的人群特征包括特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值的人群特征;并且,特征关键词对应类型的人群特征包括等同的人群特征。
在上述第一方面的一种可能的实现中,基于检索到的样本人群数据和特征关键词对应类型的人群特征,训练用户所需的标签预测模型,包括:
基于检索到的样本人群数据和特征关键词对应类型的人群特征,生成样本人群特征数据集;
将样本人群特征数据集输入预设分类算法并执行运算,训练用户所需的标签预测模型。
即训练标签预测模型的过程,可以通过将相应的样本人群特征数据集输入预设分类算法进行人群分类计算来实现,其中的样本人群特征数据集则可以根据从样本数据库中检索到的样本人群数据与指定的特征关键词对应类型的人群特征相关数据集合而成。上述样本数据库例如可以是下文具体实施方式中描述的公共样本库。
在上述第一方面的一种可能的实现中,基于检索到的样本人群数据和特征关键词对应类型的人群特征,生成样本人群特征数据集,还包括:
获取样本人群数据中各样本数据的ID识别信息和正负样本标识信息;
将ID识别信息和正负样本识别信息与提取出的特征关键词对应类型的人群特征进行数据拼接,以使样本人群数据中各样本数据与特征关键词对应类型的人群特征之间建立对应关系;
将拼接得到的数据集合作为样本人群特征数据集。
上述ID识别信息例如可以是下文实施例中步骤702和705中描述的用户id,上述正负样本标识信息例如可以是下文实施例中步骤702和705中描述的正负样本标记。具体生成样本人群特征数据集的实现过程可以参考下文实施例中步骤702至步骤705中相关描述,在此不做赘述。
在上述第一方面的一种可能的实现中,将样本人群特征数据集输入预设分类算法并执行运算,包括:
检查样本人群特征数据集是否缺失特征数据;
若样本人群特征数据集缺失样本人群数据中第一样本的第一特征数据,则将第一特征数据所对应的第一人群特征的多个特征数据中的众数,确定为缺失的第一特征数据的补全数据;
将加入补全数据后的样本人群特征数据集输入预设分类算法并执行运算。
即所生成的样本人群特征数据集中如果存在缺失值,即上述缺失特征数据,则需要对该缺失值进行补全。可以理解,补全缺失值可以采用该缺失值对应的人群特征数据中出现次数最多的数据值,补全缺失值前后的样本人群特征数据集可以参考下文具体实施方式中表2和表3所示内容及相关描述,在此不做赘述。
在上述第一方面的一种可能的实现中,预设分类算法包括预设在算法库中的算法框架,并且,将样本人群特征数据集输入预设分类算法并执行运算,训练用户所需的标签预测模型,包括:
获取用户选择的算法关键词,并基于算法关键词从算法库中匹配出对应于算法关键词的第一算法框架;
将样本人群特征数据集输入第一算法框架,训练用户所需的标签预测模型。
即本申请的方法还可以预先设置一些AI算法框架,以便于开发人员在基于本申请的人机交互界面上选择用于训练标签预测模型的算法框架。开发人员输入算法关键词对应选择的算法框架可以是该开发人员认为比较适配的算法或者该开发人员所熟悉的算法,在此不做限制。上述算法关键词例如可以是相应算法框架的命名、版本号等中的一项或多项确定的。
在上述第一方面的一种可能的实现中,算法库包括LR算法、DBSCAN算法、K-Means算法以及GBDT算法中的一项或多项。
在上述第一方面的一种可能的实现中,训练用户所需的标签预测模型,包括:
采用预设分类算法从样本人群数据中预测出属于目标人群的第一人群的数据;
将确定第一人群属于目标人群所对应的人群特征权重参数,作为训练出的标签预测模型预测目标人群的执行参数。
即训练标签预测模型的过程,例如是基于用户分群算法(即上述预设分类算法),不断调整的正样本数据中各通用标签对应人群所具有的各项人群特征分别对应的权重参数以预测得到目标人群作为相应用户标签预测结果。当训练结果达到预设的收敛条件时,则可以生成标签预测模型的模型文件并保存。
在上述第一方面的一种可能的实现中,采用训练出的标签预测模型对待预测数据进行人群分类预测,得到目标标签对应标记的目标人群,包括:
获取对应于标签预测模型的可执行模型文件;
获取对标签预测模型配置的运行参数;
根据运行参数执行可执行模型文件,对待预测数据进行人群分类预测,得到目标标签对应标记的目标人群。
该运行参数包括执行频率、执行时间、执行周期长度、失败重试次数、超时时间中的一项或多项。
即在标签预测阶段,可以读取已训练的标签预测模型对应的模型文件,根据开发人员设定的运行参数来执行该预测模型文件中固化的分类算法,从而预测生成目标用户标签对应标记的人群文件。可以理解,开发人员可以通过人机交互界面设置标签预测模型的运行参数,例如设置执行频率、执行时间、执行周期长度、失败重试次数、超时时间等,在此不做限制。标签预测阶段运行标签预测模型执行标签预测的过程,可以参考下文具体实施方式中图12以及图15所示内容及相关描述,在此不做赘述。
样本数据库中的样本人群数据是从待预测数据中选出的人群数据。例如,待预测数据可以是基于本申请的标签开发平台对应的服务器中存储的全量用户人群数据,或者其中的部分人群数据,在此不做限制。
第二方面,本申请实施例提供了一种标签预测平台,包括:
界面配置模块,用于获取用户选择的样本数据检索词和特征关键词;
公共样本库调度模块,用于基于样本数据检索词从预设的样本数据库中检索出用于训练用户所需的标签预测模型的样本人群数据;
通用特征调度模块,用于基于特征关键词从检索出的样本人群数据中提取出特征关键词对应类型的人群特征;
算法调度模块,用于调度预设分类算,并基于检索到的样本人群数据和特征关键词对应类型的人群特征,训练用户所需的标签预测模型。
第三方面,本申请实施例提供了一种电子设备,包括收发器、处理器和存储器,存储器用于存储计算机程序,处理器调用计算机程序,用于执行上述第一方面提供的标签预测方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序被处理器执行时,实现上述第一方面提供的标签预测方法。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述第一方面提供的标签预测方法。
附图说明
图1a所示为一种用户标签分类示意图;
图1b所示为一种标签预测应用场景示意图;
图2所示为本申请实施例提供的一种标签预测流程示意图;
图3所示为本申请实施例提供的另一种标签预测流程示意图;
图4所示为本申请实施例提供的另一种标签预测流程示意图;
图5a所示为本申请实施例提供的一种标签预测场景示意图;
图5b所示为本申请实施例提供的一种标签开发平台的软件架构图;
图6所示为本申请实施例提供的一种标签预测方法的实施流程示意图;
图7所示为本申请实施例提供的一种标签预测方法实施过程对应的交互流程示意图;
图8所示为本申请实施例提供的供开发人员选择样本人群配置方案的界面示意图
图9所示为本申请实施例提供的一种供开发人员配置特征工程方案的界面示意图;
图10所示为本申请实施例提供的选择训练标签预测模型的算法框架的开发界面示意图;
图11所示为本申请实施例提供的开发完成界面示意图;
图12所示为本申请实施例提供的一种单次运行标签预测模型生成目标用户标签的预测流程示意图;
图13所示为本申请实施例提供的“金融爱好者”单次预测过程的界面配置示意图;
图14所示为本申请实施例提供的一种算法调度模块生成目标用户标签人群文件的过程示意图;
图15所示为本申请实施例提供的一种周期性运行标签预测模型生成目标用户标签的预测流程示意图;
图16所示为本申请实施例提供的“金融爱好者”周期调度预测的界面配置示意图;
图17所示为本申请实施例提供的一种电子设备的硬件结构示意图;
图18所示为本申请实施例提供的一种网络设备的硬件结构示意图。
具体实施方式
为了便于理解本申请实施例所提供的标签预测方案,下面对本申请实施例所涉及的一些术语进行解释。
用户标签:对具有一些特定人群特征的用户群体描述,用户标签可以在一定程度上反映用户的偏好等。按照数据提取的维度,可以分为事实标签、模型标签以及预测标签,其中预测标签即预测类用户标签。
上述这三类用户标签与原始用户数据之间的数据关系可以参考图1a所示,具体为:
原始用户数据,例如可以是用户操作手机等电子设备设置的个人信息,例如性别、生日、星座等信息,以及用户在一些应用程序的界面上执行用户操作对应产生的行为日志、购买历史、收藏商品等数据。
事实标签,是指既定事实,从原始用户数据中提取得到的具备一些静态属性特征的用户群体描述。提取事实标签的过程,可以通过对原始用户数据进行数据清洗、特征提取等处理实现提取。其中原始用户数据例如可以是基于用户设置获取到的性别、基于用户的实名认证获取用户的生日、星座等作为原始用户数据,进而对基于该原始用户数据可以提取到的事实特征例如包括图1a所示的生日、年龄、所属小区等。
模型标签,是基于开发人员定义的规则,建立模型基于事实标签计算得出的标签实例。例如图1a所示的活跃度、消费能力、品牌偏好等。
预测类用户标签,即预测标签,参考已有事实数据预测用户的行为或偏好而定义的一类用户群体描述。比如用户a的历史购物行为与群体A相似,可以预测用户a也会喜欢某件物品,则可以将用户a归属为群体A对应的“XXX爱好者”预测标签。
在此需声明的是,在本申请实施例中,涉及到的原始用户数据的获取,例如在下述图1b所示的场景中,用户终端200将采集到的应用内数据上传至服务器300、以及开发终端100运行标签预测所需的标签预测模型时从服务器300获取所需原始用户数据以及某用户标签人群数据等的获取,均默认已事先获得用户的授权确认,符合获取用户个人数据的相关规定。
图1b示出了一种标签预测应用场景示意图。
如图1b所示,该场景包括开发终端100、用户终端200以及与两终端设备交互的服务器300。
其中,开发终端100上可以运行标签开发平台,该标签开发平台用于根据市场需求开发相应的用户标签预测模型,并预测得到市场所需的预测类用户标签对应标记的人群。可以理解,前述市场需求例如可以是企业对自身产品的受众群体的分析需求,或者购物网站、金融服务平台、旅游服务平台对用户群体的偏好分析需求等,例如某金融服务平台或企业希望统计出金融爱好者这一用户群体的相关原始用户数据时,则可以委托开发人员通过开发终端100预测“金融爱好者”这一用户标签人群的标签预测模型,进行分类预测得到“金融爱好者”这一类用户群体的相关数据。
开发终端100可以通过所运行的标签开发平台与服务器300之间进行交互,获取服务器300上的原始用户数据以及计算资源等。而存储于服务器300上的原始用户数据,可以通过用户终端200采集。例如,用户终端200可以运行浏览器、微博TM、微信TM、购物、运动、旅游、理财等应用程序以响应于用户操作,并采集相关应用内数据作为原始用户数据,其中应用内数据例如事件(Activity)、网页、界面文本等数据,这些数据包括用户的行为数据,例如上网习惯、活跃频率等,以及一些用户属性数据,例如用户的性别、年龄、所在地域、生日等,并上传至服务器300。
基于上述图1b所示场景,图2至图4示出了一些标签预测流程示意图。可以理解,图2至图4所示开发流程,在具体实施过程中分别存在如前所述的一些缺陷。
图2示出了一种标签预测流程示意图。可以理解,图2所示流程各步骤的执行主体,可以是上述开发终端100上运行的标签开发平台或者标签工厂等软件程序,其中标签开发平台或者标签工厂的数据来源以及数据运算可以在服务器300上执行。
如图2所示,该流程包括以下步骤:
201:执行预设的代码语言提取人群特征数据。
其中,标签开发平台执行的代码语言,例如结构化查询语言(Structured QueryLanguage,SQL)。
202:执行代码语言筛选适配的正负样本数据。
其中,正样本数据即开发人员认为符合待生成的目标用户标签群体中应具备特征的原始用户数据;负样本数据是相对于正样本数据的样本人群数据描述,例如排除正样本数据的负样本数据是指不具备目标用户标签对应人群特征的原始用户数据,即正样本数据以外的其他原始用户数据。标签开发平台执行的代码语言,例如SQL。
203:执行代码语言完成人群特征数据与正负样本数据的数据拼接,生成训练数据集。
示例性地,通过执行SQL脚本,将人群特征数据的识别号(identity,id)与正负样本数据的id之间建立关联/对应关系,以得到用于训练标签预测模型的训练数据集。
204:执行模型训练的开发脚本,训练用户标签预测模型。其中,模型训练脚本例如可以包括python脚本/spark脚本等。
205:调试用户标签预测模型。
206:通过用户标签模型执行标签预测。
上述图2所示标签预测流程,虽然能够实现标签预测模型的开发,但该流程中步骤205涉及较多的机器学习/深度学习算法,需要操作标签开发平台的开发人员具备一定的算法知识累积,并且图2所示开发流程需要较大的代码开发工作量,开发门槛高,实现难度大,开发效率低。
另外,上述图2所示流程实施过程中,开发人员的开发过程是分别进行的,会存在重复性工作,导致开发效率较低的问题。
图3示出了另一种标签预测流程示意图。可以理解,图3所示流程各步骤的执行主体,可以是运行在上述开发终端100上的标签开发平台或者标签工厂等软件程序。
如图3所示,该流程包括以下步骤:
301:接收自定义的用户标签基础指标。
其中,基础指标是指对待生成的用户标签的具体用户行为数据的描述,例如待生成的用户标签是金融爱好者,基础指标可以定义为用户近7天的购物次数或消费次数等。
302:根据基础指标、以及用户行为数据,筛选得到用于生成用户标签的数据集。
303:根据自定义的用户标签生成规则的方式,配置用户标签值。包括配置用户标签的标签名、标签主题、标签类型等值。
304:存储配置的用户标签值。
上述图3所示标签预测开发流程,虽然标签预测过程比较简单,但该流程须依赖于人工定义标签划分的阈值,质量和效果难以评估。并且,该流程生成用户标签的过程只能用到行为数据特征,因而生成的预测类用户标签能够预测的人群特征也较为单一。
图4示出了另一种标签预测流程示意图。可以理解,图4所示流程各步骤的执行主体,可以是运行在上述开发终端100上的标签开发平台或者标签工厂等软件程序。
如图4所示,该流程包括以下步骤:
401:定义衍生标签的需求逻辑。
其中,衍生标签是指依赖于已有用户标签生成的一种用户标签。以“金融爱好者”为例,对应定义的需求逻辑则可以是对已有标签“信用卡重度依赖用户”与“消费频次高的用户”分别设定权重系数“80%”和“20%”对应确定的规则。
402:执行开发衍生标签的代码语言,配置衍生标签生成方案。其中的代码语言,包括SQL以及一些常用函数、常用逻辑表达式等。
403:基于所配置的标签生成方案,生成衍生标签。
上述图4所示的标签预测流程,虽然能够快速的基于现有用户标签开发出衍生标签,但该流程所实现的标签预测功能比较局限,而且基于该流程实现的用户标签生成逻辑只支持SQL类语句表达、常用函数和逻辑表达式等实现,无法使用高阶算法来生成能够精准预测目标人群的预测类用户标签。也就是说,图4所示流程生成的用户标签对于相应用户群体的行为、习惯等方面的预测分析不够准确。
综上图2至图4所示的3种标签预测方案,目前在生成预测类用户标签的实现方面,仍存在开发工作量大、开发门槛高、实现难度大的问题,并且在使用相同原始用户数据生成预测类用户标签时,开发人员总是进行重复性工作,开发效率也因此较低。
为了解决的上述问题,本申请实施例提供了一种生成用户类预测标签的方法,应用于电子设备。具体地,该方法通过预先设置一个公共的样本数据库,并在该样本数据库中预先存入一些具有相应检索词的用户人群数据作为公共样本数据。如此,开发人员在操作预测目标用户标签人群的过程中,则可以通过基于本申请的人机交互界面输入需要匹配的样本数据检索词、以及需要对检索到的样本人群数据提取的人群特征所对应的特征关键词。相应地,电子设备则可以在预先设置的样本数据库中基于检索词检索出相应的样本人群数据,再对检索出的样本人群数据基于特征关键词提取相应的人群特征数据,并在后台自动训练出能够预测目标用户标签人群的标签预测模型,以用于预测得到目标用户标签人群。
如此,基于本申请实施例提供的方法,能够大大简化开发人员预测目标用户标签人群操作流程,降低了开发相应标签预测模型的技术门槛,减少了开发人员的开发工作量,也因此提高了开发人员的工作效率。
可以理解,开发人员通过人机交互界面输入的样本数据检索词对应检索到的用户人群数据,可以与目标用户标签对应标记的用户人群数据具备一些相同或相近的人群特征数据,而开发人员通过人机交互界面输入的特征关键词可以对应于这些可能相同或相似的人群特征,例如某类人群特征对应的特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值等,以提取相应人群特征数据。其中各特征关键词对应确定的人群特征例如可以包括人口特征、地理特征、设备特征等,对检索出来的样本人群数据提取这些人群特征相应得到的人群特征数据例如可以是对应于人口特征提取的性别数据,比如男性或女性;对应于地理特征提取的城市名称,比如上海、杭州等;以及对应于设备特征提取的设备型号参数,比如Mate30,进而对应于设备特征提取的设备价格区间参数,例如¥3000--¥7000等,在此不做限制。
另外,本申请实施例过提供的方法,还可以通过预先设置一些人工智能(Artificial Intelligence,AI)算法框架,以便于开发人员在基于本申请的人机交互界面上输入样本数据检索词和特征关键词后,能够根据个人经验或者偏好选择用于训练标签预测模型的算法框架。其中,预设的AI算法框架可以包括但不限于:逻辑回归(LogisticRegression,LR)等分类算法;具有噪声的基于密度的聚类方法(Density-Based SpatialClustering of Applications with Noise,DBSCAN)、以及用户分群K-Means算法等聚类算法;以及梯度提升决策树(Gradient Boosting Decision Tree,GBDT)等树模型算法,在此不做赘述。
在此需说明的是,为了便于描述,上述公共的样本数据库在以下描述中简称为公共样本库,上述用于在公共的样本数据库中检索样本数据的检索词在以下描述中称为通用标签。上述用于匹配人群特征项的特征关键词在以下描述中称为通用特征。上述人机交互界面,在以下描述中则称为开发界面。
参考图5a所示,以待生成的目标用户标签是“金融爱好者”为例,开发人员可以在开发终端100显示的开发界面上提供的“投资狂热者”、“个人贷款意向者”、“奢侈品爱好者”等多个通用标签中,选择“个人贷款意向者”对应用户人群数据可以作为训练标签预测模型的样本人群数据。这是因为,“金融爱好者”与“个人贷款意向者”可能具备一些相似的人口特征、地域特征、设备特征等。
进而,开发人员可以在开发界面上选取对应于用户性别的“人口特征”、或对应于用户所在地址的“地域特征”、对应于用户设备使用偏好的“设备特征”等通用特征。开发终端100所运行的标签开发平台便可以基于开发人员的选择,向标签开发平台对应的服务器300发送相应的通用标签配置参数,从服务器端300的公共样本库中匹配出“个人贷款意向者”对应用户人群数据,并对匹配到的用户人群数据配置需要提取的人口特征、地域特征、设备特征等通用特征,便可以进行特征提取形成样本人群特征数据集输入开发人员在开发界面上选择的算法框架,训练得到用于生成“金融爱好者”标签的标签预测模型。进一步地,开发人员便可以操作在相应开发界面上运行所生成的标签预测模型,生成用于预测金融爱好者群体的“金融爱好者”标签。
如此,开发人员仅需通过标签开发平台提供的开发界面上选择训练标签预测模型的通用标签样本人员、待提取的通用特征以及适配的算法框架,便可以实现目标用户标签对应的标签预测模型的一站式生成。大大降低了开发人员操作生成目标用户标签的技术门槛,也能够在一定程度上大大降低开发人员的工作量,提高开发人员的工作效率。
可以理解,上述目标用户标签即是待生成的预测类用户标签。在另一些实施例中,目标用户标签还可以是“旅游爱好者”、“美食爱好者”等等,在此不做限制。
可以理解,标签开发平台运行标签预测模型生成目标用户标签,实际上是生成目标用户标签所对应标记的用户人群数据,该用户人群数据例如可以通过包含这类用户群体数据的人群文件的形式进行保存、读取或使用,例如“金融爱好者”人群文件,在此不做限制。
另外可以理解,若开发人员想要选择的通用标签在公共样本库不存在、或者需要选择的通用特征在通用特征集合中不存在时,开发人员也可以通在开发界面上行创建所需通用标签,以使标签开发平台生成开发人员所需的通用标签并存入公共样本库中供选用,或者操作创建所需的通用特征,以使标签开发平台将开发人员所需的通用特征添加到通用特征集合中供选用。在此不做限制。
可以理解,本申请实施例所提供的生成用户类预测标签的方法,所适用的电子设备包括但不限于手机、平板电脑、桌面型、膝上型、手持计算机、上网本,以及增强现实(Augmented Reality,AR)\虚拟现实(Virtual Reality,VR)设备、智能电视、智能手表等可穿戴设备、服务器、移动电子邮件设备、车机设备、便携式游戏机、便携式音乐播放器、阅读器设备、其中嵌入或耦接有一个或多个处理器的电视机、或能够访问网络的其他电子设备。
基于上述图5a所示场景,图5b根据本申请实施例示出了一种标签开发平台的软件结构示意图。可以理解,图5b所示的标签开发平台500的各部分结构之间交互,可以实施本申请实施例所提供的标签预测方法。
如图5b所示,标签开发平台500可以包括界面配置模块510、公共样本库调度模块520、通用特征调度模块530、算法调度模块540。其中,标签开发平台500的各模块功能具体为:
界面配置模块510,用于响应于开发人员在开发界面上选择用于生成目标用户标签的正负样本、通用特征、算法框架以及匹配调度策略等操作,确定相应的配置参数,对应发送给公共样本库调度模块520、通用特征调度模块530或者算法调度模块540执行相应调度处理。界面配置模块510例如可以将响应于开发人员操作确定的配置参数生成相应的配置文件,发送给其他模块,在此不做限制。
公共样本库调度模块520,用于根据界面配置模块510发来的对应于所选正负样本的配置参数,从公共样本库中选取相应的样本集合,该样本集合中包括开发人员在开发界面上选择的正负样本对应的用户人群数据。公共样本库调度模块520可以将选取出来的样本集合发送给通用特征调度模块530,以匹配待提取的通用特征并进行特征数据提取。
通用特征调度模块530,用于根据界面配置模块510发来的对应于所选通用特征的配置参数,对公共样本库调度模块520发来的样本人群数据匹配待提取的通用特征,并进行特征数据提取,进而生成用于训练用户标签预测模型的样本人群特征数据集。通用特征调度模块530可以将生成的样本人群特征数据集,进一步发送给算法调度模块540,以用于训练用户标签预测模型。
算法调度模块540,在图5所示的模型训练阶段,用于读取通用特征调度模块530生成的特征数据集、以及界面配置模块510发来的对应于所选算法框架的配置参数,运行相应算法框架对特征数据集进行训练,该训练过程例如可以是基于用户分群算法,不断调整的正样本数据中各通用标签对应人群所具有的各项人群特征分别对应的权重参数,以得到目标用户标签对应人群作为相应的用户标签预测结果。当训练结果达到预设的收敛条件时,算法调度模块540则可以生成目标用户标签对应的标签预测模型文件并保存。
在图5b所示的标签预测阶段,算法调度模块540则用于读取已训练的标签预测模型文件,执行该预测模型文件中固化的分类算法,从而预测生成目标用户标签对应标记的人群文件。
结合上述图5a所示的场景,可以理解,在一些实施例中,标签开发平台的部分模块可以运行在开发终端100上,例如用于提供开发界面的前端软件模块,比如上述图5b所示的标签开发平台500的界面配置模块510;标签开发平台的另一部分模块可以运行在服务器上,例如用于提供样本数据、特征数据以及算法框架等的后端软件模块,比如上述图5b所示的标签开发平台500的公共样本库调度模块520、通用特征调度模块530、算法调度模块540。在另一些实施例中,标签开发平台500的各模块也可以全部运行在开发终端100上或者服务器300上,在此不做限制。
可以理解,本申请实施例示意的结构并不构成对标签开发平台500的具体限定。在另一些实施例中,标签开发平台500可以包括比图5b所示更多或更少的结构,或者组合某些模块的功能,或者拆分某些模块的功能等,在此不做限制。
基于图5b所示的标签开发平台500的结构,图6根据本申请实施例示出了一种标签预测方法的实施流程示意图。
如图6所示,该实施流程的执行主体例如可以是运行上述图5b所示的标签开发平台500。
具体地,该流程可以包括以下步骤:
601:匹配用于训练标签预测模型的正负样本数据。
示例性地,标签开发平台500可以响应于开发人员在开发界面上选择用户人群数据的操作,确定用于训练目标用户标签对应预测模型的样本配置方案,进而根据该样本配置方案,从预设的公共样本库中获取匹配的用户人群数据作为正负样本数据。
作为示例,以“金融爱好者”为例,开发人员在开发界面上能够选择的用户人群数据,可以预先存储在预设的公共样本库中,例如开发人员选择“金融爱好者”、“个人贷款意向者”这两个标签人群作为训练“金融爱好者”这一用户标签预测模型的用户人群数据,则标签开发平台500可以从公共样本库中匹配“金融爱好者”、“个人贷款意向者”对应的用户人群数据,作为训练预测模型的正样本数据。其中,公共样本库中已有的“金融爱好者”可能是一个不太理想的用户标签,例如已有的“金融爱好者”标签可能所覆盖的人群范围较小等。
相应地,训练预测模型的负样本数据,可以是从公共样本库中随机获取的与正样本数据等量的用户人群数据。
具体开发人员在标签开发平台500所提供的开发界面上选择样本数据的过程、以及标签开发平台500响应于用户操作匹配样本数据的过程,可以参考下文图7所示交互流程中步骤701至702的详细描述,在此不做赘述。
602:确定特征配置方案,对匹配到的正负样本数据提取配置的通用特征,得到特征数据集。
示例性地,标签开发平台500可以响应于开发人员在开发界面上对通用特征配置相关参数选项的操作,确定相应的人群特征配置方案,进而根据该人群特征配置方案,对在上述步骤601中匹配到的正负样本用户人群数据配置待提取的通用特征参数,进而得到相应的特征数据集。
可以理解,开发人员在开发界面上配置相关参数的通用特征,可以是标签开发平台500基于预设的通用特征集合以及基础特征工程设置,默认显示的通用特征,也可以是开发人员根据目标用户标签的需求选定的通用特征,在此不做限制。开发人员在开发界面上配置相关参数的通用特征,例如可以是“人口特征”、“地理特征”、“应用特征”等。
具体开发人员在标签开发平台500所提供的开发界面上配置通用特征的相关参数的过程、以及标签开发平台500响应于开发人员的操作,确定人群特征配置方案并进行为样本数据配置待提取特征参数的过程,可以参考下文图7所示交互流程中步骤701至702的详细描述,在此不做赘述。
603:匹配用于训练标签预测模型的算法框架,并获取相关配置参数。
示例性地,标签开发平台500可以响应于开发人员在开发界面上选择算法框架的操作,匹配相应的算法框架。
可以理解,开发人员在开发界面上能够选择的算法框架,可以预先配置在标签开发平台500的AI算法框架中。开发人员可选的算法框架对应的算法来源例如可以包括“预置算法”、“机器学习”算法模型、以及“深度学习”算法模型等,开发人员也可以在开发界面上添加的一些自定义算法,在此不做限制。开发人员还可以在对应的算法框架中选择具体的算法框架名称、版本号等。在另一些实施例中,上述“机器学习”算法模型以及“深度学习”算法模型例如也可以是一些训练好的基础神经网络模型等,在此不做限制。
开发人员在开发界面上选择算法框架时,可以设置本次训练任务的任务名以及算法运行的一些参数配置,例如设置待训练的特征数据集中各项人群特征的初始权重参数等;还可以对即将训练的用户标签预测模型配置相关参数,例如设置模型名称等。具体开发人员在标签开发平台500所提供的开发界面上选择算法框架的过程、以及为所选择的算法框架配置相关参数的过程,可以参考下文图7所示交互流程中步骤704至707的详细描述,在此不做赘述。
604:根据提取得到的特征数据集以及匹配到的算法框架,训练目标用户标签预测模型。
示例性地,标签开发平台500可以将执行上述步骤602提取得到的特征数据集,输入执行上述步骤603匹配到的算法框架,并根据执行上述步骤603获取到的对相应算法框架配置的相关参数,利用特征数据集训练目标用户标签的预测模型。
该训练预测模型的过程可以如下所述:计算特征数据集中满足目标用户标签对应的人群特征的人群数量,并与预设的收敛条件,例如预设的目标数量进行比较,若不匹配,标签开发平台500则可以调整算法中对应于特征数据集中各项人群特征的权重参数等,继续训练;若匹配,即输出符合目标数量的目标用户标签人群时,则标签开发平台500可以停止训练,保存训练好的标签预测模型文件。标签开发平台500可以基于上述步骤603中获取的关于该标签预测模型的相关配置参数,命名训练好的标签预测模型文件。
可以理解,本步骤训练得到的标签预测模型可以是固定了相关参数的算法模型或者神经网络模型,在此不做限制。具体标签开发平台500训练标签预测模型的过程以及相关界面,可以参考下文图7所示交互流程中步骤708至709的详细描述,在此不做赘述。
605:配置完成训练的标签预测模型的运行参数。
示例性地,标签开发平台500可以响应于开发人员在开发界面上的设置操作,调用训练好的标签预测模型文件,配置相应的模型运行参数。该运行参数例如包括开发人员设置的模型运行方式,比如单次触发运行、或是在指定时间定期运行等。在此不做限制。
具体开发人员在开发界面上设置模型运行参数的相关界面以及具体过程,可以参考下文图7所示交互流程中步骤710至711的详细描述,在此不做赘述。
606:基于所配置的运行参数运行标签预测模型,生成目标用户标签。
示例性地,标签开发平台500可以响应于开发人员运行标签预测模型的操作,运行上述标签预测模型;也可以根据预设的模型运行时间或其他运行参数,在指定时间运行上述标签预测模型,以生成目标用户标签,即生成目标用户标签所对应的人群文件。可以理解,标签开发平台500可以基于设定的运行参数,对服务器上的全量用户人群数据输入标签预测模型进行人群分类预测,以预测得到一类用户群体的描述,即目标用户标签,相应地预测结果可以相应的人群文件发送给目标用户标签的需求方。该需求方例如可以是以营销为目的需要获取目标用户群体的企业、或者金融/电商运营平台等,在此不做限制。
具体基于训练得到的标签预测模型生成目标用户标签的过程,可以参考下文图12以及图15所示流程及详细描述,在此不做赘述。
基于上述的图6所示的实施流程,下面以目标用户标签为“金融爱好者”为例,详细介绍在本申请实施例提供的标签预测方法的实施过程中,标签开发平台500中各模块之间的具体交互过程。可以理解,在另一些实施例中,基于本申请实施例所提供的生成用户类预测标签的方法,还可以生成“旅游爱好者”、“美食爱好者”等预测类用户标签,在此不做限制。
图7根据本申请实施例示出了一种交互流程示意图。该交互流程所涉及的交互主体分别为上述图5b所示标签开发平台500的界面配置模块510、公共样本库调度模块520、通用特征调度模块530、算法调度模块540。
如图7所示,该交互流程包括以下步骤:
701:界面配置模块510向公共样本库调度模块520发送获取到的样本配置方案。
示例性地,基于目标用户标签为“金融爱好者”,因此用于训练该用户标签的正样本人群可以定义为“金融爱好者”,相应的负样本人群可以定义为“非金融爱好者”。作为示例,开发人员可以在标签开发平台500提供的开发界面上选择正负样本人群配置方案。相应地,标签开发平台500可以基于界面配置模块510响应于开发人员在开发界面上的配置输入操作,获取相应的样本配置方案。界面配置模块510获取到的样本配置方案,可以发送给标签开发平台500的公共样本库调度模块520,以调度获取所需的样本人群数据。
图8根据本申请实施例提供了一种供开发人员选择样本人群配置方案的界面示意图。
如图8所示,开发人员可以在选择样本对应的开发界面810上进行选择样本的相关操作,此时开发界面810显示的创建流程811下方可以显示“选择样本”阶段。开发界面810上可以显示正样本选择区域820和负样本选择区域830。正样本选择区域820可以显示预设的公共样本库中已有可以作为正样本人群的用户标签所属类目821,包括图8所示的“全部”、“游戏”、“金融”、“家装”、“美妆”、“电商”、“旅游”等。其中,预设的公共样本库中已有用户标签,例如可以是已开发的用户标签或者预设的通用标签,在此不做限制。
参考图8所示,开发人员可以在正样本选择区域820的所属类目821中选择“金融”,并在对应“金融”类目显示的样本人群列表中勾选正样本人群,开发人员例如可以选择包含样本数量15000的已有“金融爱好者”822、以及包含样本数量5000的“个人贷款意向者”823作为训练目标用户标签“金融爱好者”的正样本人群。相应的,开发人员可以在开发界面810上显示的负样本选择区域830中,设置负样本选择框831的样本人群配置方案为“排除正样本/随机抽样”,并设置负样本数量框832的样本数量为20000,即与正样本选择区域820内所选正样本人群的数量对应相等。在另一些实施例中也可以设置负样本选择框831的样本人群配置方案为“排除正样本/自定义抽样”等,在此不做限制。
开发人员在开发界面810正负样本选择操作后,可以点击图8所示开发界面810上的“下一步”812,进入下一个创建流程对应的开发界面继续操作。具体将在下文详细描述,在此不做限制。可以理解,开发人员也可以点击开发界面810上的“上一步”813返回上一个界面,例如可以返回标签开发平台500的起始界面。开发人员还可以点击开发界面810上的“保存设置”814将当前界面上已完成选择配置的部分暂存,在此不做限制。
702:公共样本库调度模块520根据样本配置方案,获取样本数据。
示例性地,公共样本库调度模块520可以根据接收到的样本配置方案,从预设的公共样本库中获取用于训练目标用户标签“金融爱好者”的正负样本所对应的用户人群数据。
作为示例,参考上述图8所示,开发人员在开发界面810上点击“下一步”812,进而标签开发平台500的公共样本库调度模块520便可以从公共样本库内选取包括“金融爱好者”人群和“个人贷款意向者”人群在内的用户人群数据作为正样本数据,并通过对应于“排除正样本/随机抽样”配置方案的随机抽样方法,在排除正样本的所有用户中随机抽取20000人作为负样本。公共样本库调度模块520还可以进一步所获取样本数据对应用户id将正样本标记为1、对应用户id将负样本标记为0。公共样本库调度模块520可以将正负样本人群的用户id、以及正负样本标记形成样本数据配置文件进行记录并存储,该样本数据配置文件记录的内容可以参考下述表1所示;
用户id | 正负样本标记 |
7381203748 | 1 |
9378014190 | 0 |
91203874033 | 0 |
17348037484 | 1 |
73901824 | 1 |
表1正负样本数据
可以理解,在另一些实施例中,公共样本库调度模块520对基于样本配置方案获取的样本人群数据添加正负样本标记后存储的样本数据配置文件,也可以使用不同于上述表1所示样式的其他样式记录获取到的正负样本数据,在此不做限制。
703:公共样本库调度模块520向通用特征调度模块530发送获取到的样本人群数据。
示例性地,公共样本库调度模块520可以将基于获取到的正负样本数据完成标记正负样本后形成的样本数据配置文件,发送给通用特征调度模块530,以进一步为样本数据匹配待提取的人群特征,即通用特征,并进行特征数据提取。
704:界面配置模块510向通用特征调度模块530发送获取到的特征配置方案。
示例性地,开发人员可以在标签开发平台500提供的开发界面上对应目标用户标签为“金融爱好者”配置特征工程方案,即设置对应于该目标用户标签的特征配置方案。例如,开发人员从逻辑上考虑,若认为“金融爱好者”中男性居多,则可以在配置特征工程方案时,设置性别特征为男性来生成用户标签。若认为一线城市和二线城市的“金融爱好者”比例较大,则可以设置地域特征为一线城市或二线城市中的一些城市来生成用户标签等。相应地,标签开发平台500可以基于界面配置模块510响应于开发人员在开发界面上的配置输入操作,获取相应的特征配置方案。界面配置模块510进而可以将获取到的样本配置方案发送给标签开发平台500的特征调度模块530,以对样本数据进行相应特征配置。在另一些实施例中,界面配置模块510也可以将响应于开发人员操作产生的相应请求发送给通用特征调度模块530,以供通用特征调度模块530形成相应的特征配置方案,在此不做限制。
图9根据本申请实施例示出了一种供开发人员配置特征工程方案的界面示意图。
如图9所示的“特征工程”对应的开发界面910,开发人员例如认为用户是否是“金融爱好者”,与用户的性别、常驻地、所使用的手机等电子设备价格、设备型号以及使用一些应用程序的行为等方面特征有一定的关系。因此,开发人员可以在开发界面910上分别设置人口特征911、地理特征912、设备价格913、设备型号914以及应用特征915等通用特征对应的配置选项,以确定相应特征配置方案来训练“金融爱好者”标签模型。参考图9所示,例如开发人员可以将人口特征911配置为“男性”、地理特征912配置为“浙江省/杭州市/西湖区”、设备价格913配置为“¥3000--¥7000”、设备型号914配置为“Mate30/Mate40/P20Pro”、以及应用特征915配置为“近7天使用过应用1/应用2”等,其中应用1/应用2例如可以是一些金融类应用程序或者支付类应用程度等,在此不做限制。
在另一些实施例中,标签开发平台500所提供的特征工程对应的开发界面也可以是不同于图9所示的其他样式,在此不做限制。开发人员完成在开发界面910上配置特征工程方案后,可以点击开发界面910上的“下一步”916,以确认基于配置的通用特征并进行特征提取、以及选择适用算法等。具体将在下文详细描述,在此不做限制。
705:通用特征调度模块530根据特征配置方案,对样本数据进行特征数据提取,进而生成样本人群特征数据集。
示例性地,标签开发平台500的通用特征调度模块530可以根据上述步骤703接收到的样本人群数据、以及上述步骤704获取的特征配置方案,将样本数据与特征配置方案中相应特征项进行匹配连接,即提取的样本人群数据中对应于特征匹配方案的相应特征数据,进而得到所选样本人群对应的特征数据集。该特征数据集对应的文件内容例如可以参考下述表2所示形式。参考下述表2所示,“gender”可以表示样本的性别特征,1代表相应样本数据中记录的用户性别为男性,0表示女性;“residence”可以表示相应样本数据中记录的地理特征,即常驻地;“device”可以表示相应样本数据中记录的设备型号;“device_price”可以表示相应样本数据中记录的设备价格。
用户id | 正负样本标识 | gender | residence | device | device_price |
7381203748 | 1 | 0 | 浙江省/杭州市/西湖区 | MATE40 | 5000~8000 |
9378014190 | 0 | 1 | 江苏省/南京市 | ||
91203874033 | 0 | 北京市 | P40 | 5000~8000 | |
17348037484 | 1 | 0 | 重庆市/渝中区 | NOVA7 | 3000~5000 |
73901824 | 1 | 1 | XT | 1000~3000 |
表2样本人群特征数据集
可以理解,标签开发平台500获取到的样本人群数据,可能会由于原始数据采集不全面、或者在后期进行数据过滤等处理加工过程中不严谨等,导致样本数据中一些特征数据的缺失,参考上述表2所示的部分缺失值,例如用户id为“9378014190”对应的设备型号“device”的值、用户id为“91203874033”对应的性别“gender”的值、以及用户id为“73901824”对应的“residence”的值是缺失的。对于表2所示的缺失值,通用特征调度模块530可以进一步执行下述步骤706进行处理。
706:通用特征调度模块530对提取得到的样本人群特征数据集中的缺失值进行补全。
示例性地,通用特征调度模块530可以统计所有样本数据中该特征出现次数最多的值,作为对应样本数据中相应特征缺失值的补全值。可以理解,样本数据中某一特征数据的缺失值可能会降低到标签预测模型的预测能力以及泛化能力,因此,需要对缺失值进行补全。
补全缺失值后的样本人群特征数据集对应的文件内容可以参考下表3所示。
用户id | 正负样本标识 | gender | residence | device | device_price |
7381203748 | 1 | 0 | 浙江省/杭州市/西湖区 | MATE40 | 5000~8000 |
9378014190 | 0 | 1 | 江苏省/南京市 | NOVA7 | 3000~5000 |
91203874033 | 0 | 1 | 北京市 | P40 | 5000~8000 |
17348037484 | 1 | 0 | 重庆市/渝中区 | NOVA7 | 3000~5000 |
73901824 | 1 | 1 | 重庆市 | XT | 1000~3000 |
表3补全缺失值后的样本人群特征数据集
可以理解,补全缺失值后样本人群特征数据集,则可以用于训练标签预测模型的文件。另外可以理解,如果提取得到的样本人群特征数据集中不存在特征数据缺失,则标签开发平台500中的通用特征调度模块530无需执行本步骤706。
707:通用特征调度模块530向算法调度模块540发送补全后的样本人群特征数据集。
示例性地,通用特征调度模块530完成对样本数据提取特征、以及补全相应特征数据集中的缺失值后,可以将能够用于训练标签预测模型的特征数据集发送给算法调度模块540。在另一些实施例中,标签开发平台500中的算法调度模块540也可以读取上述步骤706中通用特征调度模块530补全并存储的样本人群特征数据集,作为执行算法训练标签预测的训练数据。
708:界面配置模块510向算法调度模块540发送获取到的算法配置方案。
示例性地,开发人员可以在标签开发平台500提供的开发界面上选择用于训练标签预测模型的算法框架,还可以在开发界面上设置本次模型训练任务的任务名称、以及训练得到的标签预测模型的模型名称等,在此不做限制。界面配置模块510响应于开发人员在相应开发界面上选择算法框架、设置任务名称、模型名称等操作,可以形成相应的算法配置方案,发送给算法调度模块540。在另一些实施例中,界面配置模块510也可以将响应于开发人员操作产生的相应请求发送给算法调度模块540,以供算法调度模块540形成算法配置方案,在此不做限制。
作为示例,以待生成的目标用户标签为“金融爱好者”为例,开发人员分析到该标签主要涉及机器学习领域的二分类问题,则可以选择GBDT机器学习模型,利用弱分类器迭代训练以训练得到最优的标签预测模型,从而实现“金融爱好者”人群的预测。
具体地,参考图10所示,开发人员可以在开发界面010中的“算法来源”011的选项中选择“机器学习”选项,并在“常用框架”012对应的选择框中选择LightGBM作为实现GBDT算法的框架,还可以进一步选择该算法框架的版本号“LigntGBM-3.2.1”,在此不做限制。进一步地,开发人员可以在开发界面010中的“参数配置”013对应的输入框中设置相关参数,具体设置的参数内容可以参考图10所示,在此不做赘述。可以理解,开发人员所选择的算法框架,可以是公共资源池或专属资源池提供的算法框架,开发人员只需在图10所示的界面上选择存放所需算法框架的相应资源池即可,例如选择“专属资源池”。
继续参考图10所示,开发人员还可以在开发界面010中的“任务名称”014对应的输入框中输入“finance_label_model”,作为本次模型训练任务的任务名称;在“模型名称”015对应的输入框中输入“lgbm_finance.pb”,作为本次训练得到的标签预测模型的模型名称。可以理解,在另一些实施例中,开发人员所设置的任务名称、模型名称等也可以为其他,开发人员还可以在一些开发界面010中设置该标签预测模型对应用户标签的标签名称,例如设置为“ads_finance_lover_dev_ds”,在此不做赘述。
可以理解,开发人员在图10所示的开发界面010上完成相应设置后,可以点击“启动”控件016开始模型训练,此时标签开发平台500可以继续执行下述步骤709至711以完成模型训练。开发人员也可以点击开发界面010上的“保存”017保存当前设置,或者点击“返回”018返回上一个创建流程对应的开发界面,例如上述图9所示的开发界面910。
709:算法调度模块540根据算法配置方案,匹配算法框架,生成模型训练配置文件。
示例性地,算法调度模块540可以根据上述步骤708中接收到的算法配置方案和相关配置参数、以及上述步骤707中接收到的样本人群特征数据集,匹配相应的算法框架并完成相关参数的设置,进而生成执行模型训练的配置文件。
作为示例,在本申请实施例中,基于上述步骤708中图10所示的开发界面010上的设置内容,算法调度模块540执行本步骤所生成的模型训练配置文件例如可以命名为“finance_label_model”,该配置文件中的“model_name”表示要训练并保存的模型名称,例如可以命名为“lgbm_finance.pb”;“features”为模型训练和预测需要的特征数据集中的各项人群特征,例如可以包含上述表3中示例的gender、residence、device、device_price等特征项,在此不做限制。
可以理解,算法调度模块540执行本步骤所生成的模型训练配置文件,可以是可执行的代码段或脚本文件,在此不做限制。
710:算法调度模块540运行模型训练配置文件,启动模型训练。
示例性地,算法调度模块540可以运行上述步骤709中生成的模型训练配置文件,基于上述步骤707中接收的样本人群特征数据集中的数据进行模型训练,进而训练得到对应于“金融爱好者”的标签预测模型。
711:算法调度模块540保存训练得到的标签预测模型文件。
示例性地,算法调度模块540执行完上述步骤710完成模型训练得到目标用户标签对应的标签预测模型后,可以保存训练得到的标签预测模型文件。可以理解,算法调度模块540可以响应于界面配置模块510接收到的保存操作指令,保存训练得到的模型文件,也可以基于默认保存的设置,保存训练得到的模型文件,在此不做限制。可选地,算法调度模块540可以在上述步骤709或者执行本步骤711后保存模型训练配置文件,例如将模型配置文件finance_label_model保存到算法调度模块540对应的本地存储空间,以用于在下一次训练类似于“金融爱好者”的其他目标用户标签时调用,在此不做限制。
作为示例,开发人员在上述图10所示的开发界面010上点击“启动”控件016开始模型训练之后,算法调度模块540执行完上述步骤710完成模型训练得到目标用户标签对应的标签预测模型后,标签开发平台500基于界面配置模块510可以进一步显示图11所示的开发完成界面111。开发人员可以在图11所示的开发完成界面111上点击“保存模型”112,保存训练得到的标签预测模型文件,例如,将训练好的模型文件lgbm_finance.pb保存到算法调度模块540对应的本地存储空间。
可选地,开发人员也可以在图11所示的开发完成界面111上选择“运行模型”113,运行训练得到的标签预测模型文件,具体运行标签预测模型文件预测生成目标用户标签的过程,将在下文详细描述,在此不做赘述。
可以理解,基于上述步骤701至711,标签开发平台500可以完成“金融爱好者”对应的标签预测模型的训练过程。
在完成标签预测模型的训练之后,标签开发平台500则可以运行训练得到的标签预测模型,对平台上的全部活跃用户预测用户标签,识别出全部活跃用户中的“金融爱好者”人群,以用于实现营销、广告、人群洞察和产品优化等市场需求。
可以理解,上述图7所示流程训练得到的标签预测模型,可以基于设定的频率运行完成预测。例如,当待生成的目标用户标签只需要满足一次性使用需求时,可以设定基于该标签预测模型执行单次预测;当待生成的目标用户标签需要满足长期使用需求时,由于“金融爱好者”人群具有时效性,当前生成的“金融爱好者”中部分人群可能在一段时间例如两周后,会转变为“非金融爱好者”,因此可以设定基于该标签预测模型执行周期性预测。作为示例,以下将具体介绍基于训练得到的标签预测模型执行单次预测或周期性预测,生成目标用户标签的过程。
图12根据本申请实施例示出了一种单次运行标签预测模型生成目标用户标签的预测流程示意图。如图12所示,生成目标用户标签的预测流程涉及标签生成平台500中界面配置模块510、通用特征调度模块530以及算法调度模块540之间的交互。
具体地,该流程包括以下步骤:
1201:界面配置模块510向算法调度模块540发送对应于标签预测模型文件的调度信息。其中该调度信息可以包括待运行的标签预测模型文件对应的标签名称、任务名称、模型名称等。
示例性地,标签开发平台500可以响应于开发人员在运行标签预测模型的相应界面中的输入操作,该输入操作例如包括输入待运行的标签预测模型的标签名称、对应训练该标签预测模型的任务名称以及该标签预测模型的模型名称中的一项或多项,获取相应名称输入内容。
参考图13所示,开发人员可以在标签开发平台500提供的调度配置界面1300显示的“标签名称”对应的输入框1301中输入“ads_finance_lover_dev_ds”、在“任务名称”对应的输入框1302中输入“finance_label_model”、在模型名称对应的输入框1303中输入“lgbm_finance.pb”。完成输入后,开发人员可以进一步点击“执行预测”1304,运行所调度的标签预测模型执行预测。可以理解,开发人员也可以点击“取消预测”1305取消本次调度操作。在此不做限制。
1202:算法调度模块540基于接收到的调度信息,向通用特征调度模块530获取预测基础数据。
示例性地,参考图14所示,算法调度模块540可以根据任务名称例如是“finance_label_model”,匹配已存储的模型训练配置文件,并读取该配置文件中配置的各通用特征的参数值,包括gender、residence、device、device_price等参数值。进而,算法调度模块540可以读取通用特征调度模块530中预先提取的全量活跃用户的gender、residence、device、device_price等特征数据作为用于预测目标用户标签的预测基础数据。
1203:算法调度模块540基于接收到的调度信息,匹配并运行标签预测模型文件,生成目标用户标签人群文件。
示例性地,继续参考图14所示,算法调度模块540可以根据模型名称例如“lgbm_finance.pb”,匹配已存储的标签预测模型文件,并运行该模型文件,对上述步骤1202中匹配到的预测基础数据执行预测,从而得到目标用户标签“金融爱好者”人群文件。
预测得到的人群文件例如可以命名为ads_finance_lover_dev_ds,并可以存储在算法调度模块540的本地存储空间,该人群文件的内容可以为所有预测为“金融爱好者”的用户id等,例如图14所示的“h3092hq223499”、“3989034h1f03”、“f934902334431”、“r439t239t4532480”等。
可以理解,在另一些实施例中,基于算法调度模块540中存储的模型训练配置文件以及标签预测模型文件,可以对运行标签开发平台500的服务器300上的全量用户人群数据进行人群分类预测,以得到满足客户需求的目标用户标签人群,即目标人群,以及存储目标人群对应的人群数据的人群文件。相应地,可以在执行上述图7所示的标签预测模型训练之前,在对应于标签开发平台500预设的公共样本库中,预先存入从原始用户数据中提取数据生成的一些通用标签,以用于供标签开发平台500的公共样本库调度模块520调度获取样本数据。
图15根据本申请实施例示出了一种周期性运行标签预测模型生成目标用户标签的预测流程示意图。如图15所示,与上述图12所示流程类似地,该流程涉及标签生成平台500中界面配置模块510、通用特征调度模块530以及算法调度模块540之间的交互。
具体地,该流程包括以下步骤:
1501:界面配置模块510向算法调度模块540发送对应于标签预测模型文件的调度信息。其中该调度信息可以包括待运行的标签预测模型文件对应的标签名称、任务名称、模型名称,以及相应配置的预测周期参数等。
示例性地,标签开发平台500可以响应于开发人员在运行标签预测模型的相应界面中的输入操作,该输入操作例如包括输入待运行的标签预测模型的标签名称、对应训练该标签预测模型的任务名称以及该标签预测模型的模型名称中的一项或多项,获取相应名称输入内容。对于需要周期性预测的目标用户标签,标签开发平台500还可以响应于开发人员在运行标签预测模型的相应界面中设置标签预测模型的运行周期等参数的操作,获取相应配置的预测周期参数等。
参考图16所示,开发人员可以在标签开发平台500提供的调度配置界面1600输入标签名称“ads_finance_lover_dev_ds”、任务名称“finance_label_model”、以及模型名称“lgbm_finance.pb”,该输入过程可以参考上述图13所示及相关描述。开发人员还可以在调度配置界面1600显示的“调度周期”1601的相关参数输入框中设置调度周期相关参数,例如图16所示的执行频率设定为“周”、执行时间设定为“周日”、周期长度设定为“1”、失败重试次数设定为“3”、超时时间设定为“600分钟”、周期顺序依赖设定为“否”等,在此不做限制。完成输入后,开发人员可以点击“执行预测”1602,运行所调度的标签预测模型执行预测。可以理解,开发人员也可以点击“取消预测”1603取消本次调度操作。在此不做限制。
1502:算法调度模块540基于接收到的调度信息,向通用特征调度模块530获取预测基础数据。
本步骤执行过程可以参考上述步骤1202中相关描述,在此不做赘述。
1503:算法调度模块540基于接收到的调度信息,匹配并运行标签预测模型文件,生成目标用户标签人群文件。
具体预测过程可以参考上述步骤1203中相关描述,在此不做赘述。
在周期性执行预测的过程中,执行本步骤1503生成“金融爱好者”人群文件例如可以命名为ads_finance_lover_dev_ds_${date(yyyyMMdd)},其中${date(yyyyMMdd)}例如可以是形如20210711的时间表示形式,在此不做限制。每个周期预测得到的人群文件内容一样可以为所有预测为“金融爱好者”的用户id等,参考上述图14所示的“h3092hq223499”、“3989034h1f03”、“f934902334431”、“r439t239t4532480”等,在此不做限制。
可以理解,预测类用户标签“金融爱好者”对应的人群文件预测得到后,若为实现营销、广告、人群洞察和产品优化等市场需求,需要用到“金融爱好者”人群时,则可以直接读取上述步骤1203预测生成的命名为ads_finance_lover_dev_ds的人群文件、或者上述步骤1503预测生成的命名为ads_finance_lover_dev_ds_${date(yyyyMMdd)}的人群文件使用。
可以理解,本申请实施例所提供的标签预测方法,对于从事用户画像设计等方面工作的开发人员来说,能够大大方便开发人员的操作,降低生成预测类用户标签实现标签预测的技术门槛,并且有利于提高用户标签开发效率,增强各开发人员之间的共享与合作。例如,在生成“金融爱好者”等预测类用户标签的过程中,开发人员能够充分利用预设的通用特征集合和公共样本库中已有的适合金融爱好者标签的特征数据和样本数据,有效避免了样本选取和特征选择等方面的重复性工作。利用标签开发平台500中预置的算法框架,开发人员只需适应性的进行参数配置后便可执行模型训练,并且在完成模型训练的过程中还能够实现算法性能调优。另外,标签开发平台500可以提供便于开发人员操作的开发界面,有利于提高工作效率,例如生成“爱好者标签”的开发时间甚至可以由一周缩短至一天等。
对于需要基于预测类用户标签对应标记的人群实现营销、广告、人群洞察和产品优化等目的的企业或平台客户来说,基于本申请实施例所提供的标签预测方法提供的标签开发平台500能够实现快速建模,得到相应的能够用于分析客户产品受众人群的标签预测模型文件。进而,客户则可以直接使用该模型文件对原始用户数据群体进行预测及分类,而无需客户另行投入资源开发用于生成用户标签的标签开发平台或用户画像品台等。
另外,可以理解,本申请实施例基于上述图6至图16提供的标签预测方法,相比于上述图3所示开发流程,本申请实施例基于预设的通用特征集合可供开发人员快速选取人口特征、地理特征、设备特征等多种通用特征,因此实现的特征多样化有助于提高所生成的预测类用户标签对应标签预测模型以及预测得到的人群文件的准确率。并且,本申请实例通过预设的机器学习模型等成熟算法模型执行标签预测模型的训练,而非人为地输入分类阈值标准,生成的预测类用户标签所对应的预测效果更加客观、准确。
以下结合附图,示例性地介绍电子设备600和网络设备700的结构。在本申请的一些实施例中,电子设备600可以是上述运行标签开发平台500的开发终端100。
在另一些实施例中,电子设备600还可以是上述采集原始用户数据的用户终端200。
在一些实施例中,网络设备700可以是上述服务器300。
在另一些实施例中,网络设备700也可以是云服务。
图17示出了一种电子设备600的结构示意图。
如图17所示,电子设备600可以包括处理器110,外部存储器接口120,内部存储器121,USB接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备600的具体限定。在本申请另一些实施例中,电子设备600可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备600的结构限定。在本申请另一些实施例中,电子设备600也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备600的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备600的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备600中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备600上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备600上的包括WLAN(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(Bluetooth,BT),全球导航卫星系统(globalnavigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备600的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备600可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备600通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),MiniLED,MicroLED,Micro-OLED,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备600可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备600可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备600可以包括1个或N个摄像头193,N为大于1的正整数。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备600的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备600使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备600的各种功能应用以及数据处理。
电子设备600可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备600可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备600接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备600可以设置至少一个麦克风170C。在另一些实施例中,电子设备600可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备600还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备600根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备600根据压力传感器180A检测所述触摸操作强度。电子设备600也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备600的表面,与显示屏194所处的位置不同。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备600可以接收按键输入,产生与电子设备600的用户设置以及功能控制有关的键信号输入。
图18示例性示出了一种网络设备700的结构示意图。
如图18所示,网络设备700可以包括一个或多个处理器211、通信接口212、存储器213,其中处理器211、通信接口212、存储器213可通过总线或者其它方式连接,本申请实施例以通过总线214连接为例。其中:
处理器211可以由一个或者多个通用处理器构成,例如CPU。处理器211可用于运行设备控制方法的相关的程序代码。
通信接口212可以为有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口),用于与其他节点进行通信。本申请实施例中,通信接口212具体可用于与电子设备600进行通信。
存储器213可以包括易失性存储器(volatile memory),例如RAM;存储器也可以包括非易失性存储器(non-vlatile memory),例如ROM、快闪存储器(flash memory)、HDD或固态硬盘SSD。存储器213还可以包括上述种类的存储器的组合。存储器213可用于存储一组程序代码,以便于处理器211调用存储器213中存储的程序代码以实现本申请实施例的在服务器的实现方法。在本申请实施例中,存储器213还可以是存储阵列,等等。
在一些实施例中,网络设备700可以包括多个服务器,例如,网页服务器、后台服务器、下载服务器等,这多个服务器的硬件结构都可参照图18所示的网络设备700的硬件结构。
需要说明的,图18所示的网络设备700仅仅是本申请实施例的一种实现方式,实际应用中,网络设备700还可以包括更多或更少的部件,这里不作限制。
本申请实施例还提供一种装置,该装置包含在电子设备中,该装置具有实现上述实施例中任一方法中电子设备行为的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括至少一个与上述功能相对应的模块或单元。例如,检测模块或单元、显示模块或单元、确定模块或单元、以及计算模块或单元等。
本申请实施例还提供一种计算机存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如上述实施例中任一方法。
本申请实施例还提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如上述实施例中任一方法。
本申请实施例还提供一种电子设备上的图形用户界面,所述电子设备具有显示屏、摄像头、存储器、以及一个或多个处理器,所述一个或多个处理器用于执行存储在所述存储器中的一个或多个计算机程序,所述图形用户界面包括所述电子设备执行如上述实施例中任一方法时显示的图形用户界面。
可以理解的是,上述终端等为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对上述终端等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种标签预测方法,应用于电子设备,其特征在于,包括:
获取用户选择的样本数据检索词和特征关键词;
基于所述样本数据检索词从预设的样本数据库中检索出用于训练用户所需的标签预测模型的样本人群数据,并基于所述特征关键词从检索出的所述样本人群数据中提取出所述特征关键词对应类型的人群特征;
基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,训练用户所需的标签预测模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待预测数据;
采用训练出的所述标签预测模型对所述待预测数据进行人群分类预测,得到目标标签对应标记的目标人群。
3.根据权利要求2所述的方法,其特征在于,基于所述样本数据检索词检索出的所述样本人群数据与所述目标人群对应的人群数据包括至少一项等同的人群特征,其中,
所述等同的人群特征包括特征向量相同、或者特征向量欧式距离小于距离阈值、或者特征向量的余弦相似度大于相似度阈值的人群特征;并且,
所述特征关键词对应类型的人群特征包括所述等同的人群特征。
4.根据权利要求2所述的方法,其特征在于,所述基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,训练用户所需的标签预测模型,包括:
基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,生成样本人群特征数据集;
将所述样本人群特征数据集输入预设分类算法并执行运算,训练用户所需的标签预测模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,生成样本人群特征数据集,还包括:
获取所述样本人群数据中各样本数据的ID识别信息和正负样本标识信息;
将所述ID识别信息和所述正负样本识别信息与提取出的所述特征关键词对应类型的人群特征进行数据拼接,以使所述样本人群数据中各样本数据与所述特征关键词对应类型的人群特征之间建立对应关系;
将拼接得到的数据集合作为所述样本人群特征数据集。
6.根据权利要求4所述的方法,其特征在于,所述将所述样本人群特征数据集输入预设分类算法并执行运算,包括:
检查所述样本人群特征数据集是否缺失特征数据;
若所述样本人群特征数据集缺失所述样本人群数据中第一样本的第一特征数据,则将所述第一特征数据所对应的第一人群特征的多个特征数据中的众数,确定为缺失的所述第一特征数据的补全数据;
将加入所述补全数据后的样本人群特征数据集输入预设分类算法并执行运算。
7.根据权利要求6所述的方法,其特征在于,所述预设分类算法包括预设在算法库中的算法框架,并且,
所述将所述样本人群特征数据集输入预设分类算法并执行运算,训练用户所需的标签预测模型,包括:
获取用户选择的算法关键词,并基于所述算法关键词从所述算法库中匹配出对应于所述算法关键词的第一算法框架;
将所述样本人群特征数据集输入所述第一算法框架,训练用户所需的标签预测模型。
8.根据权利要求7所述的方法,其特征在于,所述算法库包括LR算法、DBSCAN算法、K-Means算法以及GBDT算法中的一项或多项。
9.根据权利要求4至8中任一项所述的方法,其特征在于,所述训练用户所需的标签预测模型,包括:
采用所述预设分类算法从所述样本人群数据中预测出属于所述目标人群的第一人群的数据;
将确定所述第一人群属于所述目标人群所对应的人群特征权重参数,作为训练出的标签预测模型预测所述目标人群的执行参数。
10.根据权利要求2所述的方法,其特征在于,所述采用训练出的所述标签预测模型对所述待预测数据进行人群分类预测,得到目标标签对应标记的目标人群,包括:
获取对应于所述标签预测模型的可执行模型文件;
获取对所述标签预测模型配置的运行参数;
根据所述运行参数执行所述可执行模型文件,对所述待预测数据进行人群分类预测,得到目标标签对应标记的目标人群。
11.根据权利要求10所述的方法,其特征在于,所述运行参数包括执行频率、执行时间、执行周期长度、失败重试次数、超时时间中的一项或多项。
12.根据权利要求2至11中任一项所述的方法,其特征在于,所述样本数据库中的样本人群数据是从所述待预测数据中选出的人群数据。
13.一种标签预测平台,其特征在于,包括:
界面配置模块,用于获取用户选择的样本数据检索词和特征关键词;
公共样本库调度模块,用于基于所述样本数据检索词从预设的样本数据库中检索出用于训练用户所需的标签预测模型的样本人群数据;
通用特征调度模块,用于基于所述特征关键词从检索出的所述样本人群数据中提取出所述特征关键词对应类型的人群特征;
算法调度模块,用于调度预设分类算法,并基于所述检索到的样本人群数据和所述特征关键词对应类型的人群特征,训练用户所需的标签预测模型。
14.一种电子设备,其特征在于,包括收发器、处理器和存储器,所述存储器用于存储计算机程序,所述处理器调用所述计算机程序,用于执行权利要求1至12中任一项所述的标签预测方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至12中任一项所述的标签预测方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022101157512 | 2022-02-07 | ||
CN202210115751 | 2022-02-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115344757A true CN115344757A (zh) | 2022-11-15 |
Family
ID=83948590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210589259.9A Pending CN115344757A (zh) | 2022-02-07 | 2022-05-26 | 一种标签预测方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115344757A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115934675A (zh) * | 2022-12-01 | 2023-04-07 | 深圳市云积分科技有限公司 | 动态标签的输出方法及装置、存储介质、电子设备 |
CN117492738A (zh) * | 2023-11-08 | 2024-02-02 | 交通银行股份有限公司北京市分行 | 一种数据挖掘全流程方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980211A (zh) * | 2010-11-12 | 2011-02-23 | 百度在线网络技术(北京)有限公司 | 一种机器学习模型及其建立方法 |
CN101980210A (zh) * | 2010-11-12 | 2011-02-23 | 百度在线网络技术(北京)有限公司 | 一种标的词分类分级方法及系统 |
CN110276456A (zh) * | 2019-06-20 | 2019-09-24 | 山东大学 | 一种机器学习模型辅助构建方法、系统、设备及介质 |
CN111046952A (zh) * | 2019-12-12 | 2020-04-21 | 深圳市随手金服信息科技有限公司 | 标签挖掘模型的建立方法、装置、存储介质及终端 |
US20210264272A1 (en) * | 2018-07-23 | 2021-08-26 | The Fourth Paradigm (Beijing) Tech Co Ltd | Training method and system of neural network model and prediction method and system |
-
2022
- 2022-05-26 CN CN202210589259.9A patent/CN115344757A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980211A (zh) * | 2010-11-12 | 2011-02-23 | 百度在线网络技术(北京)有限公司 | 一种机器学习模型及其建立方法 |
CN101980210A (zh) * | 2010-11-12 | 2011-02-23 | 百度在线网络技术(北京)有限公司 | 一种标的词分类分级方法及系统 |
US20210264272A1 (en) * | 2018-07-23 | 2021-08-26 | The Fourth Paradigm (Beijing) Tech Co Ltd | Training method and system of neural network model and prediction method and system |
CN110276456A (zh) * | 2019-06-20 | 2019-09-24 | 山东大学 | 一种机器学习模型辅助构建方法、系统、设备及介质 |
CN111046952A (zh) * | 2019-12-12 | 2020-04-21 | 深圳市随手金服信息科技有限公司 | 标签挖掘模型的建立方法、装置、存储介质及终端 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115934675A (zh) * | 2022-12-01 | 2023-04-07 | 深圳市云积分科技有限公司 | 动态标签的输出方法及装置、存储介质、电子设备 |
CN115934675B (zh) * | 2022-12-01 | 2023-10-03 | 深圳市云积分科技有限公司 | 动态标签的输出方法及装置、存储介质、电子设备 |
CN117492738A (zh) * | 2023-11-08 | 2024-02-02 | 交通银行股份有限公司北京市分行 | 一种数据挖掘全流程方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021018154A1 (zh) | 信息表示方法及装置 | |
CN112214636B (zh) | 音频文件的推荐方法、装置、电子设备以及可读存储介质 | |
CN115344757A (zh) | 一种标签预测方法、电子设备及存储介质 | |
WO2022100221A1 (zh) | 检索处理方法、装置及存储介质 | |
CN111242273B (zh) | 一种神经网络模型训练方法及电子设备 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
WO2020042112A1 (zh) | 一种终端对ai任务支持能力的评测方法及终端 | |
CN112801719A (zh) | 用户行为预测方法、用户行为预测装置、存储介质及设备 | |
CN111881315A (zh) | 图像信息输入方法、电子设备及计算机可读存储介质 | |
WO2022100222A1 (zh) | 信息检索方法、装置、系统及存储介质 | |
CN116304007A (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
WO2022111726A1 (zh) | 一种信息排序方法及电子设备 | |
CN114881711B (zh) | 基于请求行为进行异常分析的方法及电子设备 | |
CN111984803B (zh) | 多媒体资源处理方法、装置、计算机设备及存储介质 | |
CN114331492A (zh) | 媒体资源的推荐方法、装置、设备及存储介质 | |
WO2022111653A1 (zh) | 一种反馈方法、装置及系统 | |
WO2022057764A1 (zh) | 广告显示方法及电子设备 | |
WO2024067293A1 (zh) | 一种服务卡片推荐的方法和电子设备 | |
WO2020062014A1 (zh) | 一种向输入框中输入信息的方法及电子设备 | |
WO2024051730A1 (zh) | 跨模态检索方法、装置、设备、存储介质及计算机程序 | |
CN116128571B (zh) | 广告曝光量分析方法及相关装置 | |
WO2023179490A1 (zh) | 应用推荐方法和电子设备 | |
CN115543145A (zh) | 一种文件夹管理方法及装置 | |
CN114969064A (zh) | 故障检测方法、装置、系统及存储介质 | |
CN110866114B (zh) | 对象行为的识别方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221115 |
|
RJ01 | Rejection of invention patent application after publication |