CN109117889A - 标签预测方法及装置 - Google Patents
标签预测方法及装置 Download PDFInfo
- Publication number
- CN109117889A CN109117889A CN201810972182.7A CN201810972182A CN109117889A CN 109117889 A CN109117889 A CN 109117889A CN 201810972182 A CN201810972182 A CN 201810972182A CN 109117889 A CN109117889 A CN 109117889A
- Authority
- CN
- China
- Prior art keywords
- label
- probability
- numerical value
- user
- operation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开关于一种标签预测方法及装置,属于计算机技术领域。所述方法包括:根据用户的行为数据确定所述用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;选取概率最大的k个标签,所述k≥2;对所述k个标签的概率进行归一化运算和加权运算,得到运算结果;根据所述运算结果确定所述用户所对应的标签。本公开解决了在存在多个概率峰值时,选择最大概率的标签导致预测结果不准确的问题,达到了提高标签预测的准确性的效果。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种标签预测方法及装置。
背景技术
若用户在网络上产生了大量的行为数据,则可以根据这些行为数据预测用户的标签,以通过标签来确定用户画像,再根据用户画像为用户推荐信息。
在预测时,通常设定多个数值连续的标签,并计算用户对应于每个标签的概率,将最大的概率所对应的标签确定为用户的标签。比如,在根据用户的行为数据预测用户的年龄时,标签是年龄,则可以计算用户对应于每个标签的概率,并选取最大的概率所对应的标签,将该标签所代表的年龄作为用户的年龄。
发明内容
为解决相关技术中的问题,本公开提供了一种标签预测方法及装置。
根据本公开实施例的第一方面,提供一种标签预测方法,所述方法包括:
根据用户的行为数据确定所述用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
选取概率最大的k个标签,所述k≥2;
对所述k个标签的概率进行归一化运算和加权运算,得到运算结果;
根据所述运算结果确定所述用户所对应的标签。
根据本公开实施例的第二方面,提供一种标签预测装置,所述装置包括:
确定模块,被配置为根据用户的行为数据确定所述用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
选取模块,被配置为选取概率最大的k个标签,所述k≥2;
运算模块,被配置为对所述选取模块选取的所述k个标签的概率进行归一化运算和加权运算,得到运算结果;
所述确定模块,还被配置为根据所述运算模块得到的所述运算结果确定所述用户所对应的标签。
根据本公开实施例的第三方面,提供一种标签预测装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据用户的行为数据确定所述用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
选取概率最大的k个标签,所述k≥2;
对所述k个标签的概率进行归一化运算和加权运算,得到运算结果;
根据所述运算结果确定所述用户所对应的标签。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的标签预测方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过选取概率最大的k个标签,再对该k个标签的概率进行归一化运算和加权运算,由于归一化之后,标签的概率越大,表示该标签越重要,所以,通过对标签的概率进行加权运算可以根据各个标签的重要性选择标签,解决了在存在多个概率峰值时,选择最大概率的标签导致预测结果不准确的问题,达到了提高标签预测的准确性的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本公开说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种标签预测方法的流程图。
图2是根据另一示例性实施例示出的一种标签预测方法的流程图。
图3是根据一示例性实施例示出的一种标签预测装置的框图。
图4是根据一示例性实施例示出的一种标签预测装置的框图。
图5是根据一示例性实施例示出的一种用于标签预测的装置的框图。
图6是根据一示例性实施例示出的一种用于标签预测的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在大数据环境下,用户执行一些行为的行为数据会被采集到,此时,可以根据用户的行为数据预测用户的标签,从而根据该标签生成用户画像,再根据用户画像为用户推荐相关信息。其中,标签是可以用数值表示的参数,比如,年龄、温度、分数、身高、体重等等,本实施例不作限定。
各个标签之间的数值连续,是指相邻标签所对应的数值的差值相等,这里的差值可以是任意整数或小数。比如,标签是年龄时,可以设置分别对应于数值1-80的80个标签,此时,相邻两个标签所对应的数值的差值为1,也可以设置分别对应于数值1-80的40个标签,此时,相邻两个标签所对应的数值的差值为2。又比如,标签是温度时,可以设置分别对应于数值0-39的40个标签,此时,相邻两个标签所对应的数值的差值为1,也可以设置分别对应于数值0-39的80个标签,此时,相邻两个标签所对应的数值的差值为0.5。
本实施例中,可以通过模型来预测用户对应于各个标签的概率。由于预测用于对应于各个标签的概率,可以看成是将该标签分配给用户的概率,所以,预测问题可以看成是分类问题,此时的模型可以称为分类模型。
在计算用户对应于数值连续的各个标签的概率时,理论上概率应该在某个标签达到峰值,向两边依次递减,即,相邻标签的概率的差异较小。但实际实现时,经常会出现存在多个概率峰值的情况。以标签为年龄进行举例,可能标签22的概率较高,标签33的概率也较高。如果此时直接选取最大概率所对应的标签,那么其他一些大概率的标签会被舍弃掉,从而导致预测结果不准确。若预测结果不准确,那么,可能会认为是分类模型未训练好,此时可能会继续训练该分类模型,从而导致过拟合。
本实施例中,在通过分类模型得到用户对应于各个标签的概率后,从中选择概率最大的k个标签,再对该k个标签的概率进行归一化运算和加权运算,由于归一化之后,标签的概率越大,表示该标签越重要,所以,通过对标签的概率进行加权运算可以根据各个标签的重要性选择标签,解决了在存在多个概率峰值时,选择最大概率的标签导致预测结果不准确的问题,达到了提高标签预测的准确性的效果。此外,本实施例还可以避免分类模型的过拟合问题。
图1是根据一示例性实施例示出的一种标签预测方法的流程图,该标签预测方法应用于电子设备中,如图1所示,该标签预测方法包括以下步骤。
在步骤101中,根据用户的行为数据确定用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续。
在步骤102中,选取概率最大的k个标签。
其中,k≥2;
在步骤103中,对k个标签的概率进行归一化运算和加权运算,得到运算结果。
在步骤104中,根据运算结果确定用户所对应的标签。
综上所述,本公开提供的标签预测方法,通过选取概率最大的k个标签,再对该k个标签的概率进行归一化运算和加权运算,由于归一化之后,标签的概率越大,表示该标签越重要,所以,通过对标签的概率进行加权运算可以根据各个标签的重要性选择标签,解决了在存在多个概率峰值时,选择最大概率的标签导致预测结果不准确的问题,达到了提高标签预测的准确性的效果。
图2是根据另一示例性实施例示出的一种标签预测方法的流程图,该标签预测方法应用于电子设备中,如图2所示,该标签预测方法包括如下步骤。
在步骤201中,根据用户的行为数据确定用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续。
在执行本步骤之前,电子设备需要先获取分类模型,该电子设备可以是终端或服务器。
其中,电子设备可以自行训练得到分类模型,也可以从其他设备获取分类模型,本实施例不限定分类模型的来源。下面以电子设备自行训练得到分类模型为例进行说明。
电子设备采集大量的训练样本,每个训练样本包括标签代表的数值以及该数值对应的用户的行为数据;基于神经网络或机器学习算法构建初始模型;最后利用这些训练样本训练初始模型,得到分类模型。
电子设备在获取到行为数据和分类模型后,将行为数据输入到分类模型中,该分类模型的输出即为各个标签的概率。此时,所有标签的概率和为1。
需要说明的是,在对数值连续的标签进行分类时,理论上相邻标签之间的概率的差值应该较小,然而,在实际实现时,可能相邻标签之间的概率的差值较大。比如,标签是年龄时,标签16的概率远大于标签17的概率。为了避免这种情况,可以在执行步骤204之前,执行步骤202-203,即对各个标签的概率进行平滑运算,从而通过平滑运算来剔除数值的差值较大的相邻标签,以提高预测结果的准确性。当然,电子设备也可以不执行步骤202-203,直接执行步骤204,本实施例不作限定。
在步骤202中,确定平滑窗口,该平滑窗口用于从顺序排列的标签中选定m个连续的标签。
平滑窗口可以通过窗口尺寸来定义,窗口尺寸用于指定m。即,窗口尺寸为m,则该窗口内最多可以选定m个标签。其中,m为正整数。
这里的m可以是实验值或经验值,也可以是通过预定算法计算出来的值,本实施例不作限定。
在一种可能的实现方式中,当标签是年龄时,窗口大小可以是3、11等等。
在步骤203中,对于各个标签,当标签位于平滑窗口中的预定位置时,计算平滑窗口中所包含的标签的概率的平均值,利用平均值更新标签的概率。
本实施例中,电子设备可以先按照标签代表的数值大小对各个标签进行排序,得到标签序列。比如,按照从小到大的顺序为80个年龄标签进行排序。电子设备再设置平滑窗口从标签序列的一侧滑入,在平滑窗口每位于一个位置时,更新平滑窗口中预定位置处的一个标签的概率,成功更新后设置平滑窗口向预设方向移动一个标签的距离,再次更新平滑窗口中预定位置处的一个标签的概率,依此类推,直至平滑窗口滑出标签序列后停止。当m为奇数时,预定位置可以是中心位置;当m为偶数时,预定位置可以是中心位置的左侧或右侧的一个位置。
比如,当标签是年龄,且m为5时,若平滑窗口包括标签24、25、26、27和28的概率,则电子设备可以计算这5个标签的概率的平均值,将该平均值作为中心位置处标签26的概率。随后,平滑窗口右移一个位置,平滑窗口包括标签25、26、27、28和29的概率,则电子设备可以计算这5个标签的概率的平均值,将该平均值作为中心位置处标签27的概率。
需要说明的是,对于位于标签序列的首部或尾部的标签来说,可能该标签位于预定位置时,平滑窗口所包括的标签的数量小于m,此时,电子设备可以不更新该标签的概率,或者,电子设备可以计算此时平滑窗口内这些概率的平均值,将该平均值作为该标签的概率,本实施例不作限定。
比如,标签序列为20-40,且m为5,则预定位置是中心位置。当标签20位于中心位置时,平滑窗口中包含标签20、21和22,此时可以不更新标签20的概率,也可以将标签20的概率更新为标签20、21和22的概率的平均值。
在步骤204中,选取概率最大的k个标签。
电子设备可以将标签按照其所对应的概率的大小进行排序,若按照从小到大的顺序排序,则选取前k个标签;若按照从大到小的顺序排序,则选取后k个标签。其中,k≥2。这里的k可以是实验值或经验值,也可以是通过预定算法计算出来的值,本实施例不作限定。
在步骤205中,对k个标签的概率进行等比例放大,放大后k个标签的概率和为1。
假设放大前k个标签的概率分别是p1,p2,…,pk,放大后k个标签的概率分别是a1,a2,…ak,则ai=pi/SUM(p1,p2,…,pk)。
在步骤206中,对于k个标签中的每个标签,将标签所代表的数值和放大后的概率相乘,得到乘积;将k个标签的乘积相加,得到运算结果。
假设每个标签代表的数值分别是l1,l2,…,lk,放大后k个标签的概率分别是a1,a2,…ak,则运算结果predict=SUM(l1*a1,l2*a2,…,lk*ak)。
比如,标签是年龄,且选出的3个标签所代表的数值分别是24、25和27,其放大后的概率分别是0.3,0.3和0.4,则运算结果predict=0.3*24+0.3*25+0.4*27=25.5。
在步骤207中,将运算结果与各个标签所代表的数值进行比较。
在步骤208中,当一个标签所代表的数值与运算结果相等时,将该标签确定用户所对应的标签,结束流程。
若运算结果为25,且存在一个标签所代表的数值是25,则将该标签确定为用户所对应的标签。
在步骤209中,当任意一个标签所代表的数值与运算结果均不等时,选择与运算结果的差值最小的数值所对应的标签,将该标签确定与用户所对应的标签。
这里选择与运算结果的差值最小的数值所对应的标签,也可以理解为对运算结果进行四舍五入,再将得到的数值与各个标签所代表的数值进行比较,以查找所代表的数值与运算结果相等的标签,将该标签确定为用户所对应的标签。
在一个实例中,在标签为年龄1-80的预测中,以年龄3岁以内误差作为预测准确时,调试好分类模型后利用本实施例提供的方法,准确率从0.52提升到0.59。可见,本实施例提供的方法可以大大提高分类模型在连续标签预测中的准确性,有效减少了过拟合现象。
综上所述,本公开提供的标签预测方法,通过选取概率最大的k个标签,再对该k个标签的概率进行归一化运算和加权运算,由于归一化之后,标签的概率越大,表示该标签越重要,所以,通过对标签的概率进行加权运算可以根据各个标签的重要性选择标签,解决了在存在多个概率峰值时,选择最大概率的标签导致预测结果不准确的问题,达到了提高标签预测的准确性的效果。
通过对各个标签的概率进行平滑运算,从而通过平滑运算来剔除数值的差值较大的相邻标签,以提高预测结果的准确性。
图3是根据一示例性实施例示出的一种标签预测装置的框图,该标签预测装置应用于电子设备中,如图3所示,该标签预测装置包括:确定模块310、选取模块320和运算模块330。
该确定模块310,被配置为根据用户的行为数据确定用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
该选取模块320,被配置为选取概率最大的k个标签,k≥2;
该运算模块330,被配置为对选取模块320选取的k个标签的概率进行归一化运算和加权运算,得到运算结果;
该确定模块310,还被配置为根据运算模块330得到的运算结果确定用户所对应的标签。
综上所述,本公开提供的标签预测装置,通过选取概率最大的k个标签,再对该k个标签的概率进行归一化运算和加权运算,由于归一化之后,标签的概率越大,表示该标签越重要,所以,通过对标签的概率进行加权运算可以根据各个标签的重要性选择标签,解决了在存在多个概率峰值时,选择最大概率的标签导致预测结果不准确的问题,达到了提高标签预测的准确性的效果。
图4是根据一示例性实施例示出的一种标签预测装置的框图,该标签预测装置应用于电子设备中,如图4所示,该标签预测装置包括:确定模块410、选取模块420和运算模块430。
该确定模块410,被配置为根据用户的行为数据确定用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
该选取模块420,被配置为选取概率最大的k个标签,k≥2;
该运算模块430,被配置为对选取模块420选取的k个标签的概率进行归一化运算和加权运算,得到运算结果;
该确定模块410,还被配置为根据运算模块430得到的运算结果确定用户所对应的标签。
可选的,该装置还包括:平滑模块440;
该平滑模块440,被配置为在选取模块420选取概率最大的k个标签之前,对各个标签的概率进行平滑运算。
可选的,该平滑模块440,还被配置为:
确定平滑窗口,平滑窗口用于从顺序排列的标签中选定m个连续的标签,m为正整数;
对于各个标签,当标签位于平滑窗口中的预定位置时,计算平滑窗口中所包含的标签的概率的平均值,利用平均值更新标签的概率。
可选的,该确定模块410,还被配置为:
将运算结果与各个标签所代表的数值进行比较;
当一个标签所代表的数值与运算结果相等时,将该标签确定用户所对应的标签;
当任意一个标签所代表的数值与运算结果均不等时,选择与运算结果的差值最小的数值所对应的标签,将该标签确定与用户所对应的标签。
可选的,该运算模块430,还被配置为:
对k个标签的概率进行等比例放大,放大后k个标签的概率和为1;
对于k个标签中的每个标签,将该标签所代表的数值和放大后的概率相乘,得到乘积;
将k个标签的乘积相加,得到运算结果。
综上所述,本公开提供的标签预测装置,通过选取概率最大的k个标签,再对该k个标签的概率进行归一化运算和加权运算,由于归一化之后,标签的概率越大,表示该标签越重要,所以,通过对标签的概率进行加权运算可以根据各个标签的重要性选择标签,解决了在存在多个概率峰值时,选择最大概率的标签导致预测结果不准确的问题,达到了提高标签预测的准确性的效果。
通过对各个标签的概率进行平滑运算,从而通过平滑运算来剔除数值的差值较大的相邻标签,以提高预测结果的准确性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种标签预测装置,能够实现本公开提供的标签预测方法,该标签预测装置包括:处理器、用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
根据用户的行为数据确定用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
选取概率最大的k个标签,k≥2;
对k个标签的概率进行归一化运算和加权运算,得到运算结果;
根据运算结果确定用户所对应的标签。
图5是根据一示例性实施例示出的一种用于标签预测的装置500的框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理部件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述标签预测方法。
本公开一示例性实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的标签预测方法。
图6是根据一示例性实施例示出的一种用于标签预测的装置600的框图。例如,装置600可以被提供为一服务器。参照图6,装置600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述标签预测方法。
装置600还可以包括一个电源组件626被配置为执行装置600的电源管理,一个有线或无线网络接口650被配置为将装置600连接到网络,和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种标签预测方法,其特征在于,所述方法包括:
根据用户的行为数据确定所述用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
选取概率最大的k个标签,所述k≥2;
对所述k个标签的概率进行归一化运算和加权运算,得到运算结果;
根据所述运算结果确定所述用户所对应的标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述选取概率最大的k个标签之前,对各个标签的概率进行平滑运算。
3.根据权利要求2所述的方法,其特征在于,所述对各个标签的概率进行平滑运算,包括:
确定平滑窗口,所述平滑窗口用于从顺序排列的标签中选定m个连续的标签,所述m为正整数;
对于各个标签,当所述标签位于所述平滑窗口中的预定位置时,计算所述平滑窗口中所包含的标签的概率的平均值,利用所述平均值更新所述标签的概率。
4.根据权利要求1所述的方法,其特征在于,所述根据所述运算结果确定所述用户所对应的标签,包括:
将所述运算结果与各个标签所代表的数值进行比较;
当一个标签所代表的数值与所述运算结果相等时,将所述标签确定所述用户所对应的标签;
当任意一个标签所代表的数值与所述运算结果均不等时,选择与所述运算结果的差值最小的数值所对应的标签,将所述标签确定与所述用户所对应的标签。
5.根据权利要求1至4任一所述的方法,其特征在于,所述对所述k个标签的概率进行归一化运算和加权运算,得到运算结果,包括:
对所述k个标签的概率进行等比例放大,放大后所述k个标签的概率和为1;
对于所述k个标签中的每个标签,将所述标签所代表的数值和放大后的概率相乘,得到乘积;
将所述k个标签的乘积相加,得到所述运算结果。
6.一种标签预测装置,其特征在于,所述装置包括:
确定模块,被配置为根据用户的行为数据确定所述用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
选取模块,被配置为选取概率最大的k个标签,所述k≥2;
运算模块,被配置为对所述选取模块选取的所述k个标签的概率进行归一化运算和加权运算,得到运算结果;
所述确定模块,还被配置为根据所述运算模块得到的所述运算结果确定所述用户所对应的标签。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
平滑模块,被配置为在所述选取模块选取概率最大的k个标签之前,对各个标签的概率进行平滑运算。
8.根据权利要求7所述的装置,其特征在于,所述平滑模块,还被配置为:
确定平滑窗口,所述平滑窗口用于从顺序排列的标签中选定m个连续的标签,所述m为正整数;
对于各个标签,当所述标签位于所述平滑窗口中的预定位置时,计算所述平滑窗口中所包含的标签的概率的平均值,利用所述平均值更新所述标签的概率。
9.根据权利要求6所述的装置,其特征在于,所述确定模块,还被配置为:
将所述运算结果与各个标签所代表的数值进行比较;
当一个标签所代表的数值与所述运算结果相等时,将所述标签确定所述用户所对应的标签;
当任意一个标签所代表的数值与所述运算结果均不等时,选择与所述运算结果的差值最小的数值所对应的标签,将所述标签确定与所述用户所对应的标签。
10.根据权利要求6至9任一所述的装置,其特征在于,所述运算模块,还被配置为:
对所述k个标签的概率进行等比例放大,放大后所述k个标签的概率和为1;
对于所述k个标签中的每个标签,将所述标签所代表的数值和放大后的概率相乘,得到乘积;
将所述k个标签的乘积相加,得到所述运算结果。
11.一种标签预测装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据用户的行为数据确定所述用户对应于各个标签的概率,每个标签代表一个数值,且各个标签所代表的数值之间连续;
选取概率最大的k个标签,所述k≥2;
对所述k个标签的概率进行归一化运算和加权运算,得到运算结果;
根据所述运算结果确定所述用户所对应的标签。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1至5任一所述的标签预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810972182.7A CN109117889A (zh) | 2018-08-23 | 2018-08-23 | 标签预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810972182.7A CN109117889A (zh) | 2018-08-23 | 2018-08-23 | 标签预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109117889A true CN109117889A (zh) | 2019-01-01 |
Family
ID=64860784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810972182.7A Pending CN109117889A (zh) | 2018-08-23 | 2018-08-23 | 标签预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109117889A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506617A (zh) * | 2019-01-31 | 2020-08-07 | 华为技术有限公司 | 一种基于用户数据生成标签的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281635A (zh) * | 2014-03-13 | 2015-01-14 | 电子科技大学 | 基于隐私反馈预测移动用户基础属性的方法 |
CN106651057A (zh) * | 2017-01-03 | 2017-05-10 | 有米科技股份有限公司 | 一种基于安装包序列表的移动端用户年龄预测方法 |
CN107590478A (zh) * | 2017-09-26 | 2018-01-16 | 四川长虹电器股份有限公司 | 一种基于深度学习的年龄估计方法 |
CN107741986A (zh) * | 2017-10-25 | 2018-02-27 | 广州优视网络科技有限公司 | 用户行为预测及相应信息推荐方法和装置 |
CN108256482A (zh) * | 2018-01-18 | 2018-07-06 | 中科视拓(北京)科技有限公司 | 一种基于卷积神经网络进行分布学习的人脸年龄估计方法 |
CN108399189A (zh) * | 2018-01-23 | 2018-08-14 | 重庆邮电大学 | 基于社团发现的好友推荐系统及其方法 |
US10108934B2 (en) * | 2009-07-10 | 2018-10-23 | Microsoft Technology Licensing, Llc | Items selection via automatic generalization |
-
2018
- 2018-08-23 CN CN201810972182.7A patent/CN109117889A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108934B2 (en) * | 2009-07-10 | 2018-10-23 | Microsoft Technology Licensing, Llc | Items selection via automatic generalization |
CN104281635A (zh) * | 2014-03-13 | 2015-01-14 | 电子科技大学 | 基于隐私反馈预测移动用户基础属性的方法 |
CN106651057A (zh) * | 2017-01-03 | 2017-05-10 | 有米科技股份有限公司 | 一种基于安装包序列表的移动端用户年龄预测方法 |
CN107590478A (zh) * | 2017-09-26 | 2018-01-16 | 四川长虹电器股份有限公司 | 一种基于深度学习的年龄估计方法 |
CN107741986A (zh) * | 2017-10-25 | 2018-02-27 | 广州优视网络科技有限公司 | 用户行为预测及相应信息推荐方法和装置 |
CN108256482A (zh) * | 2018-01-18 | 2018-07-06 | 中科视拓(北京)科技有限公司 | 一种基于卷积神经网络进行分布学习的人脸年龄估计方法 |
CN108399189A (zh) * | 2018-01-23 | 2018-08-14 | 重庆邮电大学 | 基于社团发现的好友推荐系统及其方法 |
Non-Patent Citations (3)
Title |
---|
李志刚: "光谱数据处理与定量分析技术", 《北京邮电大学出版社》 * |
袁长迎等: "掌握和精通Mathcad 2000", 《机械工业出版社》 * |
隋起胜: "反舰导弹战场电磁环境仿真及试验鉴定技术", 《国防工业出版社》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506617A (zh) * | 2019-01-31 | 2020-08-07 | 华为技术有限公司 | 一种基于用户数据生成标签的方法及装置 |
CN111506617B (zh) * | 2019-01-31 | 2023-10-20 | 华为技术有限公司 | 一种基于用户数据生成标签的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117862B (zh) | 图像标签识别方法、装置及服务器 | |
CN109389162B (zh) | 样本图像筛选方法和装置、电子设备及存储介质 | |
CN109800325A (zh) | 视频推荐方法、装置和计算机可读存储介质 | |
CN104408402B (zh) | 人脸识别方法及装置 | |
CN109446961B (zh) | 姿势检测方法、装置、设备及存储介质 | |
CN110288084A (zh) | 超网络训练方法和装置 | |
CN105654131A (zh) | 分类模型训练方法及装置 | |
CN111160448B (zh) | 一种图像分类模型的训练方法及装置 | |
CN109801270A (zh) | 锚点确定方法及装置、电子设备和存储介质 | |
EP3923202A1 (en) | Method and device for data processing, and storage medium | |
EP3882787A1 (en) | Method and device for evaluating quality of content, electronic equipment, and storage medium | |
CN109670077A (zh) | 视频推荐方法、装置和计算机可读存储介质 | |
CN107230137A (zh) | 商品信息获取方法及装置 | |
CN108460651A (zh) | 车辆推荐方法及装置 | |
CN108320208A (zh) | 车辆推荐方法及装置 | |
CN105100193A (zh) | 云名片推荐方法及装置 | |
CN108764283A (zh) | 一种分类模型的损失值获取方法及装置 | |
CN104850592B (zh) | 生成模型文件的方法和装置 | |
CN109409414B (zh) | 样本图像确定方法和装置、电子设备及存储介质 | |
CN107133301A (zh) | 概率的预测方法及装置 | |
CN112884040B (zh) | 训练样本数据的优化方法、系统、存储介质及电子设备 | |
CN104850855B (zh) | 计算置信度的方法和装置 | |
CN105551047A (zh) | 图片内容的检测方法和装置 | |
CN109214175A (zh) | 基于样本特征训练分类器的方法、装置及存储介质 | |
CN109117889A (zh) | 标签预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190101 |
|
RJ01 | Rejection of invention patent application after publication |