CN109614544A - 一种用户的个人信息的预测方法及装置 - Google Patents
一种用户的个人信息的预测方法及装置 Download PDFInfo
- Publication number
- CN109614544A CN109614544A CN201811280612.5A CN201811280612A CN109614544A CN 109614544 A CN109614544 A CN 109614544A CN 201811280612 A CN201811280612 A CN 201811280612A CN 109614544 A CN109614544 A CN 109614544A
- Authority
- CN
- China
- Prior art keywords
- user
- sample
- terminal device
- information
- application program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000013507 mapping Methods 0.000 claims description 34
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- DWDGSKGGUZPXMQ-UHFFFAOYSA-N OPPO Chemical compound OPPO DWDGSKGGUZPXMQ-UHFFFAOYSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机信息处理技术领域,尤其涉及一种用户的个人信息预测方法,包括:获取N个用户样本,N为正整数;对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本;将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型;将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息,进而能够精确获取用户的个人信息。
Description
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种用户的个人信息预测方法及装置。
背景技术
随着互联网技术的不断创新,出现了个性化推荐方案为用户提供便捷的信息体验。
现有常采用的个性化推荐方法中,提取用户的特征信息,在个性化的推荐系统中根据这些特征信息进行推荐,但是,很多应用存在的用户群体的个人信息并不完善的问题,因此在提取用户的特征信息时较为困难。
用户的特征信息中,性别和年龄在该推荐系统中具有很高的权重,现有采用关联规则分析的方法来获得,例如:在需要提取用户的性别和年龄信息时,关联至美颜相机,从而通过摄像头采集用户的头像,基于该头像分析获得用户的年龄和性别,从而推荐适应该年龄和性别特征的信息,但是这样关联规则分析的方法在分析获得用户的特征信息时准确度较低,用户群体数量也并不多,无法满足大多数用户的需求。
因此,如何准确预测用户的个人信息是目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的个人信息的预测方法及装置。
第一方面,本发明实施例提供一种用户的个人信息预测方法,包括:
获取N个用户样本,N为正整数;
对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本;
将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型;
将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息。
优选的,所述获取N个用户样本,具体包括:
获得M个待处理样本;M大于N且为正整数;其中,每个待处理样本信息中包括以下一种或者多种特征参数:用户个人信息,用户使用的终端设备信息;
对所述M个待处理样本进行样本清洗,以清除所述M个待处理样本中的缺少所述用户个人信息和/或所述终端设备信息的无效样本信息,获得所述N个用户样本;在所述N个用户样本中,每个用户样本的用户个人信息和所述终端设备信息都存在。
优选的,所述对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本,具体包括:
对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号;
对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号;
将每个用户样本各自的第一编号和每个用户样本各自的第二编号作为每个用户样本各自的训练样本。
优选的,所述用户个人信息至少包括:用户性别,用户年龄;
所述对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号,具体包括:
基于映射关系对所述N个用户样本中的每个用户样本各自的用户个人信息中的用户性别和用户年龄分别进行编号,获得每个用户样本各自的第一编号,所述第一编号包括用户个人信息中的用户性别的编号和用户年龄的编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
优选的,所述终端设备信息至少包括:终端设备型号,终端设备品牌,终端设备中的一个或者多个应用程序;
所述对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号,具体包括:
对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得每个用户样本各自的第二编号,所述第二编号包括终端设备型号的编号、终端设备品牌的编号、终端设备中各应用程序的编号。
优选的,所述在对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备的各应用程序分别进行编号,获得每个用户样本中对终端设备的第二编号,所述第二编号包括终端设备的型号的编号、终端设备品牌的编号、终端设备中的各应用程序的编号之后,还包括:
对所述终端设备中的各应用程序分别计算TGI指标,保留满足预设TGI指标的应用程序,所述各应用程序的TGI指标用于反应所述各应用程序在不同年龄段和不同性别的用户中的关注度。
优选的,所述对终端设备中的各应用程序分别计算TGI指标,具体包括:
利用公式TGI=(S1/S2)*100计算终端设备中的每个应用程序的TGI指标,其中,S1具体为安装有对应的应用程序并且处于预设年龄段内的目标性别用户数量在处于所述预设年龄段内的目标性别用户总数量中所占的比例,S2具体为安装有所述对应的应用程序的用户数量在总体用户数量中所占的比例。
优选的,所述将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型,具体包括:
将所述N个训练样本中的第二编号输入所述分类模型,将所述N个训练样本中的第一编号作为所述分类模型的输出,共同对所述分类模型进行训练;
获得训练后的分类模型,所述训练后的分类模型为所述预测模型。
优选的,在将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息之前,还包括:
获得所述待预测用户的终端设备信息。
对所述待预测用户的终端设备信息进行特征处理。
优选的,所述对所述待预测用户的终端设备信息进行特征处理,具体包括:
对所述待预测用户的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得所述待预测用户的终端设备的第三编号。
优选的,将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息,具体包括:
将待预测用户的终端设备的第三编号输入所述预测模型,获得所述待预测用户的个人信息的第四编号;
基于所述待预测用户的个人信息的第四编号与映射关系,获得所述待预测用户的用户性别和用户年龄,所述待预测用户的个人信息的第四编号包括:所述待预测用户的用户性别编号和所述待预测用户的用户年龄编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
优选的,所述分类模型具体包括:卷积神经网络模型、递归神经网络模型、迭代的决策树算法模型。
第二方面,本发明还提供了一种用户的个人信息预测装置,包括:
用户样本获取模块,用于获取N个用户样本,N为正整数;
训练样本获得模块,用于对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本;
预测模块,用于将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型;
个人信息获得模块,用于将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息。
优选的,所述用户样本获取模块,具体包括:
第一获得单元,用于获得M个待处理样本;M大于N且为正整数;其中,每个待处理样本信息中包括以下一种或者多种特征参数:用户个人信息,用户使用的终端设备信息;
清洗单元,用于对所述M个待处理样本进行样本清洗,以清除所述M个待处理样本中的缺少所述用户个人信息和/或所述终端设备信息的无效样本信息,获得所述N个用户样本;在所述N个用户样本中,每个用户样本的用户个人信息和所述终端设备信息都存在。
优选的,所述训练样本获得模块,具体包括:
第二获得单元,用于对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号;
第三获得单元,用于对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号;
训练样本获得单元,用于将每个用户样本各自的第一编号和每个用户样本各自的第二编号作为每个用户样本各自的训练样本。
优选的,所述用户个人信息至少包括:用户性别,用户年龄,所述第二获得单元具体用于:
基于映射关系对所述N个用户样本中的每个用户样本各自的用户个人信息中的用户性别和用户年龄分别进行编号,获得每个用户样本各自的第一编号,所述第一编号包括用户个人信息中的用户性别的编号和用户年龄的编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
优选的,所述终端设备信息至少包括:终端设备型号,终端设备品牌,终端设备中的一个或者多个应用程序,所述第三获得单元具体用于:
对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得每个用户样本各自的第二编号,所述第二编号包括终端设备型号的编号、终端设备品牌的编号、终端设备中各应用程序的编号。
优选的,还包括:
计算单元,用于对所述终端设备中的各应用程序分别计算TGI指标,保留满足预设TGI指标的应用程序,所述各应用程序的TGI指标用于反应所述各应用程序在不同年龄段和不同性别的用户中的关注度。
优选的,所述计算单元具体用于利用公式TGI=(S1/S2)*100计算终端设备中的每个应用程序的TGI指标,其中,S1具体为安装有对应的应用程序并且处于预设年龄段内的目标性别用户数量在处于所述预设年龄段内的目标性别用户总数量中所占的比例,S2具体为安装有所述对应的应用程序的用户数量在总体用户数量中所占的比例。
优选的,所述预测模型具体包括:
训练单元,用于将所述N个训练样本中的第二编号输入所述分类模型,将所述N个训练样本中的第一编号作为所述分类模型的输出,共同对所述分类模型进行训练;
第四获得单元,用于获得训练后的分类模型,所述训练后的分类模型为所述预测模型。
优选的,还包括:
终端设备信息获得模块,用于获得所述待预测用户的终端设备信息。
特征处理模块,用于对所述待预测用户的终端设备信息进行特征处理。
优选的,所述特征处理模块具体用于:
对所述待预测用户的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得所述待预测用户的终端设备的第三编号。
优选的,所述个人信息获得模块具体包括:
第五获得单元,用于将待预测用户的终端设备的第三编号输入所述预测模型,获得所述待预测用户的个人信息的第四编号;
第六获得单元,用于基于所述待预测用户的个人信息的第四编号与映射关系,获得所述待预测用户的用户性别和用户年龄,所述待预测用户的个人信息的第四编号包括:所述待预测用户的用户性别编号和所述待预测用户的的用户年龄编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
优选的,所述分类模型具体包括:卷积神经网络模型、递归神经网络模型、迭代的决策树算法模型。
第三方面,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述用户个人信息的预测方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述用户个人信息的预测方法的步骤。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供一种个人信息的预测方法,通过获取用户样本信息,对用户样本信息进行特征处理,获得训练样本,将训练样本输入分类模型,对该分类模型进行训练,从而得到预测个人信息的预测模型,将待预测用户的终端设备信息输入该预测模型,从而获得该待预测用户的个人信息,进而通过获取经过特征处理的用户样本信息,该用户样本信息中的个人信息和用户的终端设备信息均是信息齐全的信息,为机器学习模型提供精确的数据,从而在采用训练后的机器学习模型预测用户的个人信息时,提高了获得的个人信息的精确度。
由于获得的用户的个人信息的精确度较高,在获得用户的个人信息之后,能够根据用户的个人信息精准推送信息,提高了推送的信息的转化率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考图形表示相同的部件。在附图中:
图1示出了本发明实施例中的个人信息的预测方法的步骤示意图;
图2示出了本发明实施例中的个人信息的预测装置的结构示意图;
图3示出了本发明实施例中的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
本发明实施例一提供了一种个人信息的预测方法,如图1所示,包括:S101,获取N个用户样本,N为正整数,S102,对该N个用户样本进行特征处理,获得N个用户样本各自的训练样本;S103,将N个用户样本各自的训练样本输入分类模型,以对分类模型进行训练,得到用于预测个人信息的预测模型;S104,将待预测用户的终端设备信息输入该预测模型,获得待预测用户的个人信息。
在本发明实施例中,在S101之前,先获得M个待处理样本,M大于N且为正整数,本实施例中的N个用户样本就是从M各待处理样本中提取出来的。
其中,每个待处理样本信息中包括以下一种或者多种特征参数:用户个人信息,用户使用的终端设备信息。用户个人信息包含很多种,例如用户性别、用户年龄等等。而用户使用的终端设备信息,则包含终端设备的品牌、型号、尺寸、以及该终端设备中安装的一个或者多个应用程序等等信息。
由于这M个处理样本中包含了很多无效的用户样本,因此,需要对该M个待处理样本进行样本清洗,以清除所述M个待处理样本中的缺少所述用户个人信息和/或所述终端设备信息的无效样本信息,获得所述N个用户样本。具体来说,样本清洗具体是将其中的无效的用户样本清洗掉,该无效的用户样本具体指:每个用户的样本中仅包含用户个人信息或者仅包含用户所使用的终端设备信息,或者用户样本中既没有用户个人信息也没有用户所使用的终端设备信息(比如刚注册的用户,还没有填写个人信息以及没有下载过应用程序)。
经过上述的样本清洗之后,获得N个用户样本,该N个用户样本中,每个用户样本的用户个人信息和终端设备信息都存在。这些用户样本都是有效样本。
其中,N个有效的用户样本的用户个人信息中至少包括用户的性别和用户的年龄信息,当然,还可以包括职业、兴趣爱好等等个人信息;N个有效的用户样本的用户使用的终端设备信息中至少包括终端设备型号、终端设备品牌、终端设备中的一个或者多个应用程序,当然还可以包括终端设备的色彩、上市日期等等信息。
具体的,以一个用户样本为例,用户昵称:小红,性别:女,年龄:23;该用户使用的手机品牌:OPPO;手机型号:R15;手机中安装的应用程序:美团、支付宝、微博、知乎、云通信等等。若该用户的用户样本中缺少了年龄、性别、手机品牌、手机型号、手机中安装的应用程序中的一种或多种信息,则认为该用户样本为无效样本,需进行清洗,即删除该用户信息,若该用户的用户样本中包含了上述的信息,则认为该用户样本是有效样本,则保留。从而获得N个上述类似的有效用户样本。
在获得N个有效的用户样本之后,执行S102,对N个用户样本进行特征处理,获得N个用户样本各自的训练样本。
对N个用户样本进行特征处理,即对N个用户样本中的信息分别进行编号。具体地,对N个用户样本中的每个用户样本各自的个人信息进行编号,获得每个用户样本各自的第一编号;以及对N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号;将每个用户样本各自的第一编号和每个用户样本各自的第二编号作为每个用户样本各自的训练样本。
当然,由于用户样本中的个人信息至少包括用户性别和用户年龄,用户样本中的终端设备信息至少包括终端设备型号,终端设备品牌,终端设备中的一个或者多个应用程序,在对用户样本中的个人信息和终端设备信息分别进行编号具体是对个人信息中的用户性别和用户年龄分别编号,对终端设备信息中的终端设备型号,终端设备品牌,终端设备中的一个或者多个应用程序分别编号。
其中,对N个用户样本中每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号,具体包括:基于映射关系对N个用户样本中的每个用户样本各自的用户个人信息中的用户性别和用户年龄分别进行编号,获得每个用户样本各自的第一编号,该第一编号包括了用户个人信息中的用户性别的编号和用户年龄的编号,该映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。将该映射关系作为第一映射关系。
对N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号,具体包括:基于第二映射关系对N个用户样本中每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得每个用户样本各自的第二编号,该第二编号包括终端设备型号的编号、终端设备品牌的编号、终端设备中各应用程序的编号,该第二映射关系包括:终端设备型号和编号的对应关系、终端设备品牌与编号的对应关系、终端设备中的一个或者多个应用程序与编号的对应关系。
这里的编号可以是数字编号或者字母编号,当然还可以是其他特殊字符编号,也可以是上述这几种类型编号的组合编号,在本发明实施例中就不再详细赘述了。
以上述用户昵称是小红的用户样本为例,对用户样本中的个人信息和终端设备信息分别进行编号进行详细描述,对小红的个人信息进行编号,具体地,将小红的性别:女,编号为Y,将小红的年龄:23,编号为002。由此获得小红的个人信息的第一编号,其中依据的第一映射关系列表如下。
将小红所使用的手机的型号:R15,编号为oppo004,手机品牌:OPPO,编号为P0005,小红的手机中安装的应用程序是美团、支付宝、微博、知乎、云通信,分别编号为:12,23,21,45,65;由此获得小红的终端设备的第二编号,其中依据的第二映射关系列表如下。
在对终端设备信息中的终端设备型号、终端设备品牌、终端设备的各应用程序分别编号,获得每个用户样本中对终端设备的第二编号之后,对该终端设备的各应用程序还需进行过滤,具体是过滤无意义的应用程序。
具体的过滤过程:对终端设备中的各应用程序分别计算TGI指标,保留满足预设TGI指标的应用程序,其中,各应用程序的TGI指标用于反应各应用程序在不同年龄段和不同性别的用户中的关注度。
具体在获取终端设备中的各应用程序的TGI指标时,利用公式TGI=(S1/S2)*100计算终端设置中的每个应用程序的TGI指标,其中,S1具体为安装有对应的应用程序并且处于预设年龄段内的目标性别用户数量在处于预设年龄段内的目标性别用户总数量中所占的比例,S2具体为安装有对应的应用程序的用户数量在总体用户数量中所占的比例。
比如,计算小红的手机中安装了支付宝,该支付宝的TGI指标计算公式:
S1=年龄段为20~25岁之间的男性用户安装有支付宝的用户数量÷年龄段为20~25岁之间的男性用户数量,S2=安装有支付宝的用户数量÷总用户数量,然后再根据TGI=(S1/S2)*100来计算该支付宝的TGI指标。
根据划定的预设TGI指标范围,比如设定预设TGI指标为110,若计算获得的TGI指标值小于该预设TGI指标,则认为该应用程序支付宝在该年龄段的性别用户中关注度不高,是无意义的应用程序,可以舍弃该应用程序。若计算获得的TGI指标值大于110,则认为该应用程序在该年龄段的性别用户中关注度很高,需要保留该应用程序。
如下图获得的TGI指标所示:
应用程序名称 | 年龄 | 性别 | TGI指标 |
聊天小公主 | 15 | 女 | 280 |
小精灵美化 | 18 | 女 | 220 |
汽车之家 | 33 | 男 | 168 |
淘宝 | 28 | 男 | 105 |
可见,在25~30岁年龄段的男性用户中,淘宝并不是一个关注度很高的应用程序,可以将25~30岁年龄段的男性用户中有该应用程序时,直接过滤。
采用上述对用户的终端设备中的应用程序过滤之后,可以降低应用程序的数量,进而避免无意义的应用程序对预测结果的干扰,而且,用户样本中的终端设备信息数量减少,提高了在后续训练和预测过程的效率。
上述对N个用户样本进行特征处理之后,执行S103,将N个用户样本各自的训练样本输入分类模型,以对该分类模型进行训练,得到用于预测个人信息的预测模型。
由于上述对用户样本进行特征处理之后,用户样本中的个人信息和终端设备信息均已被编号,因此,在进行模型训练时,将编号作为训练样本进行训练,从而由该训练后的模型输出对应的编号。
具体地,将N个训练样本中的第二编号输入该分类模型,将N个训练样本中的第一编号作为分类模型的输出,共同对该分类模型进行训练;获得训练后的分类模型,该训练后的分类模型为预测模型。
该分类模型具体可以采用卷积神经网络模型、递归神经网络模型、迭代的决策树算法模型中的任意一种,当然还可以采用其他的机器学习模型,在本发明实施例中就不再详细赘述了。
在采用卷积神经网络模型时,将用户使用的终端设备的型号、品牌、安装的应用程序输入该卷积神经网络模型,用户使用的终端设备的型号、品牌、安装的应用程序分别对应一个编号,每个编号对应一个K维的向量,对于该卷积神经网络模型的每个输入,均表示成n*k的矩阵,在通过该卷积神经网络模型进行训练时,通过一层卷积层、一层池化层,最后加上全连接层进行输出,训练的过程是将这些向量不断进行调整的过程。其中该卷积神经网络模型中使用的损失函数采用交叉熵。
在获得该预测模型之后,执行S104,将待预测用户的终端设备信息输入预测模型,获得待预测用户的个人信息。
当然,在执行S104之前,在获得预测模型之后,还包括:
获得待预测用户的终端设备信息;然后,对待预测用户的终端设备信息进行特征处理。在对待预测用户的终端设备信息进行特征处理,具体包括:
对该待预测用户的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得待预测用户的终端设备的第三编号。
具体的特征处理中包括对终端设备信息中的终端设备型号、终端设备品牌、终端设备的各应用程序分别进行编号,以及对编号后的各应用程序计算TGI指标,保留满足预设TGI指标的应用程序。在此就不再赘述了。
将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息,具体包括:
将待预测用户的终端设备的第三编号输入预测模型,获得待预测用户的个人信息的第四编号;
基于该待预测用户的个人信息的第四编号与映射关系,获得该待预测用户的用户性别和用户年龄,该待预测用户的个人信息的第四编号包括:待预测用户的用户性别编号和待预测用户的用户年龄编号;其中,映射关系(即第一映射关系)包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
采用上述获得的预测模型对待预测用户的个人信息进行预测过程中,由于输入的待预测用户的终端设备信息经过特征处理之后成为第三编号,因此,由该预测模型输出的第四编号,需要根据在特征处理中采用的映射关系列表,将该第四编号对应映射至用户的个人信息,最终获得用户的实际个人信息,即用户年龄和用户性别。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供一种用户的个人信息预测方法,通过获取用户样本信息,对用户样本信息进行特征处理,获得训练样本,将训练样本输入分类模型,对该分类模型进行训练,从而得到预测个人信息的预测模型,将待预测用户的终端设备信息输入该预测模型,从而获得该待预测用户的个人信息,进而通过获取经过特征处理的用户样本信息,该用户样本中的个人信息和终端设备信息均是信息齐全的信息,为机器学习模型提供精确的用户样本,从而在采用训练后的机器学习模型预测用户的个人信息时,提高了获得的个人信息的精确度。
由于获得的用户的个人信息的精确度较高,在获得用户的个人信息之后,能够根据用户的个人信息精准推送信息,提高了推送信息的转化率。
实施例二
基于相同的发明构思,本发明第二实施例提供了一种用户的个人的预测装置,如图2所述,包括:一种用户的个人信息预测装置,其特征在于,包括:
用户样本获取模块,用于获取N个用户样本,N为正整数;
训练样本获得模块,用于对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本;
预测模块,用于将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型;
个人信息获得模块,用于将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息。
优选的,所述用户样本获取模块,具体包括:
第一获得单元,用于获得M个待处理样本;M大于N且为正整数;其中,每个待处理样本信息中包括以下一种或者多种特征参数:用户个人信息,用户使用的终端设备信息;
清洗单元,用于对所述M个待处理样本进行样本清洗,以清除所述M个待处理样本中的缺少所述用户个人信息和/或所述终端设备信息的无效样本信息,获得所述N个用户样本;在所述N个用户样本中,每个用户样本的用户个人信息和所述终端设备信息都存在。
优选的,所述训练样本获得模块,具体包括:
第二获得单元,用于对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号;
第三获得单元,用于对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号;
训练样本获得单元,用于将每个用户样本各自的第一编号和每个用户样本各自的第二编号作为每个用户样本各自的训练样本。
优选的,所述用户个人信息至少包括:用户性别,用户年龄,所述第二获得单元具体用于:
基于映射关系对所述N个用户样本中的每个用户样本各自的用户个人信息中的用户性别和用户年龄分别进行编号,获得每个用户样本各自的第一编号,所述第一编号包括用户个人信息中的用户性别的编号和用户年龄的编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
优选的,所述终端设备信息至少包括:终端设备型号,终端设备品牌,终端设备中的一个或者多个应用程序,所述第三获得单元具体用于:
对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得每个用户样本各自的第二编号,所述第二编号包括终端设备型号的编号、终端设备品牌的编号、终端设备中各应用程序的编号。
优选的,还包括:
计算单元,用于对所述终端设备中的各应用程序分别计算TGI指标,保留满足预设TGI指标的应用程序,所述各应用程序的TGI指标用于反应所述各应用程序在不同年龄段和不同性别的用户中的关注度。
优选的,所述计算单元具体用于利用公式TGI=(S1/S2)*100计算终端设备中的每个应用程序的TGI指标,其中,S1具体为安装有对应的应用程序并且处于预设年龄段内的目标性别用户数量在处于所述预设年龄段内的目标性别用户总数量中所占的比例,S2具体为安装有所述对应的应用程序的用户数量在总体用户数量中所占的比例。
优选的,所述预测模型具体包括:
训练单元,用于将所述N个训练样本中的第二编号输入所述分类模型,将所述N个训练样本中的第一编号作为所述分类模型的输出,共同对所述分类模型进行训练;
第四获得单元,用于获得训练后的分类模型,所述训练后的分类模型为所述预测模型。
优选的,还包括:
终端设备信息获得模块,用于获得所述待预测用户的终端设备信息。
特征处理模块,用于对所述待预测用户的终端设备信息进行特征处理。
优选的,所述特征处理模块具体用于:
对所述待预测用户的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得所述待预测用户的终端设备的第三编号。
优选的,所述个人信息获得模块具体包括:
第五获得单元,用于将待预测用户的终端设备的第三编号输入所述预测模型,获得所述待预测用户的个人信息的第四编号;
第六获得单元,用于基于所述待预测用户的个人信息的第四编号与映射关系,获得所述待预测用户的用户性别和用户年龄,所述待预测用户的个人信息的第四编号包括:所述待预测用户的用户性别编号和所述待预测用户的的用户年龄编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
优选的,所述分类模型具体包括:卷积神经网络模型、递归神经网络模型、迭代的决策树算法模型。
实施例三
基于相同的发明构思,本发明第三实施例还提供了一种计算机设备,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现上述实施例一中的用户个人信息的预测方法中的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
基于相同的发明构思,本发明第四实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文实施例一中的所述用户个人信息的预测方法的任一方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的智能调度的装置、服务器中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种用户的个人信息预测方法,其特征在于,包括:
获取N个用户样本,N为正整数;
对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本;
将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型;
将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息。
A2、如A1所述的用户个人信息的预测方法,其特征在于,所述获取N个用户样本,具体包括:
获得M个待处理样本;M大于N且为正整数;其中,每个待处理样本信息中包括以下一种或者多种特征参数:用户个人信息,用户使用的终端设备信息;
对所述M个待处理样本进行样本清洗,以清除所述M个待处理样本中的缺少所述用户个人信息和/或所述终端设备信息的无效样本信息,获得所述N个用户样本;在所述N个用户样本中,每个用户样本的用户个人信息和所述终端设备信息都存在。
A3、如A2所述的用户个人信息的预测方法,其特征在于,所述对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本,具体包括:
对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号;
对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号;
将每个用户样本各自的第一编号和每个用户样本各自的第二编号作为每个用户样本各自的训练样本。
A4、如A3所述的用户个人信息的预测方法,其特征在于,所述用户个人信息至少包括:用户性别,用户年龄;
所述对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号,具体包括:
基于映射关系对所述N个用户样本中的每个用户样本各自的用户个人信息中的用户性别和用户年龄分别进行编号,获得每个用户样本各自的第一编号,所述第一编号包括用户个人信息中的用户性别的编号和用户年龄的编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
A5、如A3所述的用户个人信息的预测方法,其特征在于,所述终端设备信息至少包括:终端设备型号,终端设备品牌,终端设备中的一个或者多个应用程序;
所述对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号,具体包括:
对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得每个用户样本各自的第二编号,所述第二编号包括终端设备型号的编号、终端设备品牌的编号、终端设备中各应用程序的编号。
A6、如A5所述的用户个人信息的预测方法,其特征在于,所述在对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备的各应用程序分别进行编号,获得每个用户样本中对终端设备的第二编号,所述第二编号包括终端设备的型号的编号、终端设备品牌的编号、终端设备中的各应用程序的编号之后,还包括:
对所述终端设备中的各应用程序分别计算TGI指标,保留满足预设TGI指标的应用程序,所述各应用程序的TGI指标用于反应所述各应用程序在不同年龄段和不同性别的用户中的关注度。
A7、如A6所述的用户个人信息的预测方法,其特征在于,所述对终端设备中的各应用程序分别计算TGI指标,具体包括:
利用公式TGI=(S1/S2)*100计算终端设备中的每个应用程序的TGI指标,其中,S1具体为安装有对应的应用程序并且处于预设年龄段内的目标性别用户数量在处于所述预设年龄段内的目标性别用户总数量中所占的比例,S2具体为安装有所述对应的应用程序的用户数量在总体用户数量中所占的比例。
A8、如A3所述的用户个人信息的预测方法,其特征在于,所述将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型,具体包括:
将所述N个训练样本中的第二编号输入所述分类模型,将所述N个训练样本中的第一编号作为所述分类模型的输出,共同对所述分类模型进行训练;
获得训练后的分类模型,所述训练后的分类模型为所述预测模型。
A9、如A1所述的用户个人信息的预测方法,其特征在于,在将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息之前,还包括:
获得所述待预测用户的终端设备信息。
对所述待预测用户的终端设备信息进行特征处理。
A10、如A9所述的用户个人信息的预测方法,其特征在于,所述对所述待预测用户的终端设备信息进行特征处理,具体包括:
对所述待预测用户的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得所述待预测用户的终端设备的第三编号。
A11、如A10所述的用户个人信息的预测方法,其特征在于,将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息,具体包括:
将待预测用户的终端设备的第三编号输入所述预测模型,获得所述待预测用户的个人信息的第四编号;
基于所述待预测用户的个人信息的第四编号与映射关系,获得所述待预测用户的用户性别和用户年龄,所述待预测用户的个人信息的第四编号包括:所述待预测用户的用户性别编号和所述待预测用户的用户年龄编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
A12、如A1所述的用户个人信息的预测方法,其特征在于,所述分类模型具体包括:卷积神经网络模型、递归神经网络模型、迭代的决策树算法模型。
B13、一种用户的个人信息预测装置,其特征在于,包括:
用户样本获取模块,用于获取N个用户样本,N为正整数;
训练样本获得模块,用于对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本;
预测模块,用于将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型;
个人信息获得模块,用于将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息。
B14、如B13所述的装置,其特征在于,所述用户样本获取模块,具体包括:
第一获得单元,用于获得M个待处理样本;M大于N且为正整数;其中,每个待处理样本信息中包括以下一种或者多种特征参数:用户个人信息,用户使用的终端设备信息;
清洗单元,用于对所述M个待处理样本进行样本清洗,以清除所述M个待处理样本中的缺少所述用户个人信息和/或所述终端设备信息的无效样本信息,获得所述N个用户样本;在所述N个用户样本中,每个用户样本的用户个人信息和所述终端设备信息都存在。
B15、如B13所述的装置,其特征在于,所述训练样本获得模块,具体包括:
第二获得单元,用于对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号;
第三获得单元,用于对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号;
训练样本获得单元,用于将每个用户样本各自的第一编号和每个用户样本各自的第二编号作为每个用户样本各自的训练样本。
B16、如B13所述的装置,其特征在于,所述用户个人信息至少包括:用户性别,用户年龄,所述第二获得单元具体用于:
基于映射关系对所述N个用户样本中的每个用户样本各自的用户个人信息中的用户性别和用户年龄分别进行编号,获得每个用户样本各自的第一编号,所述第一编号包括用户个人信息中的用户性别的编号和用户年龄的编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
B17、如B13所述的装置,其特征在于,所述终端设备信息至少包括:终端设备型号,终端设备品牌,终端设备中的一个或者多个应用程序,所述第三获得单元具体用于:
对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得每个用户样本各自的第二编号,所述第二编号包括终端设备型号的编号、终端设备品牌的编号、终端设备中各应用程序的编号。
B18、如B17所述的装置,其特征在于,还包括:
计算单元,用于对所述终端设备中的各应用程序分别计算TGI指标,保留满足预设TGI指标的应用程序,所述各应用程序的TGI指标用于反应所述各应用程序在不同年龄段和不同性别的用户中的关注度。
B19、如B18所述的装置,其特征在于,所述计算单元具体用于利用公式TGI=(S1/S2)*100计算终端设备中的每个应用程序的TGI指标,其中,S1具体为安装有对应的应用程序并且处于预设年龄段内的目标性别用户数量在处于所述预设年龄段内的目标性别用户总数量中所占的比例,S2具体为安装有所述对应的应用程序的用户数量在总体用户数量中所占的比例。
B20、如B15所述的装置,其特征在于,所述预测模型具体包括:
训练单元,用于将所述N个训练样本中的第二编号输入所述分类模型,将所述N个训练样本中的第一编号作为所述分类模型的输出,共同对所述分类模型进行训练;
第四获得单元,用于获得训练后的分类模型,所述训练后的分类模型为所述预测模型。
C21、如C13所述的装置,其特征在于,还包括:
终端设备信息获得模块,用于获得所述待预测用户的终端设备信息。
特征处理模块,用于对所述待预测用户的终端设备信息进行特征处理。
C22、如C21所述的装置,其特征在于,所述特征处理模块具体用于:
对所述待预测用户的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得所述待预测用户的终端设备的第三编号。
C23、如C22所述的装置,其特征在于,所述个人信息获得模块具体包括:
第五获得单元,用于将待预测用户的终端设备的第三编号输入所述预测模型,获得所述待预测用户的个人信息的第四编号;
第六获得单元,用于基于所述待预测用户的个人信息的第四编号与映射关系,获得所述待预测用户的用户性别和用户年龄,所述待预测用户的个人信息的第四编号包括:所述待预测用户的用户性别编号和所述待预测用户的的用户年龄编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
C24、如C13所述的装置,其特征在于,所述分类模型具体包括:卷积神经网络模型、递归神经网络模型、迭代的决策树算法模型。
C25、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如A1-A12中任一所述的方法步骤。
D26、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如A1-A12中任一所述的方法步骤。
Claims (10)
1.一种用户的个人信息预测方法,其特征在于,包括:
获取N个用户样本,N为正整数;
对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本;
将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型;
将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息。
2.如权利要求1所述的方法,其特征在于,所述获取N个用户样本,具体包括:
获得M个待处理样本;M大于N且为正整数;其中,每个待处理样本信息中包括以下一种或者多种特征参数:用户个人信息,用户使用的终端设备信息;
对所述M个待处理样本进行样本清洗,以清除所述M个待处理样本中的缺少所述用户个人信息和/或所述终端设备信息的无效样本信息,获得所述N个用户样本;在所述N个用户样本中,每个用户样本的用户个人信息和所述终端设备信息都存在。
3.如权利要求2所述的方法,其特征在于,所述对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本,具体包括:
对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号;
对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号;
将每个用户样本各自的第一编号和每个用户样本各自的第二编号作为每个用户样本各自的训练样本。
4.如权利要求3所述的方法,其特征在于,所述用户个人信息至少包括:用户性别,用户年龄;
所述对所述N个用户样本中的每个用户样本各自的用户个人信息进行编号,获得每个用户样本各自的第一编号,具体包括:
基于映射关系对所述N个用户样本中的每个用户样本各自的用户个人信息中的用户性别和用户年龄分别进行编号,获得每个用户样本各自的第一编号,所述第一编号包括用户个人信息中的用户性别的编号和用户年龄的编号;其中,所述映射关系包括:用户性别和编号的对应关系,以及用户年龄和编号的对应关系。
5.如权利要求3所述的方法,其特征在于,所述终端设备信息至少包括:终端设备型号,终端设备品牌,终端设备中的一个或者多个应用程序;
所述对所述N个用户样本中的每个用户样本各自的终端设备信息进行编号,获得每个用户样本各自的第二编号,具体包括:
对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备中的各应用程序分别进行编号,获得每个用户样本各自的第二编号,所述第二编号包括终端设备型号的编号、终端设备品牌的编号、终端设备中各应用程序的编号。
6.如权利要求5所述的方法,其特征在于,所述在对所述N个用户样本中的每个用户样本各自的终端设备信息中的终端设备型号、终端设备品牌、终端设备的各应用程序分别进行编号,获得每个用户样本中对终端设备的第二编号,所述第二编号包括终端设备的型号的编号、终端设备品牌的编号、终端设备中的各应用程序的编号之后,还包括:
对所述终端设备中的各应用程序分别计算TGI指标,保留满足预设TGI指标的应用程序,所述各应用程序的TGI指标用于反应所述各应用程序在不同年龄段和不同性别的用户中的关注度。
7.如权利要求6所述的方法,其特征在于,所述对终端设备中的各应用程序分别计算TGI指标,具体包括:
利用公式TGI=(S1/S2)*100计算终端设备中的每个应用程序的TGI指标,其中,S1具体为安装有对应的应用程序并且处于预设年龄段内的目标性别用户数量在处于所述预设年龄段内的目标性别用户总数量中所占的比例,S2具体为安装有所述对应的应用程序的用户数量在总体用户数量中所占的比例。
8.一种用户的个人信息预测装置,其特征在于,包括:
用户样本获取模块,用于获取N个用户样本,N为正整数;
训练样本获得模块,用于对所述N个用户样本进行特征处理,获得所述N个用户样本各自的训练样本;
预测模块,用于将所述N个用户样本各自的训练样本输入分类模型,以对所述分类模型进行训练,得到用于预测个人信息的预测模型;
个人信息获得模块,用于将待预测用户的终端设备信息输入所述预测模型,获得所述待预测用户的个人信息。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一权利要求所述的方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一权利要求所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811280612.5A CN109614544B (zh) | 2018-10-30 | 2018-10-30 | 一种用户的个人信息的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811280612.5A CN109614544B (zh) | 2018-10-30 | 2018-10-30 | 一种用户的个人信息的预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614544A true CN109614544A (zh) | 2019-04-12 |
CN109614544B CN109614544B (zh) | 2023-11-03 |
Family
ID=66002116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811280612.5A Active CN109614544B (zh) | 2018-10-30 | 2018-10-30 | 一种用户的个人信息的预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614544B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079026A (zh) * | 2019-11-28 | 2020-04-28 | 精硕科技(北京)股份有限公司 | 一种确定人物印象数据的方法、存储介质和装置 |
CN111160604A (zh) * | 2019-11-22 | 2020-05-15 | 深圳壹账通智能科技有限公司 | 缺失信息预测方法、装置、计算机设备及存储介质 |
CN113657917A (zh) * | 2020-05-12 | 2021-11-16 | 上海佳投互联网技术集团有限公司 | 一种基于user-agent的访客性别分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
CN106651409A (zh) * | 2015-10-29 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 预测用户婚姻状态的方法和装置 |
CN108121795A (zh) * | 2017-12-20 | 2018-06-05 | 北京奇虎科技有限公司 | 用户行为预测方法及装置 |
CN108629665A (zh) * | 2018-05-08 | 2018-10-09 | 北京邮电大学 | 一种个性化商品推荐方法和系统 |
-
2018
- 2018-10-30 CN CN201811280612.5A patent/CN109614544B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927675A (zh) * | 2014-04-18 | 2014-07-16 | 北京京东尚科信息技术有限公司 | 判断用户年龄段的方法及装置 |
CN106651409A (zh) * | 2015-10-29 | 2017-05-10 | 北京京东尚科信息技术有限公司 | 预测用户婚姻状态的方法和装置 |
CN108121795A (zh) * | 2017-12-20 | 2018-06-05 | 北京奇虎科技有限公司 | 用户行为预测方法及装置 |
CN108629665A (zh) * | 2018-05-08 | 2018-10-09 | 北京邮电大学 | 一种个性化商品推荐方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160604A (zh) * | 2019-11-22 | 2020-05-15 | 深圳壹账通智能科技有限公司 | 缺失信息预测方法、装置、计算机设备及存储介质 |
CN111079026A (zh) * | 2019-11-28 | 2020-04-28 | 精硕科技(北京)股份有限公司 | 一种确定人物印象数据的方法、存储介质和装置 |
CN111079026B (zh) * | 2019-11-28 | 2023-11-24 | 北京秒针人工智能科技有限公司 | 一种确定人物印象数据的方法、存储介质和装置 |
CN113657917A (zh) * | 2020-05-12 | 2021-11-16 | 上海佳投互联网技术集团有限公司 | 一种基于user-agent的访客性别分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109614544B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614544A (zh) | 一种用户的个人信息的预测方法及装置 | |
CN106294743A (zh) | 应用功能的推荐方法及装置 | |
CN106097043B (zh) | 一种信用数据的处理方法及服务器 | |
CN109388674A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN108121795A (zh) | 用户行为预测方法及装置 | |
CN109885452A (zh) | 性能监控方法、装置及终端设备 | |
CN107944000A (zh) | 航班运价更新方法、装置、电子设备、存储介质 | |
CN109885834B (zh) | 一种用户年龄性别的预测方法及装置 | |
CN106445971A (zh) | 一种应用推荐方法和系统 | |
CN110246037A (zh) | 交易特征预测方法、装置、服务器及可读存储介质 | |
CN110221747A (zh) | 电子书阅读页面的呈现方法、计算设备及计算机存储介质 | |
CN109891387A (zh) | 具有可选择比较属性的浮点指令 | |
CN108052670A (zh) | 一种相机特效的推荐方法及装置 | |
CN110858160B (zh) | 资源调度方法及装置、存储介质和处理器 | |
CN108831561A (zh) | 流感预测模型的生成方法、装置及计算机可读存储介质 | |
CN109635996A (zh) | 房价走势前瞻模型构建方法、装置及存储介质 | |
CN109583946A (zh) | 一种活跃用户数的预测系统及方法 | |
CN113706322A (zh) | 基于数据分析的服务分发方法、装置、设备及存储介质 | |
CN114418187A (zh) | 河道水文信息预测方法、系统、终端设备及存储介质 | |
CN113592605A (zh) | 基于相似产品的产品推荐方法、装置、设备及存储介质 | |
CN110166498A (zh) | 用户类别确定方法及装置、计算机设备及存储介质 | |
CN113627160B (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN109885358A (zh) | 一种基于树形数据结构的红点表示方法及系统 | |
CN109471871A (zh) | 公车管理方法及装置 | |
CN111325614B (zh) | 电子对象的推荐方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |