CN106447374A - 一种用户性别估算方法和系统 - Google Patents
一种用户性别估算方法和系统 Download PDFInfo
- Publication number
- CN106447374A CN106447374A CN201510492688.4A CN201510492688A CN106447374A CN 106447374 A CN106447374 A CN 106447374A CN 201510492688 A CN201510492688 A CN 201510492688A CN 106447374 A CN106447374 A CN 106447374A
- Authority
- CN
- China
- Prior art keywords
- sex
- user
- group
- interest group
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 241001061260 Emmelichthys struhsakeri Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种用户性别估算方法和系统;本发明实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;该方案不仅可以提高估算的准确性,而且,可以提高可估算用户的覆盖率。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种用户性别估算方法和系统。
背景技术
随着互联网技术的发展,各种即时通信和社交应用也如雨后春笋般应运而生。即时通信和社交应用中所涉及的大量用户数据,比如用户的喜好、年龄和性别等等,对于信息的投放,如广告的投放有着极大的意义。
在传统的技术中,用户性别的确定,一般都依赖于用户的自行填写,或者,通过关联的其他应用中性别的填写来确定,但是,这种方式最多只能覆盖50%的用户,仍然存在有大量无法确认其性别的用户,而且,可信度也不高,从而导致后续无法实现信息的准确投放。为此,现有技术又提出了一种性别估算方案,在该方案中,可以获取用户的公众号订阅行为、以及阅读行为,然后依据该公众号订阅行为、以及阅读行为来对用户的性别进行估算,从而实现确定用户性别的目的。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有的用户性别估算方案虽然在一定程度中可以估算出用户的性别,但是,其可估算的用户的覆盖率较低,比如,对于没有公众号订阅行为、以及阅读行为的这部分用户而言,便无法确认其性别,等等。
发明内容
本发明实施例提供一种用户性别估算方法和系统,不仅可以提高用户性别估算的准确性,而且可提高可估算用户的覆盖率。
本发明实施例提供一种用户性别估算方法,包括:
识别用户关联的兴趣群;
获取所述兴趣群的群成员关系链数据;
根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;
基于所述预估性别确定所述用户的性别。
相应的,本发明实施例还提供一种用户性别估算系统,包括:
识别单元,用于识别用户关联的兴趣群;
获取单元,用于获取所述兴趣群的群成员关系链数据;
估算单元,用于根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;
确定单元,用于基于所述预估性别确定所述用户的性别。
本发明实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近,而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的用户性别估算方法的场景示意图;
图1b是本发明实施例提供的用户性别估算方法的流程图;
图2是本发明实施例提供的用户性别估算方法的另一流程图;
图3a是本发明实施例提供的用户性别估算系统的结构示意图;
图3b是本发明实施例提供的用户性别估算系统的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种用户性别估算方法和系统。
参见图1a,该用户性别估算系统可以根据大数定律,通过利用用户的兴趣群中群成员关系链数据、以及群成员性别的分布数据等进行分析筛选,然后将群成员中占比最大的性别对用户自身的性别进行近似迁移,从而对未知的用户性别作出较为准确的估计。
比如,图1a中用户所关联的兴趣群为兴趣群A、兴趣群B和兴趣群C等,则可以根据这些兴趣群中的群成员关系链数据,分别估算这些兴趣群中占比最大的性别,得到兴趣群对应的预估性别,比如兴趣群A对应的预估性别为男性,兴趣群B对应的预估性别为男性,等等,然后基于这些预估性别确定该用户的性别,比如,由于占最大占比的性别为男性,则确定该用户的性别为男性,等等。
该用户性别估算系统可以作为独立的实体存在,也可以作为信息投放系统的一部分,以便后续协助信息投放系统进行精准信息投放,如广告投放,等等。
以下将分别进行详细说明。
实施例一、
在本实施例中,将从用户性别估算系统的角度进行描述,该用户性别估算系统具体可以集成在服务器等设备中。
一种用户性别估算方法,包括:识别用户关联的兴趣群,获取该兴趣群的群成员关系链数据,根据该群成员关系链数据估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别,基于该预估性别确定该用户的性别。
如图1b所示,该用户性别估算方法的具体流程可以如下:
101、识别用户关联的兴趣群。
其中,识别兴趣群的方式可以有多种,例如,可以按群主创建群时选择的群分类类别来进行识别,和/或,也可以按群名称、群简介等关键词来进行识别,在此不再赘述。
可选的,可以将识别出的兴趣群添加到同一个集合,比如将识别出的兴趣群的群标识(ID,Identity)添加到同一兴趣群列表中,并建立该集合如兴趣群列表与用户标识之间的映射关系,以便后续进行查找。
102、获取该兴趣群的群成员关系链数据。
例如,具体可以根据该兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,等等。
比如,以在步骤101中已经得到了用户的兴趣群列表为例,则此时可以根据该兴趣群列表确定当前需要处理的兴趣群,然后根据该当前需要处理的兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,然后执行步骤103,得到该当前需要处理的兴趣群所对应的预估性别,并返回执行根据该兴趣群列表确定当前需要处理的兴趣群的步骤,直至得到该兴趣群列表中所有兴趣群所对应的预估性别为止。
其中,群成员关系链数据,指的是在即时通讯软件,如QQ和/或微信等应用中,与用户在同一兴趣群内的各个群成员之间的关系链。
比如,与用户在同一QQ兴趣群内的甲和乙,其中,甲的QQ与微信关联,而乙的QQ与微博关联,则甲在QQ上所公开的数据,以及甲在微信上所公开的数据,以及乙在QQ上所公开的数据,以及乙在微博上所公开的数据,均属于该群成员关系链数据之一,在此不再赘述。
由于该方案的实现需要基于群成员关系链数据,因此,为了提高处理效率,避免在缺失群成员关系链数据的兴趣群中耗费过多的计算资源,可选的,在获取该兴趣群的群成员关系链数据之前,还可以将群成员列表为空(即除用户之外,不存在其他群成员)的兴趣群进行删除,即在步骤“获取该兴趣群的群成员关系链数据”之前,该用户性别估算方法还可以包括:
确定该兴趣群是否存在除用户之外的其他群成员,若存在,则执行获取该兴趣群的群成员关系链数据的步骤,即执行步骤102;若不存在,则删除该兴趣群。
103、根据该群成员关系链数据估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。
例如,可以根据该群成员关系链数据确定出已知性别用户,得到已知性别用户集合,根据该已知性别用户集合中用户的性别估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。
比如,如果该兴趣群中有15位群成员,其中,已知有12个群成员的性别为男性,1个群成员的性别为女性,另外两位群成员的性别为未知,则此时可以确定该兴趣群对应的预估性别为男性。
104、基于该预估性别确定该用户的性别。
例如,可以对用户关联的所有兴趣群所对应的预估性别进行统计,根据统计结果确定占比最大的性别为该用户的性别。
比如,以该用户关联了兴趣群A、兴趣群B、兴趣群C和兴趣群D为例,若兴趣群A、兴趣群B和兴趣群D的预估性别均为男性,只有兴趣群C的预估性别均为女性,则可以确定该用户的性别为男性,以此类推,在此不再赘述。
可选的,为了提高预估的准确率,在基于该预估性别确定用户的性别之前,还可以包括:
对该预估性别的准确率进行评估;若评估结果高于预置阈值,则执行基于该预估性别确定该用户的性别的步骤。
否则,若评估结果低于预置阈值,则可以忽略该兴趣群的预估性别,比如,还是以该用户关联了兴趣群A、兴趣群B、兴趣群C和兴趣群D为例,若兴趣群A的评估结果低于预置阈值,则在确定用户的性别时,可以只以兴趣群B、兴趣群C和兴趣群D的预估性别作为参考。
其中,对预估性别的准确率进行评估的方式可以多种,比如,可以采用上述用户性别的估算方法对已知性别的用户进行估算,然后将估算得到性别与已知性别进行对比,便可得到其准确率,具体可以如下:
从该已知性别用户集合中确定评估样本,将该评估样本作为用户,并返回执行识别用户关联的兴趣群的步骤(即步骤101),以得到该评估样本的估算性别,将该评估样本的估算性别与该评估样本的已知性别进行比较,根据比较结果统计准确率,得到该预估性别的准确率。
其中,该评估样本至少为一个,其数量越多,所得到的评估结果的准确性越高。
由上可知,本实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近(根据不同分类群组的群成员方差分析结论可知,兴趣群的群成员性别较为接近),而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。总而言之,该方法不仅可以大大提高其估算的准确性,而且也可以大大提高可估算用户的覆盖率,有利于提高后续信息推广,如广告推广的精确性。
实施例二、
根据实施例一所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以估算用户K的性别,且用户K所关联的兴趣群为兴趣群A、兴趣群B、兴趣群C和兴趣群D为例进行说明。
如图2所示,一种用户性别估算方法,具体流程可以如下:
201、用户性别估算系统识别用户K关联的兴趣群,得到用户K对应的兴趣群列表。
比如,若用户K关联的兴趣群为兴趣群A、兴趣群B、兴趣群C和兴趣群D,则此时可以将兴趣群A、兴趣群B、兴趣群C和兴趣群D添加到该用户K对应的兴趣群列表中。
其中,识别兴趣群的方式可以有多种,例如,可以按群主创建群时选择的群分类类别来进行识别,和/或,也可以按群名称、群简介等关键词来进行识别,在此不再赘述。
202、用户性别估算系统根据该兴趣群列表确定当前需要处理的兴趣群,比如兴趣群A,然后根据该当前需要处理的兴趣群的群标识获取该兴趣群的群成员关系链数据。
例如,具体可以根据该兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,等等。
可选的,为了提高处理效率,避免在缺失群成员关系链数据的兴趣群中耗费过多的计算资源,在获取该兴趣群的群成员关系链数据之前,还可以将群成员列表为空(即除用户之外,不存在其他群成员)的兴趣群在该兴趣群列表中进行删除。
203、用户性别估算系统根据该群成员关系链数据估算该当前需要处理的兴趣群中占比最大的性别,得到该当前需要处理的兴趣群对应的预估性别。
例如,以该兴趣群为兴趣群A为例,则用户性别估算系统可以根据兴趣群A的群成员关系链数据确定出已知性别用户,得到已知性别用户集合,根据该已知性别用户集合中用户的性别估算兴趣群A中占比最大的性别,得到兴趣群A对应的预估性别。
比如,如果兴趣群A中有15位群成员,其中,已知有12个群成员的性别为男性,1个群成员的性别为女性,另外两位群成员的性别为未知,则此时可以确定兴趣群A对应的预估性别为男性,等等。
204、用户性别估算系统确定用户K对应的兴趣群列表中是否还存在尚未处理的兴趣群,若是,则返回执行步骤202,若否,则执行步骤205。
例如,在得到兴趣群A的预估性别之后,由于该兴趣群列表中是否还存在有兴趣群B、兴趣群C和兴趣群D尚未处理,因此,此时用户性别估算系统可以确定下一个兴趣群,如兴趣群B作为当前需要处理的兴趣群,然后获取兴趣群B的群成员关系链数据,详见步骤202;而若该兴趣群列表中的所有兴趣群都处理完毕,即已得到这些兴趣群的预估性别,则可以执行步骤205。
205、用户性别估算系统对该兴趣群列表中所有兴趣群所对应的预估性别进行统计,根据统计结果确定占比最大的性别为该用户的性别。
比如,若兴趣群A、兴趣群B和兴趣群D的预估性别均为男性,只有兴趣群C的预估性别均为女性,则可以确定该用户的性别为男性,以此类推,在此不再赘述。
可选的,为了提高预估的准确率,在基于该预估性别确定用户的性别之前,还可以对该预估性别的准确率进行评估,若评估结果高于预置阈值,才执行步骤205(即基于该预估性别确定该用户的性别的步骤)。
否则,若评估结果低于预置阈值,则可以忽略该兴趣群的预估性别,比如,还是以该用户关联了兴趣群A、兴趣群B、兴趣群C和兴趣群D为例,若兴趣群A的评估结果低于预置阈值,则在确定用户的性别时,可以只以兴趣群B、兴趣群C和兴趣群D的预估性别作为参考。
其中,对预估性别的准确率进行评估的方式可以多种,比如,可以采用上述用户性别的估算方法对已知性别的用户进行估算,然后将估算得到性别与已知性别进行对比,便可得到其准确率,详见实施例一,在此不再赘述。
由上可知,本实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近,而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。总而言之,该方法不仅可以大大提高其估算的准确性,而且也可以大大提高可估算用户的覆盖率,有利于提高后续信息推广,如广告推广的精确性。
实施例三、
为了更好地实施以上方法,本发明实施例还提供一种用户性别估算系统,如图3a所示,该用户性别估算系统包括识别单元301、获取单元302、估算单元303和确定单元304,如下:
识别单元301,用于识别用户关联的兴趣群。
其中,识别兴趣群的方式可以有多种,例如,可以按群主创建群时选择的群分类类别来进行识别,和/或,也可以按群名称、群简介等关键词来进行识别,在此不再赘述。
获取单元302,用于获取该兴趣群的群成员关系链数据。
例如,获取单元302,具体可以根据该兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,等等。
估算单元303,用于根据该群成员关系链数据估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。
例如,估算单元303,具体可以用于根据该群成员关系链数据确定出已知性别用户,得到已知性别用户集合,根据该已知性别用户集合中用户的性别估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。
比如,如果该兴趣群中有15位群成员,其中,已知有12个群成员的性别为男性,1个群成员的性别为女性,另外两位群成员的性别为未知,则此时可以确定该兴趣群对应的预估性别为男性。
确定单元304,用于基于该预估性别确定该用户的性别。
例如,确定单元304,具体可以用于对用户关联的所有兴趣群所对应的预估性别进行统计,根据统计结果确定占比最大的性别为该用户的性别。
可选的,为了提高预估的准确率,在基于该预估性别确定用户的性别之前,还可以对该预估性别的准确率进行评估,在评估结果高于预置阈值时,才作为确定该用户的性别的参考,即如图3b所示,该用户性别估算系统还可以包括评估单元305,如下:
评估单元305,可以用于对该预估性别的准确率进行评估。
则此时,确定单元304,具体可以用于在该评估单元305得到的评估结果高于预置阈值时,基于该预估性别确定该用户的性别。
其中,对预估性别的准确率进行评估的方式可以多种,比如,可以采用上述用户性别的估算方法对已知性别的用户进行估算,然后将估算得到性别与已知性别进行对比,便可得到其准确率,即:
评估单元305,具体可以用于从该已知性别用户集合中确定评估样本,将该评估样本作为用户,并触发识别单元执行识别用户关联的兴趣群的操作,以得到该评估样本的估算性别,将该评估样本的估算性别与该评估样本的已知性别进行比较,根据比较结果统计准确率,得到该预估性别的准确率。
其中,该评估样本至少为一个,其数量越多,所得到的评估结果的准确性越高。
此外,为了提高处理效率,避免在缺失群成员关系链数据的兴趣群中耗费过多的计算资源,可选的,在获取该兴趣群的群成员关系链数据之前,还可以将群成员列表为空(即除用户之外,不存在其他群成员)的兴趣群进行删除,即如图3b所示,该用户性别估算系统还可以包括清洗单元306,如下:
清洗单元306,可以用于确定该兴趣群是否存在除用户之外的其他群成员;若存在,则触发获取单元执行获取该兴趣群的群成员关系链数据的操作,若不存在,则删除该兴趣群。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
需说明的是,该用户性别估算系统可以作为独立的实体存在,也可以作为其他系统,如信息投放系统的一部分来实现,以便后续协助信息投放系统进行精准信息投放,如广告投放,等等。该用户性别估算系统具体可以集成在服务器等设备中。
由上可知,本实施例的用户性别估算系统可以由识别单元301识别用户关联的兴趣群,然后由获取单元302获取这些兴趣群的群成员关系链数据,并由估算单元303根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,由确定单元304基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近,而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。总而言之,该方法不仅可以大大提高其估算的准确性,而且也可以大大提高可估算用户的覆盖率,有利于提高后续信息推广,如广告推广的精确性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种用户性别估算方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种用户性别估算方法,其特征在于,包括:
识别用户关联的兴趣群;
获取所述兴趣群的群成员关系链数据;
根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;
基于所述预估性别确定所述用户的性别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到预估性别,包括:
根据所述群成员关系链数据确定出已知性别用户,得到已知性别用户集合;
根据所述已知性别用户集合中用户的性别估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别。
3.根据权利要求1所述的方法,其特征在于,所述基于所述预估性别确定所述用户的性别,包括:
对用户关联的所有兴趣群所对应的预估性别进行统计;
根据统计结果确定占比最大的性别为所述用户的性别。
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述预估性别确定所述用户的性别之前,还包括:
对所述预估性别的准确率进行评估;
若评估结果高于预置阈值,则执行基于所述预估性别确定所述用户的性别的步骤。
5.根据权利要求4所述的方法,其特征在于,所述对所述预估性别的准确率进行评估,包括:
从所述已知性别用户集合中确定评估样本;
将所述评估样本作为用户,并返回执行识别用户关联的兴趣群的步骤,以得到所述评估样本的估算性别;
将所述评估样本的估算性别与所述评估样本的已知性别进行比较;
根据比较结果统计准确率,得到所述预估性别的准确率。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述获取所述兴趣群的群成员关系链数据之前,还包括:
确定所述兴趣群是否存在除用户之外的其他群成员;
若存在,则执行获取所述兴趣群的群成员关系链数据的步骤;
若不存在,则删除所述兴趣群。
7.一种用户性别估算系统,其特征在于,包括:
识别单元,用于识别用户关联的兴趣群;
获取单元,用于获取所述兴趣群的群成员关系链数据;
估算单元,用于根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;
确定单元,用于基于所述预估性别确定所述用户的性别。
8.根据权利要求7所述的系统,其特征在于,
所述估算单元,具体用于根据所述群成员关系链数据确定出已知性别用户,得到已知性别用户集合;根据所述已知性别用户集合中用户的性别估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别。
9.根据权利要求7所述的系统,其特征在于,
所述确定单元,具体用于对用户关联的所有兴趣群所对应的预估性别进行统计,根据统计结果确定占比最大的性别为所述用户的性别。
10.根据权利要求8或9所述的系统,其特征在于,还包括评估单元;
所述评估单元,用于对所述预估性别的准确率进行评估。
所述确定单元,具体用于在所述评估单元得到的评估结果高于预置阈值时,基于所述预估性别确定所述用户的性别。
11.根据权利要求10所述的系统,其特征在于,
所述评估单元,具体用于从所述已知性别用户集合中确定评估样本,将所述评估样本作为用户,并触发识别单元执行识别用户关联的兴趣群的操作,以得到所述评估样本的估算性别,将所述评估样本的估算性别与所述评估样本的已知性别进行比较,根据比较结果统计准确率,得到所述预估性别的准确率。
12.根据权利要求7至9任一项所述的系统,其特征在于,还包括清洗单元;
所述清洗单元,用于确定所述兴趣群是否存在除用户之外的其他群成员;若存在,则触发获取单元执行获取所述兴趣群的群成员关系链数据的操作,若不存在,则删除所述兴趣群。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510492688.4A CN106447374A (zh) | 2015-08-12 | 2015-08-12 | 一种用户性别估算方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510492688.4A CN106447374A (zh) | 2015-08-12 | 2015-08-12 | 一种用户性别估算方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106447374A true CN106447374A (zh) | 2017-02-22 |
Family
ID=58093359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510492688.4A Pending CN106447374A (zh) | 2015-08-12 | 2015-08-12 | 一种用户性别估算方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106447374A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020155A (zh) * | 2017-12-06 | 2019-07-16 | 广东欧珀移动通信有限公司 | 用户性别识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101635009A (zh) * | 2009-08-21 | 2010-01-27 | 腾讯科技(深圳)有限公司 | 基于海量数据的用户年龄估算方法及系统 |
US20120083255A1 (en) * | 2010-10-04 | 2012-04-05 | Telefonica, S.A. | Method for gender identification of a cell-phone subscriber |
US20120136959A1 (en) * | 2010-11-29 | 2012-05-31 | Rajeev Anand Kadam | Determining demographics based on user interaction |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN104598648A (zh) * | 2015-02-26 | 2015-05-06 | 苏州大学 | 一种微博用户交互式性别识别方法及装置 |
CN104657369A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市腾讯计算机系统有限公司 | 用户属性信息的生成方法及系统 |
-
2015
- 2015-08-12 CN CN201510492688.4A patent/CN106447374A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101635009A (zh) * | 2009-08-21 | 2010-01-27 | 腾讯科技(深圳)有限公司 | 基于海量数据的用户年龄估算方法及系统 |
US20120083255A1 (en) * | 2010-10-04 | 2012-04-05 | Telefonica, S.A. | Method for gender identification of a cell-phone subscriber |
US20120136959A1 (en) * | 2010-11-29 | 2012-05-31 | Rajeev Anand Kadam | Determining demographics based on user interaction |
CN103309990A (zh) * | 2013-06-18 | 2013-09-18 | 上海晶樵网络信息技术有限公司 | 基于互联网用户公开信息的用户多维度分析与监测方法 |
CN104657369A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市腾讯计算机系统有限公司 | 用户属性信息的生成方法及系统 |
CN104598648A (zh) * | 2015-02-26 | 2015-05-06 | 苏州大学 | 一种微博用户交互式性别识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020155A (zh) * | 2017-12-06 | 2019-07-16 | 广东欧珀移动通信有限公司 | 用户性别识别方法及装置 |
US11544583B2 (en) | 2017-12-06 | 2023-01-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for gender recognition of user and related products |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109561322B (zh) | 一种视频审核的方法、装置、设备和存储介质 | |
Subbian et al. | Detecting large reshare cascades in social networks | |
CN108959319B (zh) | 信息推送方法和装置 | |
CN104899267B (zh) | 一种社交网站账号相似度的综合数据挖掘方法 | |
CN104391979A (zh) | 网络恶意爬虫识别方法及装置 | |
CN106649831B (zh) | 一种数据过滤方法及装置 | |
CN106294508B (zh) | 一种刷量工具检测方法及装置 | |
CN107305611B (zh) | 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置 | |
CN108920617B (zh) | 一种数据采集的判定系统及方法、信息数据处理终端 | |
CN104933191A (zh) | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 | |
CN109885656B (zh) | 基于量化热度的微博转发预测方法及装置 | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
CN104537118A (zh) | 一种微博数据处理方法、装置及系统 | |
CN105871585A (zh) | 终端关联方法及装置 | |
CN110222790A (zh) | 用户身份识别方法、装置及服务器 | |
CN113033909A (zh) | 携转用户分析方法、装置、设备及计算机存储介质 | |
CN111160919B (zh) | 一种区块链地址风险评估方法及装置 | |
CN105408894A (zh) | 一种用户身份类别确定方法以及装置 | |
CN115632874A (zh) | 一种实体对象的威胁检测方法、装置、设备及存储介质 | |
CN106411704A (zh) | 一种分布式垃圾短信识别方法 | |
CN106447374A (zh) | 一种用户性别估算方法和系统 | |
CN104992060A (zh) | 用户年龄估计方法及装置 | |
CN108369559B (zh) | 应用了图像处理的文档结构分析装置 | |
KR101928822B1 (ko) | 사물 인터넷 환경에서 낯선 기기에 대한 사용자 신뢰도 계산 시스템 및 방법 | |
CN109992960B (zh) | 一种伪造参数检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170222 |
|
RJ01 | Rejection of invention patent application after publication |