CN107491509A - 一种用户属性信息挖掘方法、装置和介质 - Google Patents

一种用户属性信息挖掘方法、装置和介质 Download PDF

Info

Publication number
CN107491509A
CN107491509A CN201710652246.0A CN201710652246A CN107491509A CN 107491509 A CN107491509 A CN 107491509A CN 201710652246 A CN201710652246 A CN 201710652246A CN 107491509 A CN107491509 A CN 107491509A
Authority
CN
China
Prior art keywords
user
application
attribute information
registered user
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710652246.0A
Other languages
English (en)
Other versions
CN107491509B (zh
Inventor
刘畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710652246.0A priority Critical patent/CN107491509B/zh
Publication of CN107491509A publication Critical patent/CN107491509A/zh
Application granted granted Critical
Publication of CN107491509B publication Critical patent/CN107491509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户属性信息挖掘方法、装置和介质,用以准确识别用户的属性信息。所述方法包括:分别获取第一应用的各个注册用户之间的交互数据,以及所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息;根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值;根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户;根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。

Description

一种用户属性信息挖掘方法、装置和介质
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种用户属性信息挖掘方法、装置和介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
网络游戏(Online Game)简称“网游”,又称“在线游戏”。是指以互联网为传输媒介,以游戏运营商服务器和用户计算机为处理终端,以游戏客户端软件为信息交互窗口的旨在实现娱乐、休闲、交流和取得虚拟成就的、具有可持续性的个体性多人在线游戏。网络游戏的区别与单机游戏,因为用户必须通过互联网连接来进行多人游戏。
随着网络游戏门槛幅度的降低,网络游戏用户的年龄层也正在逐渐降低,但是,网络游戏可能影响低龄用户的心智健康的发展,因此,根据相关规定,用户需满足一定年龄才可以注册,网络游戏服务器虽然设置了用户注册年龄门槛,但是注册时的年龄为用户提供,为了满足网络游戏注册要求,目前,存在大量低龄用户在注册网络游戏时提供虚假年龄信息的问题,而网络服务器无法识别注册用户的真正年龄,由此导致大量不满足年龄要求的用户仍然能够注册网络游戏。
因此,如何识别网络游戏用户的实际年龄成为现有技术中亟待解决的技术问题之一。
发明内容
为了识别网络游戏用户实际年龄,本发明实施例提供了一种用户属性信息挖掘方法、装置和介质。
本发明实施例提供一种用户属性信息挖掘方法,包括:
分别获取第一应用的各个注册用户之间的交互数据,以及所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息;
根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值;
根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户;
根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。
优选地,根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值,具体包括:
针对任两个第一应用注册用户,根据该两个第一应用注册用户之间的交互数据确定该两个第一应用注册用户之间的交互次数;
根据该两个第一应用注册用户之间的交互次数,确定该两个第一应用注册用户之间的影响权值。
优选地,根据该两个第一应用注册用户之间的交互次数,确定该两个第一应用注册用户之间的影响权值,具体包括:
根据该两个第一应用注册用户之间的交互次数,分别确定该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率;
根据该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率,确定该两个第一应用注册用户之间的影响权值。
优选地,根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户,具体包括:
根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,如果确定至少两个第二应用注册用户中的用户属性信息相同,则确定所述第一应用注册用户为确定属性用户;如果确定至少两个第二应用注册账户中的用户属性信息不同,则确定所述第一应用注册用户为未知属性用户。
优选地,所述用户属性信息包括至少两个类别的属性信息;以及
根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息,具体包括:
根据第一应用的各个注册用户彼此之间的影响权值,建立第一应用注册用户彼此之间的影响权值矩阵;以及
根据确定属性用户对应的用户属性信息和所述用户属性信息包括的至少两个类别的属性信息,确定每一确定属性用户对应于每一类别属性信息的类别标签值;
根据每一确定属性用户对应于每一类别属性信息的类别标签值和每一未知属性用户对应于每一类别属性信息的类别标签值,建立第一应用注册用户对应于每一类别属性信息的第一类别标签矩阵,其中,每一未知属性用户对应于每一类别属性信息的类别标签值为预设值;
根据所述影响权值矩阵和所述第一类别标签矩阵的乘积确定第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵;
针对每一未知属性用户,根据第二类别标签矩阵中该未知属性用户对应于每一类别属性信息的类别标签值,选择类别标签值最大的类别属性信息为该未知属性用户对应的属性信息。
优选地,根据所述影响权值矩阵和所述第一类别标签矩阵的乘积确定第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵,具体包括:
利用所述影响权值矩阵,对所述影响权值矩阵和所述第一类别标签矩阵的乘积结果进行迭代得到第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵,直至迭代次数达到预设次数或者所述第二类别标签矩阵中各类别标签值达到稳定状态,其中,在每一次迭代开始前,针对每一确定属性用户,恢复上次迭代得到的乘积结果中所包含的该确定属性用户对应的类别标签值为第一类别标签矩阵中包含的、该确定属性用户对应的类别标签值。
本发明实施例提供一种用户属性信息挖掘装置,包括:
获取单元,用于分别获取第一应用的各个注册用户与其它第一应用注册用户之间的交互数据,以及所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息;
第一确定单元,用于根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值;
划分单元,用于根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户;
第二确定单元,用于根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。
优选地,所述第一确定单元,包括:
第一确定子单元,用于针对任两个第一应用注册用户,根据该两个第一应用注册用户之间的交互数据确定该两个第一应用注册用户之间的交互次数;
第二确定子单元,用于根据该两个第一应用注册用户之间的交互次数,确定该两个第一应用注册用户之间的影响权值。
优选地,所述第二确定子单元,具体用于根据该两个第一应用注册用户之间的交互次数,分别确定该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率;根据该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率,确定该两个第一应用注册用户之间的影响权值。
优选地,所述划分单元,具体用于根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,如果确定至少两个第二应用注册用户中的用户属性信息相同,则确定所述第一应用注册用户为确定属性用户;如果确定至少两个第二应用注册账户中的用户属性信息不同,则确定所述第一应用注册用户为未知属性用户。
优选地,所述用户属性信息包括至少两个类别的属性信息;以及
所述第二确定单元,具体包括:
第一矩阵建立子单元,用于根据第一应用的各个注册用户彼此之间的影响权值,建立第一应用注册用户彼此之间的影响权值矩阵;
第三确定子单元,用于根据确定属性用户对应的用户属性信息和所述用户属性信息包括的至少两个类别的属性信息,确定每一确定属性用户对应于每一类别属性信息的类别标签值;
第二矩阵建立子单元,用于根据每一确定属性用户对应于每一类别属性信息的类别标签值和每一未知属性用户对应于每一类别属性信息的类别标签值,建立第一应用注册用户对应于每一类别属性信息的第一类别标签矩阵,其中,每一未知属性用户对应于每一类别属性信息的类别标签值为预设值;
第四确定子单元,用于根据所述影响权值矩阵和所述第一类别标签矩阵的乘积确定第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵;
选择子单元,用于针对每一未知属性用户,根据第二类别标签矩阵中该未知属性用户对应于每一类别属性信息的类别标签值,选择类别标签值最大的类别属性信息为该未知属性用户对应的属性信息。
优选地,所述第四确定子单元,具体用于利用所述影响权值矩阵,对所述影响权值矩阵和所述第一类别标签矩阵的乘积结果进行迭代得到第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵,直至迭代次数达到预设次数或者所述第二类别标签矩阵中各类别标签值达到稳定状态,其中,在每一次迭代开始前,针对每一确定属性用户,恢复上次迭代得到的乘积结果中所包含的该确定属性用户对应的类别标签值为第一类别标签矩阵中包含的、该确定属性用户对应的类别标签值。
本发明实施例提供一种用户属性信息挖掘装置,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行上述任一方法的步骤。
本发明实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序产品在用户属性信息挖掘装置上运行时,所述程序代码用于使所述用户属性信息挖掘装置执行上述任一方法的步骤。
本发明实施例提供的用户属性信息挖掘方法、装置和介质,一方面,根据第一应用的各个注册用户之间的交互数据确定在第一应用中两两用户彼此之间的影响权值,另一方面,根据注册用户在不同的第二应用中预留的用户属性信息将用户划分为确定属性用户和未知属性用户,进而利用确定属性用户和两两用户之间的影响权值确定出未知属性用户的属性信息,从而解决了无法识别用户属性的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例的应用场景示意图;
图2为本发明实施例中,用户属性信息挖掘方法的实施流程示意图;
图3为本发明实施例中,用户A、用户B和用户C三者之间的影响权值对应的关系链示意图;
图4为本发明实施例中,确定未知属性用户的属性信息的流程示意图;
图5为本发明实施例中,利用影响权值对第一类别标签矩阵进行迭代得到第二类别标签矩阵的流程示意图;
图6为本发明实施例中,第一种用户属性信息挖掘装置的结构示意图;
图7为本发明实施例中,第二种用户属性信息挖掘装置的结构示意图。
具体实施方式
本发明实施例提供一种用户属性信息挖掘方法、装置和介质,用以准确识别用户的属性信息。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本发明实施例的应用场景示意图。用户10通过用户设备11在不同的应用服务器进行注册成为注册用户,如图1中所示的应用服务器12,应用服务器13和应用服务器14,其中,应用服务器可以为用户提供不同的互联网业务,例如,应用服务器可以为网络游戏服务器,其可以为用户提供网络游戏业务,应用服务器也可以为即时通信服务器,其可以为用户提供即时通信业务,应用服务器还可以为电子书阅读服务器,其可以为用户提供电子书阅读业务,应用服务器还可以为音乐服务器,其可以为用户提供音乐业务,应用服务器还可以为电子商务服务器,其可以为用户提供在线购物业务等等。
用户通过向不同的应用服务器发送注册请求成为注册用户,应用服务器根据用户注册时预留的用户标识识别不同的用户,其中,用户标识可以为用户名称、用户手机号码或者用户邮箱等等,不同应用服务器用户注册的用户标识可以不同。在用户授权后,不同的应用服务器之间还可以互相绑定彼此的用户帐户,用户帐户绑定后,应用服务器可以通过任一用户标识识别同一用户,这样,通过收集来自于不同应用服务器的用户数据对用户行为和习惯进行分析,根据分析结果为用户提供个性化的服务。
用户设备11、应用服务器12、应用服务器13和应用服务器14之间通过通信网络进行连接,该网络可以为局域网、广域网等。用户设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),应用服务器12、应用服务器13和应用服务器14可以为任何能够提供互联网业务的服务器设备。
下面结合图1所示的应用场景,参考图2~图5来描述根据本发明示例性实施方式的用户属性信息挖掘方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
实施例一
如图2所示,其为本发明实施例提供的用户属性信息挖掘方法的实施流程示意图,可以包括以下步骤:
S21、分别获取第一应用的各个注册用户之间的交互数据,以及所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息。
其中,第一应用可以为任一互联网应用,例如,其可以为网络游戏,相应地,第一应用注册用户可以为网络游戏注册用户;第二应用可以为除第一应用以外的其它互联网应用,例如,第二应用可以为即时通信应用或者电子商务应用,相应地,第二应用注册用户可以为即时通信注册用户或者电子商务注册用户等等。
以第一应用注册用户为网络游戏注册用户为例,具体实施时,可以根据网络游戏注册用户对应的用户标识获取该网络游戏用户与其它游戏用户之间的游戏交互数据,该游戏交互数据可以为用户与其它游戏用户之间的对战数据,也可以为用户与其它游戏用户之间在游戏过程中的聊天数据或者装备赠送数据等等。
具体实施时,第一应用注册用户还可以为即时通信注册用户,这种实施方式中,可以根据即时通信注册用户对应的用户标识获取该即时通信用户与其它即时通信用户之间的交互数据,该交互数据可以包括用户与其它即时通信用户之间的聊天数据,文件传输数据,朋友圈评论或者点赞数据等等。
另外,针对待确定的用户属性,还需要根据第一应用注册用户关联的至少两个其它应用注册用户中提取该用户属性对应的用户属性信息。以待确定的用户属性为年龄,第一应用注册用户为网络游戏用户,第二应用注册用户为即时通信注册用户和电子商务注册用户为例,针对每一网络游戏注册账户,提取该网络游戏注册用户与其它网络游戏用户之间的交互数据之后,还需要从该网络游戏注册账户关联的即时通信注册用户和电子商务注册用户中提取该用户的年龄数据。
为了便于描述,以下以第一应用为网络游戏应用,第二应用分别为即时通信应用和电子商务应用为例进行说明。
S22、根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值。
具体实施时,两个网络游戏注册用户之间的交互次数越多,说明这两个网络游戏注册用户之间的关系越紧密,因此,可以利用两个网络游戏注册用户之间的交互次数来衡量两个网络游戏注册用户之间的关系。
基于此,本步骤中,针对任两个第一应用注册用户,根据该两个第一应用注册用户之间的交互数据确定该两个第一应用注册用户之间的交互次数;根据该两个第一应用注册用户之间的交互次数,确定该两个第一应用注册用户之间的影响权值。
较佳地,根据该两个第一应用注册用户之间的交互次数,可以分别确定该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率;根据该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率,确定该两个第一应用注册用户之间的影响权值。
例如,针对第一应用注册用户i和第一应用注册用户j,分别提取第一应用注册用户i与其他注册用户之间的交互数据,以及第一应用注册用户j与其他注册用户之间的交互数据,根据提取的数据,分别统计第一应用注册用户i和第一应用注册用户j之间的交互次数以及第一应用注册用户i与其他注册用户之间的交互总次数和第一应用注册用户j与其他注册用户之间的交互总次数,假设第一应用注册用户i和第一应用注册用户j之间的交互次数为ri,j,第一应用注册用户i与其他注册用户之间的交互总次数为第一应用注册用户j与其他注册用户之间的交互总次数为则可以确定第一应用注册用户i与第一应用注册用户j之间的交互次数占第一应用注册用户i与其他注册用户之间的交互总次数的比率为第一应用注册用户j与第一应用注册用户i之间的交互次数占第一应用注册用户j与其他注册用户之间的交互总次数的比率为其中,rj,r=ri,j,为第一应用注册用户j和第一应用注册用户i之间的交互次数。
具体实施时,可以确定第一应用注册用户i与第一应用注册用户j之间的交互次数占第一应用注册用户i与其他注册用户之间的交互总次数的比率与第一应用注册用户j与第一应用注册用户i之间的交互次数占第一应用注册用户j与其他注册用户之间的交互总次数的比率之和为第一应用注册用户i与第一应用注册用户j之间的影响权值。
基于此,本发明实施例中,可以按照以下公式确定该两个第一应用注册用户之间的影响权值:其中:
i,j,k为第一应用注册用户对应的用户标识;
pi,j为第一应用注册用户i和第一应用注册用户j之间的影响权值;
ri,j为第一应用注册用户i和第一应用注册用户j之间的交互次数;
ri,k为第一应用注册用户i和第一应用注册用户k之间的交互次数;
rj,k为第一应用注册用户j和第一应用注册用户k之间的交互次数;
为第一应用注册用户i与其它第一应用注册用户之间的交互总次数;
第一应用注册用户j与其它第一应用注册用户之间的交互总次数;
M和N分别为与第一应用注册用户i和第一应用注册用户j产生交互数据的第一应用注册用户标识。
例如,针对任两个网络游戏注册用户i和j,根据提取的该两个网络游戏注册用户之间的交互数据,可以累计该两个网络游戏注册用户间的历史上组队对局次数,如网络游戏注册用户i和网络游戏注册用户j之间的对局次数为ri,j,针对每一网络游戏注册用户,累计该网络游戏注册用户组队的历史对局总次数,如网络游戏注册用户i的历史对局总次数为网络游戏注册用户j的历史对局总次数为计算两两网络游戏注册用户间的关系:第一应用注册用户i和第一应用注册用户j间的组队对局占第一应用注册用户i组队对局的比率越大,那么第一应用注册用户i和第一应用注册用户j之间的关系越紧密,本发明实施例中,可以按照以下公式确定第一应用注册用户i和第一应用注册用户j之间的影响权值:pi,j表示用户属性信息从第一应用注册用户i转移到第一应用注册用户j的概率。
例如,网络游戏注册用户B组队一共玩了100局游戏,其中40局跟用户A一起组队玩,40局跟用户C一起组队玩,而网络游戏注册用户A一共组队玩了200局游戏,其中有160局跟用户C一起组队玩,用户C一共组队玩了200局游戏,其中跟用户B组队玩了40局,则用户A和用户B之间的影响权值为同样,可以确定出用户A和用户C之间的影响权值为1.6,用户B和用户C之间的影响权值为0.6,三者之间的影响权值可以采用图3所示的关系链表示。
需要说明的是,如果该用户与任一其他网络游戏用户之间未产生交互数据,则确定该用户与该其它网络游戏用户之间的影响权值为零。
S23、根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户。
本步骤中,利用步骤S21中获取的第一应用注册用户绑定的至少两个第二应用注册用户的用户属性数据将第一应用注册用户划分为确定属性用户和未知属性用户。
具体实施时,针对任一用户属性,根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户中的用户属性信息,如果确定至少两个第二应用注册用户中的用户属性信息相同,则确定所述第一应用注册用户为确定属性用户;如果确定至少两个第二应用注册账户中的用户属性信息不同,则确定所述第一应用注册用户为未知属性用户。
以用户属性为用户年龄为例,网络游戏注册用户A关联的即时通信注册用户WA的年龄数据为15岁,网络游戏注册用户A关联的电子商务注册用户DA的年龄数据为22岁,则确定网络游戏注册用户A为未知属性用户;网络游戏注册用户B关联的即时通信注册用户WB的年龄数据为15岁,网络游戏注册用户B关联的电子商务注册用户DB的年龄数据为15岁,则确定网络游戏注册用户B为确定属性用户。采用同样的方法,可以将所有网络游戏注册用户划分为未知属性用户和已知属性用户。
S24、根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。
本步骤中,具体实施时,针对未知属性用户X可以根据该用户X与其它已知属性用户之间的影响权值确定出用户X的用户属性信息。例如,可以直接选择影响权值最大的已知属性用户的用户属性信息作为用户X的用户属性信息。
实施例二
进一步地,为了提高确定出的用户属性信息准确性,本发明实施例中,可以将用户属性信息划分为至少两个类别的属性信息,例如,对于用户性别可以划分为男和女两个类别,而对于用户年龄可以根据实际需要划分为0~10岁,10岁~14岁,14岁~18岁以及18岁以上四个类别。
基于此,步骤S24中可以按照图4所示的流程确定未知属性用户的属性信息:
S241、根据第一应用的各个注册用户彼此之间的影响权值,建立第一应用注册用户彼此之间的影响权值矩阵。
本步骤中,根据所有第一应用注册用户,根据两两用户之间的影响权值可以建立第一应用注册用户之间的影响权值矩阵。
为了便于描述,本发明实施例中以第一应用注册用户包括用户A、用户B和用户C为例,其中,用户A和用户B之间的影响权值为0.6,用户A和用户C之间的影响权值为1.6,用户B和用户C之间的影响权值为0.6,则建立的这三个用户之间的影响权值矩阵如下:
S242、根据确定属性用户对应的用户属性信息和所述用户属性信息包括的至少两个类别的属性信息,确定每一确定属性用户对应于每一类别属性信息的类别标签值。
具体实施时,可以根据确定用户属性的用户属性信息,将其归属一类的用户属性对应的类别标签值为1,而其余类别的用户属性对应的类别标签值为0。
假设步骤S23中确定出用户A为未知属性用户,用户B和用户C为已知属性用户,且可以确定用户B的年龄为5岁,用户C的年龄为12岁,这样,可以确定用户B的年龄属于第一类,即0~10岁,用户C的年龄属于第二类,即10~14岁。这样,步骤S242中,可以确定用户B对应于用户属性类别0~10岁的类别标签值为1,而对应于其余用户属性类别的类别标签值为0;用户C对应于用户属性类别10~14岁的类别标签值为1,而对应于其余用户属性类别的类别标签值为0。
需要说明的是,具体实施时,步骤S241和步骤S242没有一定的先后执行顺序,步骤S242也可以先于步骤S241执行,或者两个步骤也可以同时执行。
S243、根据每一确定属性用户对应于每一类别属性信息的类别标签值和每一未知属性用户对应于每一类别属性信息的类别标签值,建立第一应用注册用户对应于每一类别属性信息的第一类别标签矩阵,其中,每一未知属性用户对应于每一类别属性信息的类别标签值为预设值。
本步骤中,由于未知属性用户的类别标签值无法确定,具体实施时,未知属性用户对应于每一类别属性信息的类别标签值可以设置为任意值,例如,全部设置为0或者全部设置为1等。这样,这样可以得到所有第一应用注册用户对应于每一类别用户属性信息的类别标签矩阵。
假设有C个类(例如,上述的用户年龄可以划分为4个类,即C=4)和L个确定属性用户,则可以得到一个L*C的矩阵YL,矩阵YL中,第m行表示第m个确定属性用户对应于每一类别用户属性信息的类别标签值,即如果第m个确定属性用户的类别是n(上例中,n=1,2,3,4),那么该行的第n个元素为1,其余为0。同样,假设有U个未知属性用户,针对该U个未知属性用户可以建立一个U*C的类别标签矩阵YU,合并矩阵YL和YU,则可以得到一个N*C的类别标签矩阵F,其中,N=L+U,F=[YL;YU]或者F=[YU;YL]。类别标签矩阵的含义如下:保留确定属性用户m属于每个类别用户属性信息的概率,该确定属性用户以概率1只属于一个类别的用户属性信息。最后确定该确定属性类别用户的类别时,是取类别标签值的最大值也就是概率最大的那个类作为它的类别。F里包含的YU,它一开始归属的类别是未知的,因此,设置一个任意值即可。
仍然以第一应用注册用户包括用户A、用户B和用户C为例,用户B对应于用户属性类别0~10的类别标签值为1,而对应于其余用户属性类别的类别标签值为0;用户C对应于用户属性类别10~14的类别标签值为1,则可以得到相应的类别标签矩阵如下,其中,数字1、2、3和4分别对应于不同类别的用户属性信息,数字1表示0~10岁,数字2表示10~14岁,数字3表示14~18岁,数字4表示18岁以上:
需要说明的是,上述的影响权值矩阵和类别标签矩阵中为了便于区分用户和各用户对应的用户属性类别加入了用户标识A、B、C以及属性类别标识1、2、3、4,实际运算中,用户标识和属性类别标识并不参与计算。
S244、根据所述影响权值矩阵和所述第一类别标签矩阵的乘积确定第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵。
本步骤中,确定步骤S241中确定出的影响权值矩阵和步骤S243中确定出的第一类别标签矩阵的乘积得到第二类别标签矩阵。
延续上例,即确定
由此可以得到第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵:
S245、针对每一未知属性用户,根据第二类别标签矩阵中该未知属性用户对应于每一类别属性信息的类别标签值,选择类别标签值最大的类别属性信息为该未知属性用户对应的属性信息。
本步骤中,针对未知属性用户,上例中即为用户A,根据第二类别标签矩阵中用户A对应于每一类别属性信息的类别标签值,其中,用户A对应于0~10岁的类别标签值为0.6,对应于10~14岁的类别标签值为1.6,对应于14~18岁以及18岁以上的类别标签值均为0,选择类别标签值最大的一类用户属性信息作为用户A对应的用户属性信息。即本例中,用户A的年龄应为10~14岁。
实施例三
具体实施时,为了进一步提高用户属性信息确定结果的准确性,本发明实施例中,还可以利用影响权值矩阵对影响权值矩阵和第一类别标签矩阵的乘积结果进行迭代得到第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵,直至达到预设的迭代收敛条件为止。
需要说明的是,由于确定属性用户对应于每一类别属性信息的类别标签值是确定的,所以在每一次迭代结束之后,在下一次迭代开始之前,其应回归其本来的值,即在每一次迭代开始前,针对每一确定属性用户,恢复上次迭代得到的结果中所包含的该确定属性用户对应的类别标签值为第一类别标签矩阵中包含的、该确定属性用户对应的类别标签值。
优选地,具体实施时,迭代收敛条件可以为迭代次数达到预设次数,也可以为第二类别标签矩阵中各类别标签值达到稳定状态,其中,针对任一类别标签值,如果本次迭代得到的类别标签矩阵中该类别标签值与上一次迭代得到的类别标签矩阵中该类别标签值之间的差值在一定范围内,即可认为第二类别标签矩阵中各类别标签值达到稳定状态。
以下仍然以第一应用注册用户包括用户A,用户B和用户C为例进行说明。为了便于描述,以下记影响权值矩阵为P,即记第一类别标签矩阵为F,即基于此,本发明实施例中,可以按照图5流程得到第二类别标签矩阵:
S51、计算F=PF。
初始时,执行第一次迭代,即
本步骤中,即将矩阵P和矩阵F相乘,这一步,每个注册用户都将自己的类别标签值以P确定的概率传播给其他注册用户。如果两个注册用户越相似(在欧式空间中距离越近),那么对方的类别标签值就越容易被自己的类别标签值赋予。
S52、重置F中包含的确定属性用户对应的类别标签值为初始值。
本步骤中,即重置F中包含的FL=YL,即将F中L个确定属性用户对应的类别标签值恢复为执行第一次迭代前F中包含的L个确定属性用户对应的类别标签值。其中,矩阵后两行为确定属性用户(即用户B和用户C)对应的类别标签值,本步骤中,需要将其恢复为初始值,即第一次迭代后,
本步骤非常关键,因为确定属性用户的类别标签值是确定的,其不能被带跑,所以每次迭代完,它都得回归它本来的值。随着确定属性用户不断的将自己的类别标签值传播出去,最后的类边界会穿越高密度区域,而停留在低密度的间隔中,相当于每个不同类别的类别标签值划分了势力范围。
S53、判断是否满足预设的迭代收敛条件,如果是,则执行步骤S54,否则,执行步骤S51。
假设预设的迭代收敛条件为迭代次数,且迭代次数设置为3。
本例中,第一次迭代后,继续执行第二次迭代并重置F中确定属性用户对应的类别标签值为初始值,即第二次迭代后迭代两次后不满足预设的迭代收敛条件,则继续执行第3次迭代并重置F中确定属性用户对应的类别标签值为初始值,即第二次迭代后由于迭代次数达到3次,因此,停止迭代,则可以得到第二类别标签矩阵为由此可以得到第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵:
S54、针对每一未知属性用户,根据第二类别标签矩阵中该未知属性用户对应于每一类别属性信息的类别标签值,选择类别标签值最大的类别属性信息为该未知属性用户对应的属性信息。
对于未知属性用户A,可以选择类别标签值最大的用户属性信息为其对应的用户属性信息,本例中,可以确定用户A对应的用户属性信息类别为第2类,即用户A的年龄为10~14岁。
具体实施时,由于互联网应用的注册用户数量可能相当巨大,通常为千万级别甚至上亿级别,如果针对全部注册用户进行计算需要消耗的时间过长,为了提高计算速度,本发明实施例中,针对每一未注册用户,可以选择与其产生过交互数据的用户参与计算,这样能够大大提高计算速度;或者,具体实施时,还可以将用户划分为多个组,例如,每100万用户划分为一组,这样,也能够大大提高计算速度;另外,还可以设置有效交互数据门槛,例如,两个用户之间的交互次数大于预设阈值时,才计算该两个用户之间的影响权值,否则,忽略不计,以上各种方法均能够加快计算速度,提高用户属性信息识别的效率。
本发明实施例提供的用户属性信息挖掘方法中,一方面,根据第一应用的各个注册用户之间的交互数据确定在第一应用中两两用户之间的影响权值,另一方面,根据注册用户在不同的第二应用中预留的用户属性信息将用户划分为确定属性用户和未知属性用户,进而利用确定属性用户和两两用户之间的影响权值确定出未知属性用户的属性信息,从而解决了无法识别用户属性的问题。
基于同一发明构思,本发明实施例中还提供了一种用户属性信息挖掘装置,由于上述装置解决问题的原理与用户属性信息挖掘方法相似,因此上述装置实施可以参见方法的实施,重复之处不再赘述。
如图6所示,其为本发明实施例提供的用户属性信息挖掘装置的结构示意图,可以包括:
获取单元61,用于分别获取第一应用的各个注册用户与其它第一应用注册用户之间的交互数据,以及所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息;
第一确定单元62,用于根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值;
划分单元63,用于根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户;
第二确定单元64,用于根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。
优选地,所述第一确定单元62,可以包括:
第一确定子单元,用于针对任两个第一应用注册用户,根据该两个第一应用注册用户之间的交互数据确定该两个第一应用注册用户之间的交互次数;
第二确定子单元,用于根据该两个第一应用注册用户之间的交互次数,确定该两个第一应用注册用户之间的影响权值。
优选地,所述第二确定子单元,具体用于根据该两个第一应用注册用户之间的交互次数,分别确定该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率;根据该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率,确定该两个第一应用注册用户之间的影响权值。
例如,针对第一应用注册用户i和第一应用注册用户j,分别提取第一应用注册用户i与其他注册用户之间的交互数据,以及第一应用注册用户j与其他注册用户之间的交互数据,根据提取的数据,分别统计第一应用注册用户i和第一应用注册用户j之间的交互次数以及第一应用注册用户i与其他注册用户之间的交互总次数和第一应用注册用户j与其他注册用户之间的交互总次数,假设第一应用注册用户i和第一应用注册用户j之间的交互次数为ri,j,第一应用注册用户i与其他注册用户之间的交互总次数为第一应用注册用户j与其他注册用户之间的交互总次数为则可以确定第一应用注册用户i与第一应用注册用户j之间的交互次数占第一应用注册用户i与其他注册用户之间的交互总次数的比率为第一应用注册用户j与第一应用注册用户i之间的交互次数占第一应用注册用户j与其他注册用户之间的交互总次数的比率为其中,rj,r=ri,j,为第一应用注册用户j和第一应用注册用户i之间的交互次数。
具体实施时,可以确定第一应用注册用户i与第一应用注册用户j之间的交互次数占第一应用注册用户i与其他注册用户之间的交互总次数的比率与第一应用注册用户j与第一应用注册用户i之间的交互次数占第一应用注册用户j与其他注册用户之间的交互总次数的比率之和为第一应用注册用户i与第一应用注册用户j之间的影响权值。
基于此,本发明实施例中,第二确定子单元可以用于根据该两个第一应用注册用户之间的交互次数,按照以下公式确定该两个第一应用注册用户之间的影响权值:其中:
i,j,k为第一应用注册用户对应的用户标识;
pi,j为第一应用注册用户i和第一应用注册用户j之间的影响权值;
ri,j为第一应用注册用户i和第一应用注册用户j之间的交互次数;
ri,k为第一应用注册用户i和第一应用注册用户k之间的交互次数;
rj,k为第一应用注册用户j和第一应用注册用户k之间的交互次数;
为第一应用注册用户i与其它第一应用注册用户之间的交互总次数;
第一应用注册用户j与其它第一应用注册用户之间的交互总次数。
优选地,所述划分单元,具体用于根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,如果确定至少两个第二应用注册用户中的用户属性信息相同,则确定所述第一应用注册用户为确定属性用户;如果确定至少两个第二应用注册账户中的用户属性信息不同,则确定所述第一应用注册用户为未知属性用户。
优选地,所述用户属性信息包括至少两个类别的属性信息;以及
所述第二确定单元64,可以具体包括:
第一矩阵建立子单元,用于根据第一应用的各个注册用户彼此之间的影响权值,建立第一应用注册用户彼此之间的影响权值矩阵;
第三确定子单元,用于根据确定属性用户对应的用户属性信息和所述用户属性信息包括的至少两个类别的属性信息,确定每一确定属性用户对应于每一类别属性信息的类别标签值;
第二矩阵建立子单元,用于根据每一确定属性用户对应于每一类别属性信息的类别标签值和每一未知属性用户对应于每一类别属性信息的类别标签值,建立第一应用注册用户对应于每一类别属性信息的第一类别标签矩阵,其中,每一未知属性用户对应于每一类别属性信息的类别标签值为预设值;
第四确定子单元,用于根据所述影响权值矩阵和所述第一类别标签矩阵的乘积确定第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵;
选择子单元,用于针对每一未知属性用户,根据第二类别标签矩阵中该未知属性用户对应于每一类别属性信息的类别标签值,选择类别标签值最大的类别属性信息为该未知属性用户对应的属性信息。
优选地,所述第四确定子单元,具体用于利用所述影响权值矩阵,对所述影响权值矩阵和所述第一类别标签矩阵的乘积结果进行迭代得到第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵,直至迭代次数达到预设次数或者所述第二类别标签矩阵中各类别标签值达到稳定状态,其中,在每一次迭代开始前,针对每一确定属性用户,恢复上次迭代得到的乘积结果中所包含的该确定属性用户对应的类别标签值为第一类别标签矩阵中包含的、该确定属性用户对应的类别标签值。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
本发明实施例提供的用户属性信息挖掘方法和装置,一方面,根据第一应用的各个注册用户之间的交互数据确定在第一应用中两两用户彼此之间的影响权值,另一方面,根据注册用户在不同的第二应用中预留的用户属性信息将用户划分为确定属性用户和未知属性用户,进而利用确定属性用户和两两用户之间的影响权值确定出未知属性用户的属性信息,从而解决了无法识别用户属性的问题。
在介绍了本发明示例性实施方式的方法和装置之后,接下来,介绍根据本发明的另一示例性实施方式的用户属性信息挖掘装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的用户属性信息挖掘装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书中描述的根据本发明各种示例性实施方式的任一用户属性信息挖掘方法中的步骤。例如,所述处理单元可以执行如图2中所示的步骤S21分别获取第一应用的各个注册用户之间的交互数据,以及所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,步骤S22、根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值,步骤S23、根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户,和步骤S24、根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。
下面参照图7来描述根据本发明的这种实施方式的用户属性信息挖掘装置70。图7显示的用户属性信息挖掘装置70仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,用户属性信息挖掘装置70以通用计算设备的形式表现。用户属性信息挖掘装置70的组件可以包括但不限于:上述至少一个处理单元71、上述至少一个存储单元72、连接不同系统组件(包括存储单元72和处理单元71)的总线73。
总线73表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元72可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)721和/或高速缓存存储器722,还可以进一步包括只读存储器(ROM)723。
存储单元72还可以包括具有一组(至少一个)程序模块724的程序/实用工具725,这样的程序模块724包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
用户属性信息挖掘装置70也可以与一个或多个外部设备74(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与用户属性信息挖掘装置70交互的设备通信,和/或与使得该用户属性信息挖掘装置70能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口75进行。并且,用户属性信息挖掘装置70还可以通过网络适配器76与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器76通过总线73与用于用户属性信息挖掘装置70的其它模块通信。应当理解,尽管图中未示出,可以结合用户属性信息挖掘装置70使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本发明提供的用户属性信息挖掘方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书中描述的根据本发明各种示例性实施方式的用户属性信息挖掘方法中的步骤,例如,所述计算机设备可以执行如图2中所示的步骤S21分别获取第一应用的各个注册用户之间的交互数据,以及所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,步骤S22、根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值,步骤S23、根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户,和步骤S24、根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
根据本发明的实施方式的用于用户属性信息挖掘的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种用户属性信息挖掘方法,其特征在于,包括:
分别获取第一应用的各个注册用户之间的交互数据,以及第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息;
根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值;
根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户;
根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。
2.如权利要求1所述的方法,其特征在于,根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值,具体包括:
针对任两个第一应用注册用户,根据该两个第一应用注册用户之间的交互数据确定该两个第一应用注册用户之间的交互次数;
根据该两个第一应用注册用户之间的交互次数,确定该两个第一应用注册用户之间的影响权值。
3.如权利要求2所述的方法,其特征在于,根据该两个第一应用注册用户之间的交互次数,确定该两个第一应用注册用户之间的影响权值,具体包括:
根据该两个第一应用注册用户之间的交互次数,分别确定该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率;
根据该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率,确定该两个第一应用注册用户之间的影响权值。
4.如权利要求1所述的方法,其特征在于,根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户,具体包括:
根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,如果确定至少两个第二应用注册用户中的用户属性信息相同,则确定所述第一应用注册用户为确定属性用户;如果确定至少两个第二应用注册账户中的用户属性信息不同,则确定所述第一应用注册用户为未知属性用户。
5.如权利要求1所述的方法,其特征在于,所述用户属性信息包括至少两个类别的属性信息;以及
根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息,具体包括:
根据第一应用的各个注册用户彼此之间的影响权值,建立第一应用注册用户彼此之间的影响权值矩阵;以及
根据确定属性用户对应的用户属性信息和所述用户属性信息包括的至少两个类别的属性信息,确定每一确定属性用户对应于每一类别属性信息的类别标签值;
根据每一确定属性用户对应于每一类别属性信息的类别标签值和每一未知属性用户对应于每一类别属性信息的类别标签值,建立第一应用注册用户对应于每一类别属性信息的第一类别标签矩阵,其中,每一未知属性用户对应于每一类别属性信息的类别标签值为预设值;
根据所述影响权值矩阵和所述第一类别标签矩阵的乘积确定第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵;
针对每一未知属性用户,根据第二类别标签矩阵中该未知属性用户对应于每一类别属性信息的类别标签值,选择类别标签值最大的类别属性信息为该未知属性用户对应的属性信息。
6.如权利要求5所述的方法,其特征在于,根据所述影响权值矩阵和所述第一类别标签矩阵的乘积确定第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵,具体包括:
利用所述影响权值矩阵,对所述影响权值矩阵和所述第一类别标签矩阵的乘积结果进行迭代得到第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵,直至迭代次数达到预设次数或者所述第二类别标签矩阵中各类别标签值达到稳定状态,其中,在每一次迭代开始前,针对每一确定属性用户,恢复上次迭代得到的乘积结果中所包含的该确定属性用户对应的类别标签值为第一类别标签矩阵中包含的、该确定属性用户对应的类别标签值。
7.一种用户属性信息挖掘装置,其特征在于,包括:
获取单元,用于分别获取第一应用的各个注册用户与其它第一应用注册用户之间的交互数据,以及第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息;
第一确定单元,用于根据获取的第一应用的各个注册用户之间的交互数据,分别确定第一应用的各个注册用户彼此之间的影响权值;
划分单元,用于根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,将第一应用的各个注册用户划分为确定属性用户和未知属性用户;
第二确定单元,用于根据所述确定属性用户的用户属性信息,以及第一应用的各个注册用户彼此之间的影响权值,确定所述未知属性用户的用户属性信息。
8.如权利要求7所述的装置,其特征在于,所述第一确定单元,包括:
第一确定子单元,用于针对任两个第一应用注册用户,根据该两个第一应用注册用户之间的交互数据确定该两个第一应用注册用户之间的交互次数;
第二确定子单元,用于根据该两个第一应用注册用户之间的交互次数,确定该两个第一应用注册用户之间的影响权值。
9.如权利要求8所述的装置,其特征在于,
所述第二确定子单元,具体用于根据该两个第一应用注册用户之间的交互次数,分别确定该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率;根据该两个第一应用注册用户之间的交互次数占各自与其他第一应用注册用户之间的交互总次数的比率,确定该两个第一应用注册用户之间的影响权值。
10.如权利要求7所述的装置,其特征在于,
所述划分单元,具体用于根据获取的所述第一应用注册用户所绑定的至少两个第二应用注册用户所包含的用户属性信息,如果确定至少两个第二应用注册用户中的用户属性信息相同,则确定所述第一应用注册用户为确定属性用户;如果确定至少两个第二应用注册账户中的用户属性信息不同,则确定所述第一应用注册用户为未知属性用户。
11.如权利要求7所述的装置,其特征在于,所述用户属性信息包括至少两个类别的属性信息;以及
所述第二确定单元,具体包括:
第一矩阵建立子单元,用于根据第一应用的各个注册用户彼此之间的影响权值,建立第一应用注册用户彼此之间的影响权值矩阵;
第三确定子单元,用于根据确定属性用户对应的用户属性信息和所述用户属性信息包括的至少两个类别的属性信息,确定每一确定属性用户对应于每一类别属性信息的类别标签值;
第二矩阵建立子单元,用于根据每一确定属性用户对应于每一类别属性信息的类别标签值和每一未知属性用户对应于每一类别属性信息的类别标签值,建立第一应用注册用户对应于每一类别属性信息的第一类别标签矩阵,其中,每一未知属性用户对应于每一类别属性信息的类别标签值为预设值;
第四确定子单元,用于根据所述影响权值矩阵和所述第一类别标签矩阵的乘积确定第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵;
选择子单元,用于针对每一未知属性用户,根据第二类别标签矩阵中该未知属性用户对应于每一类别属性信息的类别标签值,选择类别标签值最大的类别属性信息为该未知属性用户对应的属性信息。
12.如权利要求11所述的装置,其特征在于,
所述第四确定子单元,具体用于利用所述影响权值矩阵,对所述影响权值矩阵和所述第一类别标签矩阵的乘积结果进行迭代得到第一应用的各个注册用户对应于每一类别属性信息的第二类别标签矩阵,直至迭代次数达到预设次数或者所述第二类别标签矩阵中各类别标签值达到稳定状态,其中,在每一次迭代开始前,针对每一确定属性用户,恢复上次迭代得到的乘积结果中所包含的该确定属性用户对应的类别标签值为第一类别标签矩阵中包含的、该确定属性用户对应的类别标签值。
13.一种用户属性信息挖掘装置,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行权利要求1~6任一所述方法的步骤。
14.一种计算机可读存储介质,其包括程序代码,当所述程序产品在用户属性信息挖掘装置上运行时,所述程序代码用于使所述用户属性信息挖掘装置执行权利要求1~6任一所述方法的步骤。
CN201710652246.0A 2017-08-02 2017-08-02 一种用户属性信息挖掘方法、装置和介质 Active CN107491509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710652246.0A CN107491509B (zh) 2017-08-02 2017-08-02 一种用户属性信息挖掘方法、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710652246.0A CN107491509B (zh) 2017-08-02 2017-08-02 一种用户属性信息挖掘方法、装置和介质

Publications (2)

Publication Number Publication Date
CN107491509A true CN107491509A (zh) 2017-12-19
CN107491509B CN107491509B (zh) 2018-08-21

Family

ID=60645122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710652246.0A Active CN107491509B (zh) 2017-08-02 2017-08-02 一种用户属性信息挖掘方法、装置和介质

Country Status (1)

Country Link
CN (1) CN107491509B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400106A (zh) * 2019-06-17 2019-11-01 天津五八到家科技有限公司 信息获取方法、装置及电子设备
CN113660201A (zh) * 2021-07-08 2021-11-16 上海二三四五网络科技有限公司 一种高并发主键冲突的控制方法及控制装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266619A (zh) * 2008-05-12 2008-09-17 腾讯科技(深圳)有限公司 一种用户信息挖掘方法和一种用户信息挖掘系统
US20130138598A1 (en) * 2011-11-29 2013-05-30 Alibaba Group Holding Limited Classifying Attribute Data Intervals
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN106354709A (zh) * 2015-07-15 2017-01-25 富士通株式会社 用户属性信息的分析装置、服务器及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266619A (zh) * 2008-05-12 2008-09-17 腾讯科技(深圳)有限公司 一种用户信息挖掘方法和一种用户信息挖掘系统
US20130138598A1 (en) * 2011-11-29 2013-05-30 Alibaba Group Holding Limited Classifying Attribute Data Intervals
CN103136247A (zh) * 2011-11-29 2013-06-05 阿里巴巴集团控股有限公司 属性数据区间划分方法及装置
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN106354709A (zh) * 2015-07-15 2017-01-25 富士通株式会社 用户属性信息的分析装置、服务器及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400106A (zh) * 2019-06-17 2019-11-01 天津五八到家科技有限公司 信息获取方法、装置及电子设备
CN113660201A (zh) * 2021-07-08 2021-11-16 上海二三四五网络科技有限公司 一种高并发主键冲突的控制方法及控制装置
CN113660201B (zh) * 2021-07-08 2023-05-30 上海二三四五网络科技有限公司 一种高并发主键冲突的控制方法及控制装置

Also Published As

Publication number Publication date
CN107491509B (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
Li et al. Who will use augmented reality? An integrated approach based on text analytics and field survey
CN110992169A (zh) 一种风险评估方法、装置、服务器及存储介质
CN108280104A (zh) 目标对象的特征信息提取方法及装置
CN107992596A (zh) 一种文本聚类方法、装置、服务器和存储介质
Feduhko Development of a software for computer-linguistic verification of socio-demographic profile of web-community member
CN107193973A (zh) 语义解析信息的领域识别方法及装置、设备及可读介质
CN106875110A (zh) 业务指标分层计算方法及装置、分布式计算方法及系统
CN109299420A (zh) 社交媒体账号处理方法、装置、设备及可读存储介质
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN113408743A (zh) 联邦模型的生成方法、装置、电子设备和存储介质
US9542458B2 (en) Systems and methods for processing and displaying user-generated content
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN105894372A (zh) 预测群体信用的方法和装置
CN107169063A (zh) 一种基于社交信息的用户属性预测方法与系统
CN108345587A (zh) 一种评论的真实性检测方法与系统
CN106943747A (zh) 虚拟角色名称推荐方法、装置、电子设备和存储介质
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN109194689A (zh) 异常行为识别方法、装置、服务器及存储介质
CN108053247A (zh) 一种假量识别模型生成方法、假量识别方法及计算设备
CN109325357A (zh) 基于rsa的信息值计算方法、设备及可读存储介质
CN108985048A (zh) 模拟器识别方法及相关装置
CN107491509A (zh) 一种用户属性信息挖掘方法、装置和介质
CN112765481B (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN111652673B (zh) 智能推荐方法、装置、服务器和存储介质
CN111443973B (zh) 备注信息的填入方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240116

Address after: 35th floor, Tencent building, Keji Zhongyi Road, high tech Zone, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 35th floor, Tencent building, Keji Zhongyi Road, high tech Zone, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right