CN110598122A - 社交群体挖掘方法、装置、设备及存储介质 - Google Patents

社交群体挖掘方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110598122A
CN110598122A CN201810606527.7A CN201810606527A CN110598122A CN 110598122 A CN110598122 A CN 110598122A CN 201810606527 A CN201810606527 A CN 201810606527A CN 110598122 A CN110598122 A CN 110598122A
Authority
CN
China
Prior art keywords
user
target
target user
determining
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810606527.7A
Other languages
English (en)
Other versions
CN110598122B (zh
Inventor
张阳
杨双全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810606527.7A priority Critical patent/CN110598122B/zh
Publication of CN110598122A publication Critical patent/CN110598122A/zh
Application granted granted Critical
Publication of CN110598122B publication Critical patent/CN110598122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提出一种社交群体挖掘方法、装置、设备及存储介质,其中方法包括:获取目标用户的位置信息及网络环境信息,其中网络环境信息用于表征目标用户当前接入的网络地址;根据目标用户的位置信息,确定目标用户所属的目标集合;根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用户与目标集合中其他各用户间的关联度;根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合的归属关系。该方法实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。

Description

社交群体挖掘方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,特别涉及一种社交群体挖掘方法、装置、设备及存储介质。
背景技术
社交网络中用户可以自主的发表信息同时也可以看到他人的分享信息,进而构建虚拟时代的社会网络,即社交网络的本质是提供一个在人群中分享兴趣、爱好、状态和活动等信息的在线平台。这个平台具有及时共享性、实时性、互动性等特点,同时也具备传统的社交社会的传播特性,已经成为人们工作和生活的组成部分。
在实际应用中,由于互联网的普及,每天都会产生大量的用户行为数据。通过对大量的用户行为数据进行分析,可以获取很高的价值信息,例如,通过对用户行为数据进行分析,实现对用户关系挖掘等。
目前,对社交数据进行挖掘时,大多数是基于强社交行为数据进行挖掘,比如对包含有家庭、同事类的备注通讯录进行挖掘;或者,基于关注类数据进行挖掘,比如微博关注数据,以借助关注个体连通关系进行聚类挖掘,但是上述挖掘方式,需要得到用户授权之后,才能获取到用户的强社交行为数据,数据的获取难度大,成本高,且可获取的数据量有限,从而影响了用户关系的挖掘。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请一方面实施例提出一种社交群体挖掘方法,该方法实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。
本申请的第二个目的在于提出一种社交群体挖掘装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种社交群体挖掘方法,该方法包括:获取目标用户的位置信息及网络环境信息,其中,所述网络环境信息,用于表征所述目标用户当前接入的网络地址;根据所述目标用户的位置信息,确定所述目标用户所属的目标集合;根据所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,确定所述目标用户与所述目标集合中其他各用户间的关联度;根据所述目标用户与所述目标集合中其他各用户间的关联度,确定所述目标用户与所述目标集合中其他各用户的社交关系。
本申请实施例提供的社交群体挖掘方法,首先获取目标用户的位置信息及网络环境信息,以根据目标用户的位置信息,确定目标用户所属的目标集合,并根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用于与目标集合中其他各用户间的关联度,然后根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合的归属关系。由此,实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。
另外,本申请上述实施例提出的社交群体挖掘方法还可以具有如下附加的技术特征:
可选的,在本申请的一个实施例中,所述确定目标用户所属的目标集合之前,还包括:对地图数据进行解析,确定各集合与位置的映射关系;所述确定目标用户所属的目标集合,包括:根据所述目标用户的位置信息与各集合位置间的距离大小,确定所述目标用户所属的目标集合。
可选的,在本申请的另一个实施例中,所述确定所述目标用户与所述目标集合中其他各用户间的关联度,包括:基于预设的用户关联模型,确定与所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,分别对应的各关联度;其中,所述预设的用户关联模型,为以已知关联度的用户的网络环境信息为样本训练得到。
可选的,在本申请的另一个实施例中,所述目标集合对应N个实体名称,其中N为大于1的正整数;所述确定所述目标用户与所述目标集合中其他各用户间的关联度之后,还包括:根据所述目标集合中各用户间的关联度,将所述目标集合进行分簇处理,确定所述目标用户所属的目标簇,其中每个簇对应一个实体名称。
可选的,在本申请的另一个实施例中,所述确定目标用户所属的目标簇,包括:若所述目标用户与第一簇中各用户间的关联度均大于阈值、与第二簇中各用户间的关联度均小于阈值,则确定所述目标用户所属的目标簇为第一簇。
可选的,在本申请的另一个实施例中,所述确定目标用户所属的目标簇,包括:若所述目标用户与第一簇中及第二簇中各用户间的关联度均大于阈值、且所述第一簇与所述第二簇分别对应第一实体名称及第二实体名称,则根据所述第一簇中包含的用户数量及第二簇中包含的用户数量,确定目标用户所属的目标簇。
可选的,在本申请的另一个实施例中,所述确定目标用户所属的目标簇,包括:若所述目标用户与第一簇及第二簇中各用户间的关联度均大于阈值、且所述第一簇与所述第二簇分别对应第一实体名称及第二实体名称,则根据所述第一实体名称及所述第二实体名称分别所属行业的类型、和/或规模,确定目标用户所属的目标簇。
可选的,在本申请的另一个实施例中,所述目标集合对应一个实体名称;所述确定所述目标用户与所述目标集合中其他各用户的社交关系之后,还包括:若所述目标用户与所述目标集合中其他各用户存在社交关系,则对所述目标集合对应的实体名称进行解析,确定所述目标集合所属的行业类型;根据预设的行业类型与标签的映射关系,确定所述目标用户对应的标签集。
可选的,在本申请的另一个实施例中,所述对所述目标集合对应的实体名称进行解析,确定所述目标集合所属的行业类型,包括:对所述目标集合对应的实体名称进行解析处理,确定所述目标集合对应的实体名称中各切词单元在所述实体名称中的权值;根据预设的行业词典,确定所述目标集合对应的实体名称中各切词单元分别对应的各行业概率值;根据所述各切词单元在所述实体名称中的权值及所述各切词单元分别对应的各行业概率值,确定所述目标集合所属的行业类型。
为达上述目的,本申请第二方面实施例提出了一种社交群体挖掘装置,该装置包括:第一获取模块,用于获取目标用户的位置信息及网络环境信息,其中,所述网络环境信息,用于表征所述目标用户当前接入的网络地址;第一确定模块,用于根据所述目标用户的位置信息,确定所述目标用户所属的目标集合;第二确定模块,用于根据所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,确定所述目标用户与所述目标集合中其他各用户间的关联度;第三确定模块,用于根据所述目标用户与所述目标集合中其他各用户间的关联度,确定所述目标用户与所述目标集合中其他各用户的社交关系。
本申请实施例提供的社交群体挖掘装置,首先获取目标用户的位置信息及网络环境信息,以根据目标用户的位置信息,确定目标用户所属的目标集合,并根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用于与目标集合中其他各用户间的关联度,然后根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合的归属关系。由此,实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,以实现第一方面实施例所述的社交群体挖掘方法。
本申请实施例提供的计算机设备,首先获取目标用户的位置信息及网络环境信息,以根据目标用户的位置信息,确定目标用户所属的目标集合,并根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用于与目标集合中其他各用户间的关联度,然后根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合的归属关系。由此,实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。
为达上述目的,本申请的第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,以实现第一方面实施例所述的社交群体挖掘方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个实施例的社交群体挖掘方法的流程示意图;
图2为本申请另一个实施例的社交群体挖掘方法的流程示意图;
图3为本申请又一个实施例的社交群体挖掘方法的流程示意图;
图4为本申请一个实施例的确定目标集合所属的行业类型的流程示意图;
图5为本申请一个实施例的社交群体挖掘装置的结构示意图;
图6为本申请另一个实施例的社交群体挖掘装置的结构示意图;
图7为本申请又一个实施例的社交群体挖掘装置的结构示意图;
图8为本申请一个实施例的计算机设备的结构示意图;
图9为本申请另一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本申请中各实施例主要针对相关技术中,对社交数据进行挖掘时,大多是基于强社交数据进行挖掘,或者,基于关注类数据进行挖掘,然而这种挖掘方式,需要得到用户授权之后,才能获取到用户的强社交行为数据,数据获取难度大,成本高的问题,提出一种社交群体挖掘方法。
本申请实施例,通过获取目标用户的位置信息及网络环境信息,其中网络环境信息,用于表征目标用户当前接入的网络地址,以根据目标用户的位置信息,确定目标用户所属的目标集合,并根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用户与目标集合中其他各用户间的关联度,然后根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合中其他各用户间的社交关系。由此,实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。
下面参考附图描述本申请实施例的社交群体挖掘方法、装置、设备及存储介质。
首先结合附图1,对本申请实施例提供的社交群体挖掘方法进行具体说明。
图1为本申请一个实施例的社交群体挖掘方法的流程示意图。
如图1所示,本申请的社交群体挖掘方法可以包括以下步骤:
步骤101,获取目标用户的位置信息及网络环境信息,其中,网络环境信息,用于表征目标用户当前接入的网络地址。
其中,目标用户可以是处于社交网络中的任意一个用户,本实施例对此不作具体限定。
可选的,本实施例中,接入的网络地址可以、但不限于:IP地址、无线访问接入点(WirelessAccessPoint,简称为:AP)、常驻点、全球移动通信系统(Global System forMobile communication,简称为:GSM)小区等等。
其中,本申请实施例提供的社交群体挖掘方法,可以由本申请实施例提供的计算机设备执行。其中,计算机设备中设置有社交群体挖掘装置,以对目标用户与其他用户之间的关系进行挖掘。本实施例计算机设备可以是任一具有数据处理功能的硬件设备,比如智能手机、平板电脑、个人数字助理等等。
在本申请的一种可选的实现形式中,可以首先通过全球定位系统(GlobalPositioning System,简称为:GPS),或者,网络定位等方式,获取目标用户的位置信息。
其中,网络定位可以包括两种不同的实现方式,第一种方式:Wifi小区定位,第二种方式:基站定位。
需要说明的是,Wifi小区定位是根据Wifi路由器所在位置进行定位;基站定位主要依赖于基站分布密度。
进一步的,在获取到目标用户的位置信息之后,本实施例可以对目标用户的网络环境进行获取。
通常,计算机设备的操作系统中会提供全面的网络接口,这其中就包括获取网络管理类的接口,比如获取网络管理类接口为:ConnectivityManager。也就是说,本实施例可以通过调用获取网络管理类的接口,即可获取网络信息类,比如获取网络信息类为:NetworkInfo,从而根据网络信息类包含的网络状态信息,确定目标用户的网络环境信息。
也就是说,通过利用计算机设备中的应用程序,向服务端发送数据请求时,服务端可以通过向该应用程序发送网络环境信息获取指令,以使该应用程序根据获取指令,调用计算机设备操作系统中获取网络管理类的接口,获取目标用户的网络环境信息。
或者,还可以利用计算机设备中的应用程序,向服务端发送访问请求时,将计算机设备当前所处的网络环境信息携带在请求中,以使服务端通过解析访问请求,即可获取到目标用户的网络环境信息等等,此处对其不作具体限定。
需要说明的是,在实际应用过程中,可能存在一些用户当前接入的网络地址可能是出于偶然的情况,比如用户A可能是一个快递人员,或者外卖人员,那么当用户A在向用户B派送物品的过程中可能检测到用户B所在区域的WIFI网络的接入点AP1,并接入该AP1。因此,为了提高确定用户之间关系的准确性,本实施例在获取目标用户的位置信息及网络环境信息时,还可以获取用户当前接入的网络地址的时间信息,从而根据时间信息与阈值的匹配结果,确定用户是否为偶然接入当前网络地址。
其中,时间信息可以是指用户接入当前网络地址所持续的时间长度。
阈值可以根据用户的实际使用情况进行适应性设置,比如设置为2小时(h)、3h、5h等等,此处对其不作具体限定。
可以理解的是,本申请通过获取用户当前接入网络地址的时间长度,以将时间长度与阈值进行比较,若时间长度超过阈值,则说明该用户为正常接入网络地址,若时间长度未超过阈值,则说明该用户为偶然接入网络地址,则将该用户进行滤除,从而使得后续能够较为准确的确定用户间的关系。
步骤102,根据目标用户的位置信息,确定目标用户所属的目标集合。
其中,目标集合是指与目标用户位置信息相匹配的集合。
在本实施例中,集合可以为多个,且每个集合对应不同的位置信息。例如,集合A对应的位置信息为“广东大厦”,集合B对应的位置信息为“百花产业园”等等,此处对其不做具体限定。
可选的,当获取到目标用户的位置信息及网络环境信息之后,社交群体挖掘装置可根据目标用户的位置信息,确定目标用户所属的目标集合。
由于用户在工作时间或者休闲时间,所在位置信息存在一定的稳定性,因此作为一种可选的实现形式,本实施例在确定目标用户所属的目标集合之前,可以首先对地图数据进行解析,以确定各集合与位置的映射关系,然后根据目标用户的位置信息与各集合位置间的距离大小,确定目标用户所属的目标集合。
也就是说,通过将目标用户的位置信息分别与各集合对应的位置进行作差,得到多个差值。然后从多个差值中选取出最小的一个,以将最小差值对应的位置,通过查询各集合与位置的映射关系,确定出对应的集合,并将确定出的集合作为目标用户所属的目标集合。
例如,若获取到目标用户XX的位置信息是“百花产业园”,那么社交群体挖掘装置可将目标用户XX的位置信息“百花产业园”,分别与各集合对应的多个位置进行匹配,若目标用户XX的位置信息“百花产业园”,与位置D间的距离最小,则根据位置D查询各集合与位置的映射关系,可以确定出对应的集合D’,此时可以将集合D’确定为目标用户XX所属的目标集合。
进一步的,在确定目标用户所属的目标集合时,可能存在目标用户的位置信息,与任意两个或多个集合位置间的距离相同的情况,此时就无法确定出目标用户所属的目标集合。对此,本实施例可以通过对各集合对应的位置范围进行等比例扩大操作,然后再根据目标用户的位置信息与处理后的各集合位置间的距离大小,确定目标用户所属的目标集合。
例如,若集合包括集合E、集合F、集合G、集合H,且初始各集合对应的位置范围为100米(m)*100m,当目标用户XX的位置信息与集合E和集合F对应的位置间的距离均为0m,则说明当前目标用户XX的位置信息可能处于集合E和集合F的交接处。此时为了实现对目标用户XX所属的目标集合进行确定,社交群体挖掘装置可以对集合E、集合F、集合G、集合H分别对应的位置范围从100米(m)*100m,扩大到200m*200m,然后再将目标用户XX的位置信息分别与集合E、集合F、集合G、集合H对应的位置进行作差。若目标用户XX的位置信息分别与集合E、集合F、集合G、集合H对应的位置间的距离大小为:150m、250m、250m、450m,则可以确定集合E对应的位置与目标用户XX的位置信息距离最小,则可以将集合E确定为目标用户XX所属的目标集合。
步骤103,根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用户与目标集合中其他各用户间的关联度。
可选的,在实际应用时,各集合中还可以包括各用户的网络环境信息,因此本实施例在确定出目标用户所属的目标集合之后,社交群体挖掘装置还可以根据确定的目标集合中包括的各用户的网络环境信息,对目标用户与目标集合中各用户间的关联度进行确定。
在本申请的一种可选的实现形式中,本实施例可以基于预设的用户模型,确定与目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,分别对应的各关联度。
其中,预设的用户关联模型,为以已知关联度的用户的网络环境信息为样本训练得到。
可选的,本实施例在利用已知关联度的用户的网络环境信息为样本,训练得到预设的用户关联模型时,可以是采用梯度提升决策树(Gradient Boosting Decision Tree,简称为:GBDT),通过多轮迭代,并每轮迭代产生一个弱分类器,且每个分类器是在上一轮分类器的残差基础上进行训练得到的。
训练得到的用户关联模型可以如下公式(1):
其中,Fm()为训练得到的预设的用户关联模型,m为训练的第m轮,M为训练的总轮数,T(x;θm)为每一轮产生的弱分类器,即每个T(x;θm)表示一个回归树,x为输入变量,θm为树的划分变量、划分位置及每棵树中叶子结点的均值等。
需要说明的是,生成的弱分类器的损失函数如公式(2):
其中,为损失函数,L()为代价函数,表示真实值与预测值的差异,yi为真实值,Fm-1()为上一轮的预测值,T()为当前轮的预测值,Fm-1(xi)+T(x;θm)为当前轮的整体预测值,i为训练的第i轮,N为训练的总轮数,T(x;θm)为每一轮产生的一个弱分类器,即每个T(x;θm)表示一个回归树,x为输入变量,θm为树的划分变量、划分位置及每棵树中叶子结点的均值等。
进一步的,在训练得到预设的用户关联模型之后,社交群体挖掘装置可以将获取的目标用户的网络环境信息及目标集合中其他用户的网络环境信息,作为输入数据输入至预设的用户关联模型中,以通过预设的用户关联模型对目标用户的网络环境信息及目标集合中其他用户的网络环境信息进行分析处理,得到目标用于与目标集合中其他各用户间的关联度。
举例来说,若用户A属于百花产业园集合,且该集合中包括3个用户,分别为用户B、用户C、用户D,那么可将用户A的网络环境信息及3个用户的网络环境信息,输入至预设的用户关联模型中,以确定用户A分别与3个用户之间的关联度。其中,若用户A当前接入的热点接入点为AP1,用户B的热点接入点为AP2,用户C的热点接入点均为AP1,用户D的热点接入点为AP3,则说明用户A与用户B和用户D之间关联度较小,用户A与用户C之间的关联度较大。
步骤104,根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合中其他各用户的社交关系。
其中,本实施例中社交关系,可以为同事关系、朋友关系等等,此处对其不作具体限定。
可选的,当确定出目标用户与目标集合中其他各用户间的关联度之后,社交群体挖掘装置即可根据目标用户与目标集合中其它各用户间的关联度,确定出目标用户与目标集合中其他各用户的社交关系。
例如,若目标用户A属于百花产业园集合,且该集合中包括8个用户,分别为第一用户~第八用户,那么当第一用户、第三用户、第四用户、第六用户、第七用户、第八用户均与目标用户A的关联度大,第二用户和第五用户与目标用户A的关联度小时,则可以确定目标用户A与第一用户、第三用户、第四用户、第六用户、第七用户、第八用户之间可能为同事关系,目标用户A与第二用户和第五用户之间不存在社交关系。
又如,若目标用户A属于XX小区集合,且该集合中包括3个用户,分别为X用户、Y用户、Z用户,那么当X用户与目标用户A的关联度大,Y用户和Z用户与目标用户A的关联度小,则可以确定X用户与目标用户A之间可能为亲人关系,Y用户和Z用户与目标用户之间可能为邻居关系,或者不存在社交关系。
本申请实施例提供的社交群体挖掘方法,首先获取目标用户的位置信息及网络环境信息,以根据目标用户的位置信息,确定目标用户所属的目标集合,并根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用于与目标集合中其他各用户间的关联度,然后根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合的归属关系。由此,实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。
通过上述分析可知,本申请通过根据目标用户的位置信息,确定目标用户所属的目标集合,并根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用户与目标集合中各用户的关联度,以根据关联度确定目标用户与目标集合中其他各用户的社交关系。
由于在实际应用时,一个目标集合可以对应多个(比如N个)实体名称,因此当目标用户归属于具有多个实体名称的目标集合时,为了能够更准确的确定出目标用户归属于哪一实体名称,本申请可以根据目标集合中各用户间的关联度,对目标集合进行分簇处理,以通过计算目标用户与目标集合中各簇中包括的各用户间的关联度,来确定目标用户具体归属的实体名称。
下面结合图2,对本申请的社交群体挖掘方法进行进一步的说明。
图2为本申请另一个实施例的社交群体挖掘方法的流程示意图。
如图2所示,本申请实施例的社交群体挖掘方法可以包括以下步骤:
步骤201,获取目标用户的位置信息及网络环境信息,其中,网络环境信息,用于表征目标用户当前接入的网络地址。
步骤202,根据目标用户的位置信息,确定目标用户所属的目标集合。
步骤203,根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用户与所述目标集合中其他各用户间的关联度。
其中,上述步骤201-203的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤204,根据目标集合中各用户间的关联度,将目标集合进行分簇处理,确定目标用户所属的目标簇,其中每个簇对应一个实体名称。
其中,实体名称可以是指企业名称,或者其它等等,此处对其不作具体限定。
在实际应用过程中,一个目标集合中可以包括多个用户,并且各用户间的关联度也存在大小的区别。因此,本申请通过对具有多个用户的目标集合进行更细致的划分,以使后续对目标用户与目标集合的归属关系的确定准确度更高。
可选的,本申请实施例可以首先对目标集合中包括的用户数量进行确定,若确定包括多个用户时,则进一步分析各用户间的关联度,以确定各用户间的关联度大小,然后根据各用户间的关联度大小,将关联度一致的各用户划分为一簇,从而得到多个簇,并且为了区分多个簇,本实施例还可以根据各个簇中包括的各用户具有的共同属性,对各个簇进行标记。
其中,本实施例中各个簇中包括的各用户具有的共同属性,可以是各用户在服务端登记的地址信息,或者,还可以是各用户在服务端登记的实体名称等等,此处对其不作具体限定。
比如,若目标集合X分为3个簇,那么社交群体挖掘装置可以分别对包括多个用户的3个簇进行分析处理,若第一簇中包括的各用户的共同属性为“xx公司”、第二簇中包括的各用户的共同属性为“XX事务所”、第三簇中包括的各用户的共同属性为“XX餐厅”,则可以“xx公司”作为第一簇的标记,“XX事务所”作为第二簇的标记,“XX餐厅”作为第三簇的标记。
进一步的,当对目标集合中包括的各用户进行分簇处理之后,本实施例可以根据目标用户的网络环境信息及N个簇中各用户的网络环境信息,确定目标用户与N个簇中各用户间的关联度,从而根据目标用户与N个簇中各用户间的关联度,确定目标用户所属的目标簇。
可选的,本实施例可以通过以下方式,确定目标用户所属的目标簇。
作为第一种可选的实现方式:
若目标用户与第一簇中各用户间的关联度均大于阈值、与第二簇中各用户间的关联度均小于阈值,则确定目标用户所属的目标簇为第一簇。
其中,阈值可以是设备自定义设置的,也可以是用户根据实际需求进行适应性设置的,本实施例对此不作具体限定。
也就是说,本申请通过将目标用户分别与多个簇中各用户间的关联度进行确定,并将与目标用户关联度大于阈值的各用户所属的簇,作为目标用户所属的目标簇。
例如,若阈值为0.95,那么当目标用户A与第一簇Q中各用户间的关联度分别为0.95、0.96、0.99,则说明目标用户A与第一簇Q中各用户间的关联度大于0.95,当目标用户A与第二簇W中各用户间的关联度分别为0.92、0.95、0.93、0.94,则说明第二簇W中存在三个用户与目标用户A的关联度小于0.95,此时可以确定出第一簇Q为目标用户A的目标簇。
作为第二种可选的实现方式:
若目标用户与第一簇中及第二簇中各用户间的关联度均大于阈值、且第一簇与第二簇分别对应第一实体名称及第二实体名称,则根据第一簇中包含的用户数量及第二簇中包含的用户数量,确定目标用户所属的目标簇。
例如,若阈值为0.92,那么当用户A与第一簇Q中及第二簇W中各用户间的关联度均大于0.92时,社交群体挖掘装置则可以对第一簇Q中包括的用户数量,及第二簇W中包括的用户数量进行确定,若第一簇Q中包括的用户数量为100个,第二簇W中包括的用户数量为10个,那么可以确定出第一簇Q中包括的与用户A的关联度大于0.92的用户数量远远大于,第二簇W中包括的与用户A的关联度大于0.92的用户数量,此时可以确定第一簇Q为用户A的目标簇。
作为第三种可选的实现方式:
若目标用户与第一簇及第二簇中各用户间的关联度均大于阈值、且第一簇与所述第二簇分别对应第一实体名称及第二实体名称,则根据第一实体名称及第二实体名称分别所属行业的类型、和/或规模,确定目标用户所属的目标簇。
其中,行业的类型,可以包括多种,比如金融业、餐饮业、软件业、汽车业等等,此处不作具体限定。
可以理解的是,在本实施例中,确定目标用户所属的目标簇,可以是根据第一实体名称及第二实体名称分别所属的行业的类型确定;或者,还可以是根据第一实体名称及第二实体名称分别所属的行业的规模确定;或者,也可以是根据第一实体名称及第二实体名称分别所属的行业的类型及规模确定等等,此处对其不作具体限定。
举例来说,若阈值为0.92,并且目标用户A与第一簇Q及第二簇W中各用户间的关联度均大于0.92,那么社交群体挖掘装置可以对第一簇Q对应的第一实体名称及第二簇W对应的第二实体名称进行确定,当确定第一簇Q对应的第一实体名称为“XX银行”,第二簇W对应的第二实体名称为“XX酒楼”,则可以确定出第一簇Q属于银行业,第二簇W属于餐饮业,而一般餐饮业属于公共行业,任何用户均可进行就餐,用户流动性比较大,而银行业中用户的流动性相对较小,则可以将属于银行业的第一簇Q确定为目标用户A的目标簇。
本实施例的社交群体挖掘方法,通过分析目标集合中包括的各用户间的关联度大小,将目标集合进行分簇处理,以使确定目标用户与目标集合的归属关系时,可以更细致的确定出目标用户所属的具体簇,从而提高了确定用户与其它用户之间关系的精准度。
通过上述分析可知,本申请根据目标集合中各用户间的关联度,将目标集合进行分簇处理,并根据各簇中各用户与目标用户之间的关联度,确定目标用户所属的目标簇。
在本申请的另一种可选的实现形式中,当确定出目标用户所属的目标簇之后,为了满足社交关系网络中各用户的需求,本实施例还可以对目标用户所从事的行业类型进行确定,从而根据目标用户所从事的行业类型,确定出目标用户对应的标签集,使得后续可以根据标签集,向用户有针对性的信息推送,从而有效提高了社交群体数据的实用性和易用性。下面结合图3,对本申请的社交群体挖掘方法进行进一步的说明。
图3为本申请又一个实施例的社交群体挖掘方法的流程示意图。
如图3所示,本申请实施例的社交群体挖掘方法可以包括以下步骤:
步骤301,获取目标用户的位置信息及网络环境信息,其中,网络环境信息,用于表征目标用户当前接入的网络地址。
步骤302,根据目标用户的位置信息,确定目标用户所属的目标集合。
步骤303,根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用户与所述目标集合中其他各用户间的关联度。
步骤304,根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合中其他各用户的社交关系。
其中,上述步骤301-304的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤305,若目标用户与目标集合中其他各用户存在社交关系,则对目标集合对应的实体名称进行解析,确定目标集合所属的行业类型。
可选的,当确定目标用户与目标集合中的其他用户有社交关系后,还可以对该目标集合所属的行业进行挖掘,从而确定该目标集合中各用户所从事的行业信息,在本实施例中,可以基于概率推理对目标集合所属行业的行业类型进行预测。其中,本申请可以采用朴素贝叶斯推理,对目标集合所属行业的行业类型进行预测。
在本申请的一种可选的实现形式中,本实施例对目标集合对应的实体名称进行解析,确定目标集合所属的行业类型的具体流程,可以参见图4所示。
如图4所示,本实施例确定目标集合所属的行业类型可以包括以下几个步骤:
步骤401,对目标集合对应的实体名称进行解析处理,确定目标集合对应的实体名称中各切词单元在实体名称中的权值。
可选的,可以通过对目标集合对应的实体名称进行语义分析,并根据分析结果对目标集合对应的实体名称进行切词操作,得到对应的切词单元,并确定切词单元在实体名称中的权重。
在确定各切词单元在实体名称中的权重时,可以根据各切词单元分别对应的语义来确定,比如对实体名称“百度大厦”进行切词后,得到的切词单元为“百度”和“大厦”,由于“百度”为具有特殊的语义,而“大厦”仅有一般语义。从而可确定在“百度大厦”中“百度”的权重值,大于“大厦”的权重值。
需要说明的是,在确定各切词单元的权重时,还可以考虑各切词单元是否为专业术语,通常专业术语的权重值大于非专业术语的权重值。
步骤402,根据预设的行业词典,确定目标集合对应的实体名称中各切词单元分别对应的各行业概率值。
其中,预设的行业词典,可以是对已知行业类型的各集合对应的实体名称进行语义分析并切词处理,然后对切词结果中的无效词进行过滤后,建立的行业与词的映射词典。比如,对“百度大厦”切词并无效词过滤后,得到的有效词为“百度”,映射的行业为“互联网”。
可选的,本申请在确定出目标集合对应的实体名称中各切词单元在实体名称中的权值之后,社交群体挖掘装置可以利用预设的行业词典,对目标集合对应的实体名称中各切词单元分别对应的各行业概率值进行确定。
例如,切词单元为“百度”时,根据预设的行业词典,可以确定“百度”为互联网的概率为P1,为广告行业的概率为P2。
步骤403,根据各切词单元在实体名称中的权值及各切词单元分别对应的各行业概率值,确定目标集合所属的行业类型。
可选的,本实施例可以通过以下公式(3),确定目标集合所属的行业类型。
其中,P(B)为实体名称属于B行业的概率,A为实体名称的有效切词,P(Ai)为切词单元Ai在实体名称中所占比重,P(B|Ai)为切词单元Ai属于B行业的概率,n为切词单元的个数,i为第i个切词单元。
也就是说,本申请通过上述公式(3),可以获取到目标集合所属各行业的概率,并从多个概率中选取概率最大的为目标集合所属的行业类型。
步骤306,根据预设的行业类型与标签的映射关系,确定目标用户对应的标签集。
其中,预设的行业类型与标签的映射关系,可以是基于word2vec对目标集合所属的行业进行挖掘建立的。
在实际应用中,为了使社交数据发挥更大的价值,本实施例可以根据目标集合的单位/行业信息进行便捷的标签丰富度建设。
可选的,本实施例可以为各行业建立有强相关的种子泛兴趣词,并对于需要映射的产品兴趣分类,以词向量为特征,计算种子泛兴趣词与产品兴趣词的相似度,达到扩充的目的,即通过word2vec进行词库扩充,形成各行业类型的兴趣池,然后根据目标用户归属于目标集合对应的实体名称的语义信息,在对应的行业池中进行相似标签的挖掘。
其中,产品兴趣分类可以是各类产品类型,如新闻类、视频类、电商类等。
例如,互联网行业的种子兴趣词有计算机、科技,那么经过词扩充之后,得到扩充内容为:谷歌、AI、大数据等。
又如,银行行业的种子兴趣词有:金融、股票,那么经过词扩充之后,得到扩充内容可以为:首次公开募股(Initial Public Offerings,简称为:IPO)、P2P、泸指等。
进一步的,在得到各行业的标签池之后,本实施例可以根据目标用户所属的目标集合对应的行业类型,查询预设的行业类型与标签的映射关系,确定出目标用户对应的标签集。
其中,对于准确率要求不高的场景,本实施例可以基于确定的标签集,为目标用户进行信息推送;对于准确率要求高的场景,本实施例可以对确定的标签进行进一步的精准匹配,然后再根据最终确定的目标用户对应的标签,为目标用户进行信息推送。
可选的,在本实施例中,对标签进行进一步的精准匹配的方式,可以通过对实体名称进行语义切词,然后在所属行业的标签池中进行相似标签的计算,从而取置信度高的标签作为最终的标签集。
本实施例的社交群体挖掘方法,在确定出目标用户与目标集合的归属关系之后,对目标集合对应的实体名称进行解析,确定目标集合所属的行业类型,然后根据预设的行业类型与标签的映射关系,确定目标用户对应的标签集。从而为向用户进行信息推送的业务提供了可靠的推送依据,可以实现有针对性的推送,从而提高了用户获取有用信息的速度,及效率,满足了用户需求。
下面参照附图描述本申请实施例提出的社交群体挖掘装置。
图5为本申请一个实施例的社交群体挖掘装置的结构示意图。
如图5所示,该社交群体挖掘装置包括:第一获取模块11、第一确定模块12、第二确定模块13及第三确定模块14。
其中,第一获取模块11用于获取目标用户的位置信息及网络环境信息,其中,所述网络环境信息,用于表征所述目标用户当前接入的网络地址;
第一确定模块12用于根据所述目标用户的位置信息,确定所述目标用户所属的目标集合;
第二确定模块13用于根据所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,确定所述目标用户与所述目标集合中其他各用户间的关联度;
第三确定模块14用于根据所述目标用户与所述目标集合中其他各用户间的关联度,确定所述目标用户与所述目标集合中其他各用户的社交关系。
作为一种可选的实现形式,本实施例社交群体挖掘装置还包括:第四确定模块。
其中,第四确定模块用于对地图数据进行解析,确定各集合与位置的映射关系。
所述第一确定模块12具体用于根据所述目标用户的位置信息与各集合位置间的距离大小,确定所述目标用户所属的目标集合。
作为一种可选的实现形式,所述第二确定模块13具体用于基于预设的用户关联模型,确定与所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,分别对应的各关联度;
其中,所述预设的用户关联模型,为以已知关联度的用户的网络环境信息为样本训练得到。
需要说明的是,本实施例的社交群体挖掘装置的实施过程和技术原理参见前述对第一方面实施例的社交群体挖掘方法的解释说明,此处不再赘述。
本申请实施例提供的社交群体挖掘装置,首先获取目标用户的位置信息及网络环境信息,以根据目标用户的位置信息,确定目标用户所属的目标集合,并根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用于与目标集合中其他各用户间的关联度,然后根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合的归属关系。由此,实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。
在示例性实施例中,还提供了一种社交群体挖掘装置。
图6为本申请另一个实施例的社交群体挖掘的结构示意图。
参照图6所示,本申请的社交群体挖掘包括:第一获取模块11、第一确定模块12、第二确定模块13及第五确定模块15。
其中,第一获取模块11用于获取目标用户的位置信息及网络环境信息,其中,所述网络环境信息,用于表征所述目标用户当前接入的网络地址;
第一确定模块12用于根据所述目标用户的位置信息,确定所述目标用户所属的目标集合;
其中,所述目标集合对应N个实体名称,其中N为大于1的正整数。
第二确定模块13用于根据所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,确定所述目标用户与所述目标集合中其他各用户间的关联度;
作为一种可选的实现形式,本申请社交群体挖掘装置还包括:第五确定模块15。
其中,第五确定模块15用于根据所述目标集合中各用户间的关联度,将所述目标集合进行分簇处理,确定所述目标用户所属的目标簇,其中每个簇对应一个实体名称。
作为一种可选的实现形式,所述第五确定模块15,具体用于若所述目标用户与第一簇中各用户间的关联度均大于阈值、与第二簇中各用户间的关联度均小于阈值,则确定所述目标用户所属的目标粗为第一簇。
作为一种可选的实现形式,所述第五确定模块15,具体用于若所述目标用户与第一簇中及第二簇中各用户间的关联度均大于阈值、且所述第一簇与所述第二簇分别对应第一实体名称及第二实体名称,则根据所述第一簇中包含的用户数量及第二簇中包含的用户数量,确定目标用户所属的目标簇。
作为一种可选的实现形式,所述第五确定模块15,具体用于若所述目标用户与第一簇及第二簇中各用户间的关联度均大于阈值、且所述第一簇与所述第二簇分别对应第一实体名称及第二实体名称,则根据所述第一实体名称及所述第二实体名称分别所属行业的类型、和/或规模,确定目标用户所属的目标簇。
需要说明的是,本实施例的社交群体挖掘装置的实施过程和技术原理参见前述对第一方面实施例的社交群体挖掘方法的解释说明,此处不再赘述。
本申请实施例提供的社交群体挖掘装置,通过分析目标集合中包括的各用户间的关联度大小,将目标集合进行分簇处理,以使确定目标用户与目标集合的归属关系时,可以更细致的确定出目标用户所属的具体簇,从而提高了确定用户与其它用户之间关系的精准度。
在示例性实施例中,还提供了一种社交群体挖掘装置。
图7为本申请又一个实施例的社交群体挖掘装置的结构示意图。
如图7所示,本申请的社交群体挖掘装置包括:第一获取模块11、第一确定模块12、第二确定模块13、第三确定模块14、第六确定模块16及第七确定模块17。
其中,第一获取模块11用于获取目标用户的位置信息及网络环境信息,其中,所述网络环境信息,用于表征所述目标用户当前接入的网络地址;
第一确定模块12用于根据所述目标用户的位置信息,确定所述目标用户所属的目标集合;
其中,所述目标集合对应一个实体名称。
第二确定模块13用于根据所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,确定所述目标用户与所述目标集合中其他各用户间的关联度;
第三确定模块14用于根据所述目标用户与所述目标集合中其他各用户间的关联度,确定所述目标用户与所述目标集合中其他各用户的社交关系。
作为一种可选的实现形式,本申请社交群体挖掘装置还包括:第六确定模块16及第七确定模块17。
其中,第六确定模块16用于若所述目标用户与所述目标集合中其他各用户存在社交关系,则对所述目标集合对应的实体名称进行解析,确定所述目标集合所属的行业类型;
第七确定模块17用于根据预设的行业类型与标签的映射关系,确定所述目标用户对应的标签集。
作为一种可选的实现形式,所述第六确定模块16具体用于:对所述目标集合对应的实体名称进行解析处理,确定所述目标集合对应的实体名称中各切词单元在所述实体名称中的权值;
根据预设的行业词典,确定所述目标集合对应的实体名称中各切词单元分别对应的各行业概率值;
根据所述各切词单元在所述实体名称中的权值及所述各切词单元分别对应的各行业概率值,确定所述目标集合所属的行业类型。
需要说明的是,前述对社交群体挖掘方法实施例的解释说明也适用于该实施例的社交群体挖掘装置,其实现原理类似,此处不再赘述。
本实施例的社交群体挖掘装置,在确定出目标用户与目标集合的归属关系之后,对目标集合对应的实体名称进行解析,确定目标集合所属的行业类型,然后根据预设的行业类型与标签的映射关系,确定目标用户对应的标签集。从而为向用户进行信息推送的业务提供了可靠的推送依据,可以实现有针对性的推送,从而提高了用户获取有用信息的速度,及效率,满足了用户需求。
为了实现上述实施例,本申请还提出一种计算机设备。
图8为本申请一个实施例的计算机设备的结构示意图。图8显示的计算机设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,上述计算机设备200包括:存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序,所述处理器220执行所述程序时,实现第一方面实施例所述的社交群体挖掘方法。
在一种可选的实现形式中,如图9所示,该计算机设备200还可以包括:存储器210及处理器220,连接不同组件(包括存储器210和处理器220)的总线230,存储器210存储有计算机程序,当处理器220执行所述程序时实现本申请实施例所述的社交群体挖掘方法。
总线230表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备200典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算机设备200访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器210还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)240和/或高速缓存存储器250。计算机设备200可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统260可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块270的程序/实用工具280,可以存储在例如存储器210中,这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信,还可与一个或者多个使得用户能与该计算机设备200交互的设备通信,和/或与使得该计算机设备200能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且,计算机设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器293通过总线230与计算机设备200的其他模块通信。应当明白,尽管图中未示出,可以结合计算机设备200使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
需要说明的是,本实施例的计算机设备的实施过程和技术原理参见前述对第一方面实施例的社交群体挖掘方法的解释说明,此处不再赘述。
本申请实施例提供的计算机设备,首先获取目标用户的位置信息及网络环境信息,以根据目标用户的位置信息,确定目标用户所属的目标集合,并根据目标用户的网络环境信息及目标集合中其他各用户的网络环境信息,确定目标用于与目标集合中其他各用户间的关联度,然后根据目标用户与目标集合中其他各用户间的关联度,确定目标用户与目标集合的归属关系。由此,实现了基于用户的位置信息及网络环境信息,对用户与其他用户之间的关系进行挖掘,由于挖掘数据获取难度低、且覆盖范围广,从而不仅降低了用户关系挖掘的成本,而且使得最终获得的用户关系更加全面、更加实用。
为实现上述目的,本申请还提出一种计算机可读存储介质。
其中该计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,以实现第一方面实施例所述的社交群体挖掘方法。
一种可选实现形式中,本实施例可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种社交群体挖掘方法,其特征在于,包括:
获取目标用户的位置信息及网络环境信息,其中,所述网络环境信息,用于表征所述目标用户当前接入的网络地址;
根据所述目标用户的位置信息,确定所述目标用户所属的目标集合;
根据所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,确定所述目标用户与所述目标集合中其他各用户间的关联度;
根据所述目标用户与所述目标集合中其他各用户间的关联度,确定所述目标用户与所述目标集合中其他各用户的社交关系。
2.如权利要求1所述的方法,其特征在于,所述确定目标用户所属的目标集合之前,还包括:
对地图数据进行解析,确定各集合与位置的映射关系;
所述确定目标用户所属的目标集合,包括:
根据所述目标用户的位置信息与各集合位置间的距离大小,确定所述目标用户所属的目标集合。
3.如权利要求1所述的方法,其特征在于,所述确定所述目标用户与所述目标集合中其他各用户间的关联度,包括:
基于预设的用户关联模型,确定与所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,分别对应的各关联度;
其中,所述预设的用户关联模型,为以已知关联度的用户的网络环境信息为样本训练得到。
4.如权利要求1所述的方法,其特征在于,所述目标集合对应N个实体名称,其中N为大于1的正整数;
所述确定所述目标用户与所述目标集合中其他各用户间的关联度之后,还包括:
根据所述目标集合中各用户间的关联度,将所述目标集合进行分簇处理,确定所述目标用户所属的目标簇,其中每个簇对应一个实体名称。
5.如权利要求4所述的方法,其特征在于,所述确定目标用户所属的目标簇,包括:
若所述目标用户与第一簇中各用户间的关联度均大于阈值、与第二簇中各用户间的关联度均小于阈值,则确定所述目标用户所属的目标簇为第一簇。
6.如权利要求4所述的方法,其特征在于,所述确定目标用户所属的目标簇,包括:
若所述目标用户与第一簇中及第二簇中各用户间的关联度均大于阈值、且所述第一簇与所述第二簇分别对应第一实体名称及第二实体名称,则根据所述第一簇中包含的用户数量及第二簇中包含的用户数量,确定目标用户所属的目标簇。
7.如权利要求4所述的方法,其特征在于,
所述确定目标用户所属的目标簇,包括:
若所述目标用户与第一簇及第二簇中各用户间的关联度均大于阈值、且所述第一簇与所述第二簇分别对应第一实体名称及第二实体名称,则根据所述第一实体名称及所述第二实体名称分别所属行业的类型、和/或规模,确定目标用户所属的目标簇。
8.如权利要求1-7任一所述的方法,其特征在于,所述目标集合对应一个实体名称;
所述确定所述目标用户与所述目标集合中其他各用户的社交关系之后,还包括:
若所述目标用户与所述目标集合中其他各用户存在社交关系,则对所述目标集合对应的实体名称进行解析,确定所述目标集合所属的行业类型;
根据预设的行业类型与标签的映射关系,确定所述目标用户对应的标签集。
9.如权利要求8所述的方法,其特征在于,所述对所述目标集合对应的实体名称进行解析,确定所述目标集合所属的行业类型,包括:
对所述目标集合对应的实体名称进行解析处理,确定所述目标集合对应的实体名称中各切词单元在所述实体名称中的权值;
根据预设的行业词典,确定所述目标集合对应的实体名称中各切词单元分别对应的各行业概率值;
根据所述各切词单元在所述实体名称中的权值及所述各切词单元分别对应的各行业概率值,确定所述目标集合所属的行业类型。
10.一种社交群体挖掘装置,其特征在于,包括:
第一获取模块,用于获取目标用户的位置信息及网络环境信息,其中,所述网络环境信息,用于表征所述目标用户当前接入的网络地址;
第一确定模块,用于根据所述目标用户的位置信息,确定所述目标用户所属的目标集合;
第二确定模块,用于根据所述目标用户的网络环境信息及所述目标集合中其他各用户的网络环境信息,确定所述目标用户与所述目标集合中其他各用户间的关联度;
第三确定模块,用于根据所述目标用户与所述目标集合中其他各用户间的关联度,确定所述目标用户与所述目标集合中其他各用户的社交关系。
11.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,以实现如权利要求1-9任一所述的社交群体挖掘方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现如权利要求1-9任一所述的社交群体挖掘方法。
CN201810606527.7A 2018-06-13 2018-06-13 社交群体挖掘方法、装置、设备及存储介质 Active CN110598122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810606527.7A CN110598122B (zh) 2018-06-13 2018-06-13 社交群体挖掘方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810606527.7A CN110598122B (zh) 2018-06-13 2018-06-13 社交群体挖掘方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110598122A true CN110598122A (zh) 2019-12-20
CN110598122B CN110598122B (zh) 2022-04-01

Family

ID=68849115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810606527.7A Active CN110598122B (zh) 2018-06-13 2018-06-13 社交群体挖掘方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110598122B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369375A (zh) * 2020-03-17 2020-07-03 深圳市随手金服信息科技有限公司 一种社交关系确定方法、装置、设备及存储介质
CN111652451A (zh) * 2020-08-06 2020-09-11 腾讯科技(深圳)有限公司 社交关系的获取方法和装置及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8443005B1 (en) * 2011-07-12 2013-05-14 Relationship Science LLC Using an ontology model to validate connectivity in a social graph
CN105159926A (zh) * 2015-08-04 2015-12-16 百度在线网络技术(北京)有限公司 建立用户的用户信息关联的方法和装置
CN105608179A (zh) * 2015-12-22 2016-05-25 百度在线网络技术(北京)有限公司 确定用户标识的关联性的方法和装置
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN106446078A (zh) * 2016-09-08 2017-02-22 乐视控股(北京)有限公司 一种信息的推荐方法和推荐装置
CN106557942A (zh) * 2015-09-30 2017-04-05 百度在线网络技术(北京)有限公司 一种用户关系的识别方法和装置
CN106570764A (zh) * 2016-11-09 2017-04-19 广州杰赛科技股份有限公司 一种用户关系预测方法及装置
CN106685809A (zh) * 2017-02-24 2017-05-17 腾讯科技(深圳)有限公司 一种社交圈子的生成方法和装置
CN106776707A (zh) * 2016-11-11 2017-05-31 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN107194412A (zh) * 2017-04-20 2017-09-22 百度在线网络技术(北京)有限公司 一种处理数据的方法、装置、设备和计算机存储介质
CN107613084A (zh) * 2017-10-09 2018-01-19 陈包容 一种通讯录联系人自动分组的方法、装置和系统
CN107786943A (zh) * 2017-11-15 2018-03-09 北京腾云天下科技有限公司 一种用户分群方法及计算设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8443005B1 (en) * 2011-07-12 2013-05-14 Relationship Science LLC Using an ontology model to validate connectivity in a social graph
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN105159926A (zh) * 2015-08-04 2015-12-16 百度在线网络技术(北京)有限公司 建立用户的用户信息关联的方法和装置
CN106557942A (zh) * 2015-09-30 2017-04-05 百度在线网络技术(北京)有限公司 一种用户关系的识别方法和装置
CN105608179A (zh) * 2015-12-22 2016-05-25 百度在线网络技术(北京)有限公司 确定用户标识的关联性的方法和装置
CN106446078A (zh) * 2016-09-08 2017-02-22 乐视控股(北京)有限公司 一种信息的推荐方法和推荐装置
CN106570764A (zh) * 2016-11-09 2017-04-19 广州杰赛科技股份有限公司 一种用户关系预测方法及装置
CN106776707A (zh) * 2016-11-11 2017-05-31 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN106685809A (zh) * 2017-02-24 2017-05-17 腾讯科技(深圳)有限公司 一种社交圈子的生成方法和装置
CN107194412A (zh) * 2017-04-20 2017-09-22 百度在线网络技术(北京)有限公司 一种处理数据的方法、装置、设备和计算机存储介质
CN107613084A (zh) * 2017-10-09 2018-01-19 陈包容 一种通讯录联系人自动分组的方法、装置和系统
CN107786943A (zh) * 2017-11-15 2018-03-09 北京腾云天下科技有限公司 一种用户分群方法及计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘分等: "基于移动网络位置信息的群体发现方法", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369375A (zh) * 2020-03-17 2020-07-03 深圳市随手金服信息科技有限公司 一种社交关系确定方法、装置、设备及存储介质
CN111652451A (zh) * 2020-08-06 2020-09-11 腾讯科技(深圳)有限公司 社交关系的获取方法和装置及存储介质

Also Published As

Publication number Publication date
CN110598122B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
Zhang et al. An incremental CFS algorithm for clustering large data in industrial internet of things
CN110390054B (zh) 兴趣点召回方法、装置、服务器和存储介质
US9262438B2 (en) Geotagging unstructured text
US11861516B2 (en) Methods and system for associating locations with annotations
Zhao et al. ICFS clustering with multiple representatives for large data
CN111212383B (zh) 区域常住人口数量的确定方法、装置、服务器和介质
CN106033416A (zh) 一种字符串处理方法及装置
CN110709828A (zh) 使用条件随机域模型确定文本属性的系统及方法
CN111522838A (zh) 地址相似度计算方法及相关装置
CN111382212A (zh) 关联地址获取方法、装置、电子设备及存储介质
CN107133263A (zh) Poi推荐方法、装置、设备及计算机可读存储介质
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
CN110598122B (zh) 社交群体挖掘方法、装置、设备及存储介质
CN112860993A (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN111310065A (zh) 一种社交推荐方法、装置、服务器及存储介质
CN113139110B (zh) 区域特征处理方法、装置、设备、存储介质和程序产品
CN113821702A (zh) 一种城市多维空间多元异构信息数据处理方法
CN107729944B (zh) 一种低俗图片的识别方法、装置、服务器及存储介质
CN111126422A (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN104615620A (zh) 地图搜索类型识别方法及装置、地图搜索方法及系统
CN112419312A (zh) 相似房源信息检测方法、装置、电子设备和可读介质
CN109657060B (zh) 安全生产事故案例推送方法及系统
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质
CN114638308A (zh) 一种获取对象关系的方法、装置、电子设备和存储介质
CN111125272B (zh) 一种区域特征获取方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant