CN103049496B - 一种对多个用户进行用户群划分的方法、装置与设备 - Google Patents

一种对多个用户进行用户群划分的方法、装置与设备 Download PDF

Info

Publication number
CN103049496B
CN103049496B CN201210526282.XA CN201210526282A CN103049496B CN 103049496 B CN103049496 B CN 103049496B CN 201210526282 A CN201210526282 A CN 201210526282A CN 103049496 B CN103049496 B CN 103049496B
Authority
CN
China
Prior art keywords
user
customer group
multiple users
topological relation
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210526282.XA
Other languages
English (en)
Other versions
CN103049496A (zh
Inventor
闫新发
黄启友
谢剑
董贯慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210526282.XA priority Critical patent/CN103049496B/zh
Publication of CN103049496A publication Critical patent/CN103049496A/zh
Application granted granted Critical
Publication of CN103049496B publication Critical patent/CN103049496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于基于用户拓扑关系网对多个用户进行用户群划分的方法、装置与设备。其中,本发明获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分。

Description

一种对多个用户进行用户群划分的方法、装置与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于用户拓扑关系网对多个用户进行用户群划分的方法、装置与设备。
背景技术
现有技术中一般基于用户属性,如基于用户所属行业分类、地域等,直接对多个用户进行用户群划分;或是通过确定用户的分类体系,构建被标注的客户分类样本,通过训练分类模型从而对多个用户进行用户群划分。但是,基于用户属性直接划分的方式所涉及的用户属性信息维度有限,在复杂的网络应用场景中则无法得到正确划分后的用户群;同时,由于不同的业务需求需要不同类型的分类体系,因而通过构建训练分类模型体系进行划分的方式的构建成本较大,且静态的分类体系构建无法有效地适应复杂多变的网络应用环境。
发明内容
本发明的目的是提供一种基于用户拓扑关系网对多个用户进行用户群划分的方法、装置与设备。
根据本发明的一个方面,提供了一种基于用户拓扑关系网对多个用户进行用户群划分的方法,该方法包括以下步骤:
a获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;
b根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;
c当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分。
根据本发明的另一方面,还提供了一种用于基于用户拓扑关系网对多个用户进行用户群划分的划分装置,该划分装置包括:
发布次数获取装置,用于获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;
第一强度确定装置,用于根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;
第一划分装置,用于当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分。
与现有技术相比,本发明与现有技术的区别在于:通过构建用户拓扑关系网,并基于层次级聚类方法对该用户拓扑关系网中的多个用户进行用户群划分,能够根据多个用户之间基于发布信息的共同展现次数的关系进行用户群划分,提高划分效率及准确性;且避免了现有技术中仅基于用户属性直接划分的方式的局限性及通过构建训练分类模型体系进行划分的方式的较大成本花费,有效地在复杂多变的网络应用环境中对海量用户进行客观性群属划分;2)通过确定用户拓扑关系网中每个用户群的用户群内交互关系强度,能够掌握群内各个用户基于信息发布的竞争关系紧密度,使得群内每一用户能够客观了解与其具有相同或相似信息发布需求的其他用户的与自身的发布竞争关系,从而为适当调整其信息发布方式提供可靠依据;3)通过提取划分后的用户群中的多个用户的相同特征信息的方式来为该用户群标注描述信息,使得描述信息能够更加全面、准确地从多个维度出发来概括该用户群,因此用户能够充分了解其自身所处用户群的特点,为用户进一步适当调整其信息发布方式提供可靠依据;进一步,降低了由于用户不能准确把握其所属用户群而错失的发布机会,使得网民可通过搜索引擎进行查询来获取与其查询需求更为匹配的来自同一用户群的多条发布信息,提高了网民查询效率与搜索体验。。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出本发明一个方面的用于基于用户拓扑关系网对多个用户进行用户群划分的划分装置的结构示意图;
图2示出根据本发明一个优选实施例的用于为用户群标注描述信息的划分装置的设备示意图;
图3示出根据本发明另一个方面的基于用户拓扑关系网对多个用户进行用户群划分的方法流程图;
图4示出根据本发明一个优选实施例的为用户群标注描述信息的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出本发明一个方面的用于基于用户拓扑关系网对多个用户进行用户群划分的划分装置的结构示意图;本实施例的划分装置包含于网络设备中;该划分装置包括发布次数获取装置1、第一强度确定装置2及第一划分装置3。
其中,所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
其中,所述用户拓扑关系网中包括待划分用户群的多个用户。
首先,发布次数获取装置1获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数。
其中,当网民执行一次检索操作来获取搜索结果时,多个用户中任意两个用户的发布信息同时出现在搜索结果页面中,即指一次共同发布;所述共同发布次数意指基于网民的同次检索的搜索结果中、多个用户中任意两个用户的发布信息同时出现在搜索结果页面中的统计次数;所述非共同发布次数意指基于网民的同次检索的搜索结果中、多个用户中任意两个用户的发布信息未同时出现在搜索结果页面中的统计次数。
具体地,发布次数获取装置1根据多个用户的用户标识,如用户ID,在本地或第三方设备的发布信息库中进行查询,以获取多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数。
其中,所述发布信息库中保存有多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;优选地,所述发布信息库包括但不限于关系数据库、Key-Value存储系统或文件系统等;所述发布信息库可位于划分装置所在的网络设备中,或位于于与该网络设备通过网络连接的其他第三方设备中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数的实现方式,均应包含在本发明的范围内。
随后,第一强度确定装置2根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度。
具体地,第一强度确定装置2根据任意两个用户的共同发布次数及非共同发布次数,并基于下式1)来确定该任意两个用户的共现关系强度:
R ( A , B ) = ( P V A ∩ PV B PV A ∪ PV B ) S iog 10 ( PV A ∩ PV B ) - - - 1 )
其中,PVA∩PVB代表用户A与用户B的共同发布次数;
PVA∪PVB代表用户A与用户B的所有发布次数;
s可取值为1,也可根据具体网络应用场景调整赋值。
在一示例中,若多个用户中任意两个用户为用户A和用户B,用户A与用户B的共同发布次数为100,其非共同发布次数为10,则通过式1),可计算确定用户A和用户B的共现关系强度为 1.818 ( = ( 100 100 + 10 ) 1 log 10 ( 100 ) ) .
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度的实现方式,均应包含在本发明的范围内。
随后,当所述共现关系强度不小于预定的关系强度阈值时,第一划分装置3通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分。
具体地,当第一强度确定装置2确定的任意两个用户之间的共现关系强度不小于预定的关系强度阈值时,第一划分装置3在用户拓扑关系网中确定该任意两个用户之间具有连接关系,并将该任意两个用户的共现关系强度确定为该任意两个用户在用户拓扑关系网中的连接权值;根据任意两个用户在所述用户拓扑关系网中的连接关系,通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分,以确定该多个用户分别所属的多个用户群,其中,一个用户可属于一个或多个用户群中。
其中,所述通过层次级聚类方法对用户拓扑关系网中的多个用户进行用户群划分的方式包括但不限于:
1)通过CNM算法对用户拓扑关系网中的多个用户进行用户群划分;其中,第一划分装置3(参照图1)包括矩阵构建装置(图未示)和第二划分装置(图未示)。
具体地,矩阵构建装置通过CNM算法,基于下式2)来构建初始化模块度增量矩阵ΔQ,其中,初始化将所述用户拓扑关系网中每个节点上的一个用户作为一个用户群:
其中,ΔQij表示模块度增量矩阵中的每个元素值;
m表示用户拓扑关系网中全部边的连接权值和;
ki与kj分别表示用户i对应的节点所关联的所有边的连接权值和与用户j对应的节点所关联的所有边的连接权值和。
随后,第二划分装置基于所述模块度增量矩阵ΔQ,通过合并更新矩阵的聚类方式,对该用户拓扑关系网的多个用户进行用户群划分,以确定该多个用户所属的多个用户群。
其中,通过CNM算法进行用户群划分的具体实现过程包括:
当初始化的用户拓扑关系网中包括n个用户,即初始化时该用户拓扑关系网中包括n个用户群,其中每个用户群对应用户拓扑关系网中的一个节点;首先,基于上式2)构建模块度增量矩阵ΔQij;接着,由初始化的ΔQij矩阵得到每行的最大元素,所述最大元素通过如该矩阵中的每一行通过完全二叉树设计的最大堆H方式来存储;随后,通过维护最大堆H来保存来自每行的最大元素,快速的获得当前用户拓扑关系网中ΔQij增加最多的合并方式;根据最大堆H得到当前最大的ΔQij,合并用户群i和用户群j的对应行,同时更新矩阵和最大堆;其中,所述更新的方法是删去原来的i、j对应行,同时增加合并后的用户群x对应的ΔQxk,具体如下:如果用户群k与用户群i、用户群j都有连接的话,则ΔQxk=ΔQik+ΔQjk;如果用户群k与用户群i有连接但是与用户群j没有连接,则ΔQxk=ΔQik-2ajak;如果用户群k与用户群j有连接但是与用户群i没有连接,则ΔQxk=ΔQjk-2aiak;重复合并更新该矩阵,直到所有的ΔQij均由正值变成负值时,停止更新操作,即用户拓扑网中的节点划分用户群结束。其中,所述完全二叉树为深度为k,有n个节点的二叉树,当且仅当其每一个节点都与深度为k的满二叉树中序号为1至n的节点对应时,称之为完全二叉树;所述最大堆是完全二叉树的一种形式,即根结点的键值是所有堆结点键值中最大者的堆。
2)通过Newman算法对用户拓扑关系网中的多个用户进行用户群划分;其中,所述通过Newman算法进行用户群划分的步骤包括构造Newman网络,并根据Newman网络算法规则对待多个用户进行聚类来划分用户群。优选地,基于网络密度的Newman算法,可在现有Newman算法的基础上的进行进一步划分,首先判断第一次Newman算法分类后各个用户群的网络密度是否为1,如果为1则停止划分,如果不为1则继续划分,最后直到所有的用户群都划分为密度为1的用户群。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分的实现方式,均应包含在本发明的范围内。
通过整合基于网民的同次检索的搜索结果中多个用户的信息发布关系来构建客户拓扑关系网,并基于层次级聚类方法对该用户拓扑关系网中的多个用户进行用户群划分,能够根据多个用户之间基于发布信息的共同展现次数的关系进行层次化的用户群划分,提高划分的效率及准确性;且避免了现有技术中仅基于用户属性直接划分的方式的局限性及通过构建训练分类模型体系进行划分的方式的较大成本花费,有效地在复杂多变的网络应用环境中对海量用户进行客观性群属划分。
在一个优选实施例中(参照图2),该划分装置还包括第二强度确定装置(图未示);其中,第二强度确定装置基于CNM算法,根据下式3)在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度:
Q=∑i(eii-ai 2)3)
其中,i表示用户拓扑关系网中划分后的用户群i;
eii表示用户群i中处于群内的边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例;
ai表示用户群i所关联的所有边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例。
其中,所述用户群内交互关系强度可表现同一用户群内的不同用户进行信息发布的发布竞争关系紧密度。
在一示例中,若用户拓扑关系网中所有边的连接权值和为12,在该用户拓扑关系网划分后的用户群i中,用户群i中处于群内的边的连接权值和为6,且与该用户群i所关联的所有边的连接权值和3,则该用户群i的用户群内交互关系强度Q为
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于CNM算法,基于上式3)在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度的实现方式,均应包含在本发明的范围内。
通过确定用户拓扑关系网中每个用户群的用户群内交互关系强度,能够掌握群内各个用户基于信息发布的竞争关系紧密度,使得群内每一用户能够客观了解与其具有相同或相似信息发布需求的其他用户的与自身的发布竞争关系,从而为适当调整其信息发布方式提供可靠依据。
图2示出根据本发明一个优选实施例的用于为用户群标注描述信息的划分装置的设备示意图。本优选实施例中该划分装置还包括特征信息提取装置6和标注装置7。其中,特征信息提取装置6提取划分后的属于同一用户群的多个用户的相同特征信息;标注装置7将所述相同特征信息标注为该用户群的描述信息。
其中,所述相同特征信息包括但不限于:
1)用户属性信息;其中,用户属性信息包括但不限于:用户注册名称信息、地域信息等。
2)同一用户群的多个用户的发布信息对应的相同关键词。
具体地,特征信息提取装置6根据划分后的属于同一用户群的每个用户的标识信息,通过查询用户信息库,来获得每个用户的用户属性信息,和/或通过查询发布信息库,来获得每个用户的发布信息;随后,特征信息提取装置6从所获取的多个用户的用户属性信息中提取相同的用户属性信息,作为该用户群的多个用户的相同特征信息;和/或特征信息提取装置6从多个用户的发布信息中,提取多个发布信息中所包括的相同关键词,作为该用户群的多个用户的相同特征信息;优选地,特征信息提取装置6从所获取的多个用户的相同用户属性信息及发布信息所包括的相同关键词中,提取重复度大于重复度阈值的相同用户属性信息及相同关键词,作为该用户群的多个用户的相同特征信息;随后,标注装置7将该等相同特征信息,例如通过写入用户群信息数据库,来标注该用户群的描述信息;其中,所述用户信息库中包括每个用户的标识信息所对应的用户注册名称信息、地域信息等;所述用户群信息数据库中包括每个用户群的标识信息及其所对应的用户群描述信息;优选地,所述用户信息库及所述用户群信息数据库包括但不限于关系数据库、Key-Value存储系统或文件系统等;所述发布信息库及所述用户群信息数据库可位于划分装置所在的网络设备中,或位于与该网络设备通过网络连接的其他第三方设备。
在一示例中,特征信息提取装置6根据用户群i中每个用户的用户ID,通过查询用户信息库,获得每个用户的用户地域信息均属于华北地区且用户注册名称信息均包括“餐饮”,且通过查询发布信息库,获得每个用户的发布信息中均包括相同的关键词“涮羊肉”和“火锅”,则提取该用户群i的多个用户的相同特征信息“华北地区”、“餐饮”、“涮羊肉”和“火锅”;随后,标注装置7在用户群信息库中写入一条包括该用户群ID及包括该等相同特征信息的描述信息的数据记录。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何提取划分后的属于同一用户群的多个用户的相同特征信息,将所述相同特征信息标注为该用户群的描述信息的实现方式,均应包含在本发明的范围内。
通过提取划分后的用户群中的多个用户的相同特征信息的方式来为该用户群标注描述信息,使得描述信息能够更加全面、准确地从多个维度出发来概括该用户群,因此用户能够充分了解其自身所处用户群的特点,为用户进一步适当调整其信息发布方式提供可靠依据;进一步,降低了由于用户不能准确把握其所属用户群而错失的发布机会,使得网民可通过搜索引擎进行查询来获取与其查询需求更为匹配的来自同一用户群的多条发布信息,提高了网民查询效率与搜索体验。
图3示出本发明另一个方面的基于用户拓扑关系网对多个用户进行用户群划分的方法流程图;根据本优选实施例的方法包括步骤S 1、步骤S2、步骤S3和步骤S4。其中,本发明的方法主要通过网络设备来实现。
其中,所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
其中,所述用户拓扑关系网中包括待划分用户群的多个用户。
首先,在步骤S1中,网络设备获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数。
其中,当网民执行一次检索操作来获取搜索结果时,多个用户中任意两个用户的发布信息同时出现在搜索结果页面中,即指一次共同发布;所述共同发布次数意指基于网民的同次检索的搜索结果中、多个用户中任意两个用户的发布信息同时出现在搜索结果页面中的统计次数;所述非共同发布次数意指基于网民的同次检索的搜索结果中、多个用户中任意两个用户的发布信息未同时出现在搜索结果页面中的统计次数。
具体地,在步骤S1中,网络设备根据多个用户的用户标识,如用户ID,在本地或第三方设备的发布信息库中进行查询,以获取多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数。
其中,所述发布信息库中保存有多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;优选地,所述发布信息库包括但不限于关系数据库、Key-Value存储系统或文件系统等;所述发布信息库可位于网络设备中,或位于于与该网络设备通过网络连接的其他第三方设备中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数的实现方式,均应包含在本发明的范围内。
随后,在步骤S2中,网络设备根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度。
具体地,在步骤S2中,网络设备根据任意两个用户的共同发布次数及非共同发布次数,并基于下式1)来确定该任意两个用户的共现关系强度:
R ( A , B ) = ( PV A ∩ PV B PV A ∪ PV B ) S lo g 10 ( PV A ∩ PV B ) - - - 1 )
其中,PVA∩PVB代表用户A与用户B的共同发布次数;
PVA∪PVB代表用户A与用户B的所有发布次数;
s可取值为1,也可根据具体网络应用场景调整赋值。
在一示例中,若多个用户中任意两个用户为用户A和用户B,用户A与用户B的共同发布次数为100,其非共同发布次数为10,则通过式1),可计算确定用户A和用户B的共现关系强度为 1.818 ( = ( 100 100 + 10 ) 1 log 10 ( 100 ) ) .
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度的实现方式,均应包含在本发明的范围内。
随后,当所述共现关系强度不小于预定的关系强度阈值时,在步骤S3中,网络设备通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分。
具体地,当网络设备在步骤S2中确定的任意两个用户之间的共现关系强度不小于预定的关系强度阈值时,在步骤S3中,网络设备在用户拓扑关系网中确定该任意两个用户之间具有连接关系,并将该任意两个用户的共现关系强度确定为该任意两个用户在用户拓扑关系网中的连接权值;随后,网络设备根据任意两个用户在所述用户拓扑关系网中的连接关系,通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分,以确定该多个用户分别所属的多个用户群,其中,一个用户可属于一个或多个用户群中。
其中,所述通过层次级聚类方法对用户拓扑关系网中的多个用户进行用户群划分的方式包括但不限于:
1)通过CNM算法对用户拓扑关系网中的多个用户进行用户群划分;其中,步骤S3(参照图1)包括步骤S31(图未示)和步骤S32(图未示)。
具体地,在步骤S31中,网络设备通过CNM算法,基于下式2)来构建初始化模块度增量矩阵ΔQ,其中,初始化将所述用户拓扑关系网中每个节点上的一个用户作为一个用户群:
其中,ΔQij表示模块度增量矩阵中的每个元素值;
m表示用户拓扑关系网中全部边的连接权值和;
ki与kj分别表示用户i对应的节点所关联的所有边的连接权值和与用户j对应的节点所关联的所有边的连接权值和。
随后,在步骤S32中,网络设备基于所述模块度增量矩阵ΔQ,通过合并更新矩阵的聚类方式,对该用户拓扑关系网的多个用户进行用户群划分。
其中,通过CNM算法进行用户群划分的具体实现过程包括:
当初始化的用户拓扑关系网中包括n个用户,即初始化时该用户拓扑关系网中包括n个用户群,其中每个用户群对应用户拓扑关系网中的一个节点;首先,基于上式2)构建模块度增量矩阵ΔQij;接着,由初始化的ΔQij矩阵得到每行的最大元素,所述最大元素通过如该矩阵中的每一行通过完全二叉树设计的最大堆H方式来存储;随后,通过维护最大堆H来保存来自每行的最大元素,快速的获得当前用户拓扑关系网中ΔQij增加最多的合并方式;根据最大堆H得到当前最大的ΔQij,合并用户群i和用户群j的对应行,同时更新矩阵和最大堆;其中,所述更新的方法是删去原来的i、j对应行,同时增加合并后的用户群x对应的ΔQxk,具体如下:如果用户群k与用户群i、用户群j都有连接的话,则ΔQxk=ΔQik+ΔQjk;如果用户群k与用户群i有连接但是与用户群j没有连接,则ΔQxk=ΔQik-2ajak;如果用户群k与用户群j有连接但是与用户群i没有连接,则ΔQxk=ΔQjk-2aiak;重复合并更新该矩阵,直到所有的ΔQij均由正值变成负值时,停止更新操作,即用户拓扑网中的节点划分用户群结束。其中,所述完全二叉树为深度为k,有n个节点的二叉树,当且仅当其每一个节点都与深度为k的满二叉树中序号为1至n的节点对应时,称之为完全二叉树;所述最大堆是完全二叉树的一种形式,即根结点的键值是所有堆结点键值中最大者的堆。
2)通过Newman算法对用户拓扑关系网中的多个用户进行用户群划分;其中,所述通过Newman算法进行用户群划分的步骤包括构造Newman网络,并根据Newman网络算法规则对待多个用户进行聚类来划分用户群。优选地,基于网络密度的Newman算法,可在现有Newman算法的基础上的进行进一步划分,首先判断第一次Newman算法分类后各个用户群的网络密度是否为1,如果为1则停止划分,如果不为1则继续划分,最后直到所有的用户群都划分为密度为1的用户群。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分的实现方式,均应包含在本发明的范围内。
通过整合基于网民的同次检索的搜索结果中多个用户的信息发布关系来构建客户拓扑关系网,并基于层次级聚类方法对该用户拓扑关系网中的多个用户进行用户群划分,能够根据多个用户之间基于发布信息的共同展现次数的关系进行层次化的用户群划分,提高划分的效率及准确性;且避免了现有技术中仅基于用户属性直接划分的方式的局限性及通过构建训练分类模型体系进行划分的方式的较大成本花费,有效地在复杂多变的网络应用环境中对海量用户进行客观性群属划分。
在一个优选实施例中(参照图4),该方法还包括步骤S5(图未示);其中,在步骤S5中,网络设备基于CNM算法,根据下式3)在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度:
Q=∑i(eii-ai 2)3)
其中,i表示用户拓扑关系网中划分后的用户群i;
eii表示用户群i中处于群内的边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例;
ai表示用户群i所关联的所有边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例。
其中,所述用户群内交互关系强度可表现同一用户群内的不同用户进行信息发布的发布竞争关系紧密度。
在一示例中,若用户拓扑关系网中所有边的连接权值和为12,在该用户拓扑关系网划分后的用户群i中,用户群i中处于群内的边的连接权值和为6,且与该用户群i所关联的所有边的连接权值和3,则在步骤S5中,网络设备计算获得该用户群i的用户群内交互关系强度Q为 0.4375 ( = ( 6 12 - ( 3 12 ) 2 ) ) .
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于CNM算法,基于上式3)在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度的实现方式,均应包含在本发明的范围内。
通过确定用户拓扑关系网中每个用户群的用户群内交互关系强度,能够掌握群内各个用户基于信息发布的竞争关系紧密度,使得群内每一用户能够客观了解与其具有相同或相似信息发布需求的其他用户的与自身的发布竞争关系,从而为适当调整其信息发布方式提供可靠依据。
图4示出根据本发明一个优选实施例的为用户群标注描述信息的方法流程图。本优选实施例中该方法还包括步骤S6和步骤S7。其中,在步骤S6中,网络设备提取划分后的属于同一用户群的多个用户的相同特征信息;在步骤S7中,网络设备将所述相同特征信息标注为该用户群的描述信息。
其中,所述相同特征信息包括但不限于:
1)用户属性信息;其中,用户属性信息包括但不限于:用户注册名称信息、地域信息等。
2)同一用户群的多个用户的发布信息对应的相同关键词。
具体地,在步骤S6中,网络设备根据划分后的属于同一用户群的每个用户的标识信息,通过查询用户信息库,来获得每个用户的用户属性信息,和/或通过查询发布信息库,来获得每个用户的发布信息;随后,网络设备从所获取的多个用户的用户属性信息中提取相同的用户属性信息,作为该用户群的多个用户的相同特征信息;和/或网络设备从多个用户的发布信息中,提取多个发布信息中所包括的相同关键词,作为该用户群的多个用户的相同特征信息;优选地,网络设备从所获取的多个用户的相同用户属性信息及发布信息所包括的相同关键词中,提取重复度大于重复度阈值的相同用户属性信息及相同关键词,作为该用户群的多个用户的相同特征信息;随后,在步骤S7中,网络设备将该等相同特征信息,例如通过写入用户群信息数据库,来标注该用户群的描述信息;其中,所述用户信息库中包括每个用户的标识信息所对应的用户注册名称信息、地域信息等;所述用户群信息数据库中包括每个用户群的标识信息及其所对应的用户群描述信息;优选地,所述用户信息库及所述用户群信息数据库包括但不限于关系数据库、Key-Value存储系统或文件系统等;所述发布信息库及所述用户群信息数据库可位于网络设备中,或位于与该网络设备通过网络连接的其他第三方设备。
在一示例中,在步骤S6中,网络设备根据用户群i中每个用户的用户ID,通过查询用户信息库,获得每个用户的用户地域信息均属于华北地区且用户注册名称信息均包括“餐饮”,且通过查询发布信息库,获得每个用户的发布信息中均包括相同的关键词“涮羊肉”和“火锅”,则提取该用户群i的多个用户的相同特征信息“华北地区”、“餐饮”、“涮羊肉”和“火锅”;随后,在步骤S7中,网络设备在用户群信息库中写入一条包括该用户群ID及包括该等相同特征信息的描述信息的数据记录。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何提取划分后的属于同一用户群的多个用户的相同特征信息,将所述相同特征信息标注为该用户群的描述信息的实现方式,均应包含在本发明的范围内。
通过提取划分后的用户群中的多个用户的相同特征信息的方式来为该用户群标注描述信息,使得描述信息能够更加全面、准确地从多个维度出发来概括该用户群,因此用户能够充分了解其自身所处用户群的特点,为用户进一步适当调整其信息发布方式提供可靠依据;进一步,降低了由于用户不能准确把握其所属用户群而错失的发布机会,使得网民可通过搜索引擎进行查询来获取与其查询需求更为匹配的来自同一用户群的多条发布信息,提高了网民查询效率与搜索体验。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,其中的硬件可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他步骤,单数不排除复数。装置权利要求中陈述的多个装置也可以由一个装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (7)

1.一种基于用户拓扑关系网对多个用户进行用户群划分的方法,该方法包括以下步骤:
a获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数,其中,所述任意两个用户的发布信息同时出现在网民的同次检索的搜索结果页面中为一次共同发布,所述共同发布次数指基于网民的同次检索的搜索结果中、所述任意两个用户的发布信息同时出现在搜索结果页面中的统计次数,所述非共同发布次数指基于网民的同次检索的搜索结果中、所述任意两个用户的发布信息未同时出现在搜索结果页面中的统计次数;
b根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;
c当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分,其中包括:
-通过CNM算法,基于下式来构建初始化模块度增量矩阵ΔQ,其中,初始化将所述用户拓扑关系网中每个节点上的一个用户作为一个用户群:
其中,ΔQij表示模块度增量矩阵中的每个元素值;
m表示用户拓扑关系网中全部边的连接权值和;
ki与kj分别表示用户i对应的节点所关联的所有边的连接权值和与用户j对应的节点所关联的所有边的连接权值和;
-基于所述模块度增量矩阵ΔQ,通过合并更新矩阵的聚类方式,对所述用户拓扑关系网的多个用户进行用户群划分;
所述方法还包括:
-基于CNM算法,根据下式在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度:
Q=∑i(eii-ai 2);
其中,i表示用户拓扑关系网中划分后的用户群i;
eii表示用户群i中处于群内的边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例;
ai表示用户群i所关联的所有边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例。
2.根据权利要求1所述的方法,其中,该方法还包括:
-提取划分后的属于同一用户群的多个用户的相同特征信息;
-将所述相同特征信息标注为该用户群的描述信息。
3.根据权利要求2所述的方法,其中,所述相同特征信息包括以下至少任一项:
-用户属性信息;
-同一用户群的多个用户的发布信息对应的相同关键词。
4.一种用于基于用户拓扑关系网对多个用户进行用户群划分的划分装置,该划分装置包括:
发布次数获取装置,用于获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数,其中,所述任意两个用户的发布信息同时出现在网民的同次检索的搜索结果页面中为一次共同发布,所述共同发布次数指基于网民的同次检索的搜索结果中、所述任意两个用户的发布信息同时出现在搜索结果页面中的统计次数,所述非共同发布次数指基于网民的同次检索的搜索结果中、所述任意两个用户的发布信息未同时出现在搜索结果页面中的统计次数;
第一强度确定装置,用于根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;
第一划分装置,当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分,其中,所述第一划分装置包括:
矩阵构建装置,用于当所述共现关系强度不小于预定的关系强度阈值时,通过CNM算法,基于下式来构建初始化模块度增量矩阵ΔQ,其中,初始化将所述用户拓扑关系网中每个节点上的一个用户作为一个用户群:
其中,ΔQij表示模块度增量矩阵中的每个元素值;
m表示用户拓扑关系网中全部边的连接权值和;
ki与kj分别表示用户i对应的节点所关联的所有边的连接权值和与用户j对应的节点所关联的所有边的连接权值和;
第二划分装置,用于基于所述模块度增量矩阵ΔQ,通过合并更新矩阵的聚类方式,对所述用户拓扑关系网的多个用户进行用户群划分;
所述划分装置还包括:
第二强度确定装置,用于基于CNM算法,根据下式在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度:
Q=∑i(eii-ai 2);
其中,i表示用户拓扑关系网中划分后的用户群i;
eii表示用户群i中处于群内的边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例;
ai表示用户群i所关联的所有边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例。
5.根据权利要求4所述的划分装置,其中,该划分装置还包括:
特征信息提取装置,用于提取划分后的属于同一用户群的多个用户的相同特征信息;
标注装置,用于将所述相同特征信息标注为该用户群的描述信息。
6.根据权利要求5所述的划分装置,其中,所述相同特征信息包括以下至少任一项:
-用户属性信息;
-同一用户群的多个用户的发布信息对应的相同关键词。
7.一种网络设备,包括如权利要求4至6中至少一项所述的划分装置。
CN201210526282.XA 2012-12-07 2012-12-07 一种对多个用户进行用户群划分的方法、装置与设备 Active CN103049496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210526282.XA CN103049496B (zh) 2012-12-07 2012-12-07 一种对多个用户进行用户群划分的方法、装置与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210526282.XA CN103049496B (zh) 2012-12-07 2012-12-07 一种对多个用户进行用户群划分的方法、装置与设备

Publications (2)

Publication Number Publication Date
CN103049496A CN103049496A (zh) 2013-04-17
CN103049496B true CN103049496B (zh) 2016-08-17

Family

ID=48062137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210526282.XA Active CN103049496B (zh) 2012-12-07 2012-12-07 一种对多个用户进行用户群划分的方法、装置与设备

Country Status (1)

Country Link
CN (1) CN103049496B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605791B (zh) * 2013-12-04 2017-08-25 深圳中兴网信科技有限公司 信息推送系统和信息推送方法
CN103700018B (zh) * 2013-12-16 2018-04-24 华中科技大学 一种移动社会网络中的人群划分方法
CN106355405A (zh) * 2015-07-14 2017-01-25 阿里巴巴集团控股有限公司 风险识别方法、装置及风险防控系统
CN106708844A (zh) * 2015-11-12 2017-05-24 阿里巴巴集团控股有限公司 一种用户群体的划分方法和装置
CN107203578B (zh) * 2016-03-18 2021-04-30 北京京东尚科信息技术有限公司 建立用户标识的关联的方法和装置
CN105763631B (zh) * 2016-04-13 2019-03-29 北京网康科技有限公司 一种对等体组识别方法及装置
CN106021325B (zh) * 2016-05-06 2020-07-28 腾讯科技(深圳)有限公司 一种好友推荐方法和装置
CN106027526B (zh) * 2016-05-23 2019-06-11 北京网康科技有限公司 一种追踪网络联通图中团体演化的方法及装置
CN109712011B (zh) * 2017-10-25 2022-01-07 北京京东尚科信息技术有限公司 社区发现方法和装置
CN108460630B (zh) * 2018-02-12 2021-11-02 广州虎牙信息科技有限公司 基于用户数据进行分类分析的方法和装置
CN109669956B (zh) * 2018-12-22 2021-05-18 江西微应科技有限公司 存储器、用户关系确定方法、装置和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法
CN102044009A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 群组推荐方法和系统
CN102073700A (zh) * 2010-12-30 2011-05-25 浙江大学 一种复杂网络社团的发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844634B2 (en) * 2005-11-18 2010-11-30 International Business Machines Corporation Focused community discovery in network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法
CN102044009A (zh) * 2009-10-23 2011-05-04 华为技术有限公司 群组推荐方法和系统
CN102073700A (zh) * 2010-12-30 2011-05-25 浙江大学 一种复杂网络社团的发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Finding community structure in very large networks;Aaron Clauset 等;《PHYSICAL REVIEW E》;20041231;第70卷(第6期);摘要, 第3-5栏 *
搜索引擎日志挖掘领域的论文合著网络分析;王继民 等;《现代图书情报技术》;20110425(第04期);第2.1节,3.1节 *

Also Published As

Publication number Publication date
CN103049496A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
CN103049496B (zh) 一种对多个用户进行用户群划分的方法、装置与设备
CN104850633B (zh) 一种基于手绘草图部件分割的三维模型检索系统及方法
CN102521366B (zh) 融合分类与全局索引的图像检索方法和图像检索系统
CN105718532B (zh) 一种基于多深度网络结构的跨媒体排序方法
CN104376003B (zh) 一种视频检索方法及装置
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
CN110059807A (zh) 图像处理方法、装置和存储介质
Zhang et al. Efficient indexing for large scale visual search
Edwards et al. Passive citizen science: The role of social media in wildlife observations
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN105631436A (zh) 基于随机森林的级联位置回归用于人脸对齐的方法
CN106951498A (zh) 文本聚类方法
CN104268140B (zh) 基于权重自学习超图和多元信息融合的图像检索方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及系统
CN102855245A (zh) 一种用于确定图片相似度的方法与设备
Zhang et al. A multi-model ensemble method based on convolutional neural networks for aircraft detection in large remote sensing images
CN104657466B (zh) 一种基于论坛帖子特征的用户兴趣识别方法及装置
CN110532309A (zh) 一种高校图书馆用户画像系统的生成方法
CN114511452B (zh) 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法
CN105159950A (zh) 海量数据实时排序查询方法及系统
CN109583498A (zh) 一种基于低秩正则化特征增强表征的时尚兼容度预测方法
CN105989173A (zh) 数据处理方法及装置
CN108021693A (zh) 一种图像检索方法和装置
CN106126681A (zh) 一种增量式流式数据聚类方法及系统
CN105095385B (zh) 一种检索结果的输出方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant