CN103049496A - 一种对多个用户进行用户群划分的方法、装置与设备 - Google Patents
一种对多个用户进行用户群划分的方法、装置与设备 Download PDFInfo
- Publication number
- CN103049496A CN103049496A CN201210526282XA CN201210526282A CN103049496A CN 103049496 A CN103049496 A CN 103049496A CN 201210526282X A CN201210526282X A CN 201210526282XA CN 201210526282 A CN201210526282 A CN 201210526282A CN 103049496 A CN103049496 A CN 103049496A
- Authority
- CN
- China
- Prior art keywords
- user
- customer group
- users
- topological relation
- net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的是提供一种用于基于用户拓扑关系网对多个用户进行用户群划分的方法、装置与设备。其中,本发明获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于用户拓扑关系网对多个用户进行用户群划分的方法、装置与设备。
背景技术
现有技术中一般基于用户属性,如基于用户所属行业分类、地域等,直接对多个用户进行用户群划分;或是通过确定用户的分类体系,构建被标注的客户分类样本,通过训练分类模型从而对多个用户进行用户群划分。但是,基于用户属性直接划分的方式所涉及的用户属性信息维度有限,在复杂的网络应用场景中则无法得到正确划分后的用户群;同时,由于不同的业务需求需要不同类型的分类体系,因而通过构建训练分类模型体系进行划分的方式的构建成本较大,且静态的分类体系构建无法有效地适应复杂多变的网络应用环境。
发明内容
本发明的目的是提供一种基于用户拓扑关系网对多个用户进行用户群划分的方法、装置与设备。
根据本发明的一个方面,提供了一种基于用户拓扑关系网对多个用户进行用户群划分的方法,该方法包括以下步骤:
a获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;
b根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;
c当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分。
根据本发明的另一方面,还提供了一种用于基于用户拓扑关系网对多个用户进行用户群划分的划分装置,该划分装置包括:
发布次数获取装置,用于获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;
第一强度确定装置,用于根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;
第一划分装置,用于当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分。
与现有技术相比,本发明与现有技术的区别在于:通过构建用户拓扑关系网,并基于层次级聚类方法对该用户拓扑关系网中的多个用户进行用户群划分,能够根据多个用户之间基于发布信息的共同展现次数的关系进行用户群划分,提高划分效率及准确性;且避免了现有技术中仅基于用户属性直接划分的方式的局限性及通过构建训练分类模型体系进行划分的方式的较大成本花费,有效地在复杂多变的网络应用环境中对海量用户进行客观性群属划分;2)通过确定用户拓扑关系网中每个用户群的用户群内交互关系强度,能够掌握群内各个用户基于信息发布的竞争关系紧密度,使得群内每一用户能够客观了解与其具有相同或相似信息发布需求的其他用户的与自身的发布竞争关系,从而为适当调整其信息发布方式提供可靠依据;3)通过提取划分后的用户群中的多个用户的相同特征信息的方式来为该用户群标注描述信息,使得描述信息能够更加全面、准确地从多个维度出发来概括该用户群,因此用户能够充分了解其自身所处用户群的特点,为用户进一步适当调整其信息发布方式提供可靠依据;进一步,降低了由于用户不能准确把握其所属用户群而错失的发布机会,使得网民可通过搜索引擎进行查询来获取与其查询需求更为匹配的来自同一用户群的多条发布信息,提高了网民查询效率与搜索体验。。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出本发明一个方面的用于基于用户拓扑关系网对多个用户进行用户群划分的划分装置的结构示意图;
图2示出根据本发明一个优选实施例的用于为用户群标注描述信息的划分装置的设备示意图;
图3示出根据本发明另一个方面的基于用户拓扑关系网对多个用户进行用户群划分的方法流程图;
图4示出根据本发明一个优选实施例的为用户群标注描述信息的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出本发明一个方面的用于基于用户拓扑关系网对多个用户进行用户群划分的划分装置的结构示意图;本实施例的划分装置包含于网络设备中;该划分装置包括发布次数获取装置1、第一强度确定装置2及第一划分装置3。
其中,所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
其中,所述用户拓扑关系网中包括待划分用户群的多个用户。
首先,发布次数获取装置1获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数。
其中,当网民执行一次检索操作来获取搜索结果时,多个用户中任意两个用户的发布信息同时出现在搜索结果页面中,即指一次共同发布;所述共同发布次数意指基于网民的同次检索的搜索结果中、多个用户中任意两个用户的发布信息同时出现在搜索结果页面中的统计次数;所述非共同发布次数意指基于网民的同次检索的搜索结果中、多个用户中任意两个用户的发布信息未同时出现在搜索结果页面中的统计次数。
具体地,发布次数获取装置1根据多个用户的用户标识,如用户ID,在本地或第三方设备的发布信息库中进行查询,以获取多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数。
其中,所述发布信息库中保存有多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;优选地,所述发布信息库包括但不限于关系数据库、Key-Value存储系统或文件系统等;所述发布信息库可位于划分装置所在的网络设备中,或位于于与该网络设备通过网络连接的其他第三方设备中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数的实现方式,均应包含在本发明的范围内。
随后,第一强度确定装置2根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度。
具体地,第一强度确定装置2根据任意两个用户的共同发布次数及非共同发布次数,并基于下式1)来确定该任意两个用户的共现关系强度:
其中,PVA∩PVB代表用户A与用户B的共同发布次数;
PVA∪PVB代表用户A与用户B的所有发布次数;
s可取值为1,也可根据具体网络应用场景调整赋值。
在一示例中,若多个用户中任意两个用户为用户A和用户B,用户A与用户B的共同发布次数为100,其非共同发布次数为10,则通过式1),可计算确定用户A和用户B的共现关系强度为
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度的实现方式,均应包含在本发明的范围内。
随后,当所述共现关系强度不小于预定的关系强度阈值时,第一划分装置3通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分。
具体地,当第一强度确定装置2确定的任意两个用户之间的共现关系强度不小于预定的关系强度阈值时,第一划分装置3在用户拓扑关系网中确定该任意两个用户之间具有连接关系,并将该任意两个用户的共现关系强度确定为该任意两个用户在用户拓扑关系网中的连接权值;根据任意两个用户在所述用户拓扑关系网中的连接关系,通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分,以确定该多个用户分别所属的多个用户群,其中,一个用户可属于一个或多个用户群中。
其中,所述通过层次级聚类方法对用户拓扑关系网中的多个用户进行用户群划分的方式包括但不限于:
1)通过CNM算法对用户拓扑关系网中的多个用户进行用户群划分;其中,第一划分装置3(参照图1)包括矩阵构建装置(图未示)和第二划分装置(图未示)。
具体地,矩阵构建装置通过CNM算法,基于下式2)来构建初始化模块度增量矩阵ΔQ,其中,初始化将所述用户拓扑关系网中每个节点上的一个用户作为一个用户群:
其中,ΔQij表示模块度增量矩阵中的每个元素值;
m表示用户拓扑关系网中全部边的连接权值和;
ki与kj分别表示用户i对应的节点所关联的所有边的连接权值和与用户j对应的节点所关联的所有边的连接权值和。
随后,第二划分装置基于所述模块度增量矩阵ΔQ,通过合并更新矩阵的聚类方式,对该用户拓扑关系网的多个用户进行用户群划分,以确定该多个用户所属的多个用户群。
其中,通过CNM算法进行用户群划分的具体实现过程包括:
当初始化的用户拓扑关系网中包括n个用户,即初始化时该用户拓扑关系网中包括n个用户群,其中每个用户群对应用户拓扑关系网中的一个节点;首先,基于上式2)构建模块度增量矩阵ΔQij;接着,由初始化的ΔQij矩阵得到每行的最大元素,所述最大元素通过如该矩阵中的每一行通过完全二叉树设计的最大堆H方式来存储;随后,通过维护最大堆H来保存来自每行的最大元素,快速的获得当前用户拓扑关系网中ΔQij增加最多的合并方式;根据最大堆H得到当前最大的ΔQij,合并用户群i和用户群j的对应行,同时更新矩阵和最大堆;其中,所述更新的方法是删去原来的i、j对应行,同时增加合并后的用户群x对应的ΔQxk,具体如下:如果用户群k与用户群i、用户群j都有连接的话,则ΔQxk=ΔQik+ΔQjk;如果用户群k与用户群i有连接但是与用户群j没有连接,则ΔQxk=ΔQik-2ajak;如果用户群k与用户群j有连接但是与用户群i没有连接,则ΔQxk=ΔQjk-2aiak;重复合并更新该矩阵,直到所有的ΔQij均由正值变成负值时,停止更新操作,即用户拓扑网中的节点划分用户群结束。其中,所述完全二叉树为深度为k,有n个节点的二叉树,当且仅当其每一个节点都与深度为k的满二叉树中序号为1至n的节点对应时,称之为完全二叉树;所述最大堆是完全二叉树的一种形式,即根结点的键值是所有堆结点键值中最大者的堆。
2)通过Newman算法对用户拓扑关系网中的多个用户进行用户群划分;其中,所述通过Newman算法进行用户群划分的步骤包括构造Newman网络,并根据Newman网络算法规则对待多个用户进行聚类来划分用户群。优选地,基于网络密度的Newman算法,可在现有Newman算法的基础上的进行进一步划分,首先判断第一次Newman算法分类后各个用户群的网络密度是否为1,如果为1则停止划分,如果不为1则继续划分,最后直到所有的用户群都划分为密度为1的用户群。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分的实现方式,均应包含在本发明的范围内。
通过整合基于网民的同次检索的搜索结果中多个用户的信息发布关系来构建客户拓扑关系网,并基于层次级聚类方法对该用户拓扑关系网中的多个用户进行用户群划分,能够根据多个用户之间基于发布信息的共同展现次数的关系进行层次化的用户群划分,提高划分的效率及准确性;且避免了现有技术中仅基于用户属性直接划分的方式的局限性及通过构建训练分类模型体系进行划分的方式的较大成本花费,有效地在复杂多变的网络应用环境中对海量用户进行客观性群属划分。
在一个优选实施例中(参照图2),该划分装置还包括第二强度确定装置(图未示);其中,第二强度确定装置基于CNM算法,根据下式3)在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度:
Q=∑i(eii-ai 2)3)
其中,i表示用户拓扑关系网中划分后的用户群i;
eii表示用户群i中处于群内的边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例;
ai表示用户群i所关联的所有边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例。
其中,所述用户群内交互关系强度可表现同一用户群内的不同用户进行信息发布的发布竞争关系紧密度。
在一示例中,若用户拓扑关系网中所有边的连接权值和为12,在该用户拓扑关系网划分后的用户群i中,用户群i中处于群内的边的连接权值和为6,且与该用户群i所关联的所有边的连接权值和3,则该用户群i的用户群内交互关系强度Q为
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于CNM算法,基于上式3)在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度的实现方式,均应包含在本发明的范围内。
通过确定用户拓扑关系网中每个用户群的用户群内交互关系强度,能够掌握群内各个用户基于信息发布的竞争关系紧密度,使得群内每一用户能够客观了解与其具有相同或相似信息发布需求的其他用户的与自身的发布竞争关系,从而为适当调整其信息发布方式提供可靠依据。
图2示出根据本发明一个优选实施例的用于为用户群标注描述信息的划分装置的设备示意图。本优选实施例中该划分装置还包括特征信息提取装置6和标注装置7。其中,特征信息提取装置6提取划分后的属于同一用户群的多个用户的相同特征信息;标注装置7将所述相同特征信息标注为该用户群的描述信息。
其中,所述相同特征信息包括但不限于:
1)用户属性信息;其中,用户属性信息包括但不限于:用户注册名称信息、地域信息等。
2)同一用户群的多个用户的发布信息对应的相同关键词。
具体地,特征信息提取装置6根据划分后的属于同一用户群的每个用户的标识信息,通过查询用户信息库,来获得每个用户的用户属性信息,和/或通过查询发布信息库,来获得每个用户的发布信息;随后,特征信息提取装置6从所获取的多个用户的用户属性信息中提取相同的用户属性信息,作为该用户群的多个用户的相同特征信息;和/或特征信息提取装置6从多个用户的发布信息中,提取多个发布信息中所包括的相同关键词,作为该用户群的多个用户的相同特征信息;优选地,特征信息提取装置6从所获取的多个用户的相同用户属性信息及发布信息所包括的相同关键词中,提取重复度大于重复度阈值的相同用户属性信息及相同关键词,作为该用户群的多个用户的相同特征信息;随后,标注装置7将该等相同特征信息,例如通过写入用户群信息数据库,来标注该用户群的描述信息;其中,所述用户信息库中包括每个用户的标识信息所对应的用户注册名称信息、地域信息等;所述用户群信息数据库中包括每个用户群的标识信息及其所对应的用户群描述信息;优选地,所述用户信息库及所述用户群信息数据库包括但不限于关系数据库、Key-Value存储系统或文件系统等;所述发布信息库及所述用户群信息数据库可位于划分装置所在的网络设备中,或位于与该网络设备通过网络连接的其他第三方设备。
在一示例中,特征信息提取装置6根据用户群i中每个用户的用户ID,通过查询用户信息库,获得每个用户的用户地域信息均属于华北地区且用户注册名称信息均包括“餐饮”,且通过查询发布信息库,获得每个用户的发布信息中均包括相同的关键词“涮羊肉”和“火锅”,则提取该用户群i的多个用户的相同特征信息“华北地区”、“餐饮”、“涮羊肉”和“火锅”;随后,标注装置7在用户群信息库中写入一条包括该用户群ID及包括该等相同特征信息的描述信息的数据记录。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何提取划分后的属于同一用户群的多个用户的相同特征信息,将所述相同特征信息标注为该用户群的描述信息的实现方式,均应包含在本发明的范围内。
通过提取划分后的用户群中的多个用户的相同特征信息的方式来为该用户群标注描述信息,使得描述信息能够更加全面、准确地从多个维度出发来概括该用户群,因此用户能够充分了解其自身所处用户群的特点,为用户进一步适当调整其信息发布方式提供可靠依据;进一步,降低了由于用户不能准确把握其所属用户群而错失的发布机会,使得网民可通过搜索引擎进行查询来获取与其查询需求更为匹配的来自同一用户群的多条发布信息,提高了网民查询效率与搜索体验。
图3示出本发明另一个方面的基于用户拓扑关系网对多个用户进行用户群划分的方法流程图;根据本优选实施例的方法包括步骤S 1、步骤S2、步骤S3和步骤S4。其中,本发明的方法主要通过网络设备来实现。
其中,所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
其中,所述用户拓扑关系网中包括待划分用户群的多个用户。
首先,在步骤S1中,网络设备获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数。
其中,当网民执行一次检索操作来获取搜索结果时,多个用户中任意两个用户的发布信息同时出现在搜索结果页面中,即指一次共同发布;所述共同发布次数意指基于网民的同次检索的搜索结果中、多个用户中任意两个用户的发布信息同时出现在搜索结果页面中的统计次数;所述非共同发布次数意指基于网民的同次检索的搜索结果中、多个用户中任意两个用户的发布信息未同时出现在搜索结果页面中的统计次数。
具体地,在步骤S1中,网络设备根据多个用户的用户标识,如用户ID,在本地或第三方设备的发布信息库中进行查询,以获取多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数。
其中,所述发布信息库中保存有多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;优选地,所述发布信息库包括但不限于关系数据库、Key-Value存储系统或文件系统等;所述发布信息库可位于网络设备中,或位于于与该网络设备通过网络连接的其他第三方设备中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数的实现方式,均应包含在本发明的范围内。
随后,在步骤S2中,网络设备根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度。
具体地,在步骤S2中,网络设备根据任意两个用户的共同发布次数及非共同发布次数,并基于下式1)来确定该任意两个用户的共现关系强度:
其中,PVA∩PVB代表用户A与用户B的共同发布次数;
PVA∪PVB代表用户A与用户B的所有发布次数;
s可取值为1,也可根据具体网络应用场景调整赋值。
在一示例中,若多个用户中任意两个用户为用户A和用户B,用户A与用户B的共同发布次数为100,其非共同发布次数为10,则通过式1),可计算确定用户A和用户B的共现关系强度为
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度的实现方式,均应包含在本发明的范围内。
随后,当所述共现关系强度不小于预定的关系强度阈值时,在步骤S3中,网络设备通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分。
具体地,当网络设备在步骤S2中确定的任意两个用户之间的共现关系强度不小于预定的关系强度阈值时,在步骤S3中,网络设备在用户拓扑关系网中确定该任意两个用户之间具有连接关系,并将该任意两个用户的共现关系强度确定为该任意两个用户在用户拓扑关系网中的连接权值;随后,网络设备根据任意两个用户在所述用户拓扑关系网中的连接关系,通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分,以确定该多个用户分别所属的多个用户群,其中,一个用户可属于一个或多个用户群中。
其中,所述通过层次级聚类方法对用户拓扑关系网中的多个用户进行用户群划分的方式包括但不限于:
1)通过CNM算法对用户拓扑关系网中的多个用户进行用户群划分;其中,步骤S3(参照图1)包括步骤S31(图未示)和步骤S32(图未示)。
具体地,在步骤S31中,网络设备通过CNM算法,基于下式2)来构建初始化模块度增量矩阵ΔQ,其中,初始化将所述用户拓扑关系网中每个节点上的一个用户作为一个用户群:
其中,ΔQij表示模块度增量矩阵中的每个元素值;
m表示用户拓扑关系网中全部边的连接权值和;
ki与kj分别表示用户i对应的节点所关联的所有边的连接权值和与用户j对应的节点所关联的所有边的连接权值和。
随后,在步骤S32中,网络设备基于所述模块度增量矩阵ΔQ,通过合并更新矩阵的聚类方式,对该用户拓扑关系网的多个用户进行用户群划分。
其中,通过CNM算法进行用户群划分的具体实现过程包括:
当初始化的用户拓扑关系网中包括n个用户,即初始化时该用户拓扑关系网中包括n个用户群,其中每个用户群对应用户拓扑关系网中的一个节点;首先,基于上式2)构建模块度增量矩阵ΔQij;接着,由初始化的ΔQij矩阵得到每行的最大元素,所述最大元素通过如该矩阵中的每一行通过完全二叉树设计的最大堆H方式来存储;随后,通过维护最大堆H来保存来自每行的最大元素,快速的获得当前用户拓扑关系网中ΔQij增加最多的合并方式;根据最大堆H得到当前最大的ΔQij,合并用户群i和用户群j的对应行,同时更新矩阵和最大堆;其中,所述更新的方法是删去原来的i、j对应行,同时增加合并后的用户群x对应的ΔQxk,具体如下:如果用户群k与用户群i、用户群j都有连接的话,则ΔQxk=ΔQik+ΔQjk;如果用户群k与用户群i有连接但是与用户群j没有连接,则ΔQxk=ΔQik-2ajak;如果用户群k与用户群j有连接但是与用户群i没有连接,则ΔQxk=ΔQjk-2aiak;重复合并更新该矩阵,直到所有的ΔQij均由正值变成负值时,停止更新操作,即用户拓扑网中的节点划分用户群结束。其中,所述完全二叉树为深度为k,有n个节点的二叉树,当且仅当其每一个节点都与深度为k的满二叉树中序号为1至n的节点对应时,称之为完全二叉树;所述最大堆是完全二叉树的一种形式,即根结点的键值是所有堆结点键值中最大者的堆。
2)通过Newman算法对用户拓扑关系网中的多个用户进行用户群划分;其中,所述通过Newman算法进行用户群划分的步骤包括构造Newman网络,并根据Newman网络算法规则对待多个用户进行聚类来划分用户群。优选地,基于网络密度的Newman算法,可在现有Newman算法的基础上的进行进一步划分,首先判断第一次Newman算法分类后各个用户群的网络密度是否为1,如果为1则停止划分,如果不为1则继续划分,最后直到所有的用户群都划分为密度为1的用户群。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法,对所述用户拓扑关系网中的多个用户进行用户群划分的实现方式,均应包含在本发明的范围内。
通过整合基于网民的同次检索的搜索结果中多个用户的信息发布关系来构建客户拓扑关系网,并基于层次级聚类方法对该用户拓扑关系网中的多个用户进行用户群划分,能够根据多个用户之间基于发布信息的共同展现次数的关系进行层次化的用户群划分,提高划分的效率及准确性;且避免了现有技术中仅基于用户属性直接划分的方式的局限性及通过构建训练分类模型体系进行划分的方式的较大成本花费,有效地在复杂多变的网络应用环境中对海量用户进行客观性群属划分。
在一个优选实施例中(参照图4),该方法还包括步骤S5(图未示);其中,在步骤S5中,网络设备基于CNM算法,根据下式3)在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度:
Q=∑i(eii-ai 2)3)
其中,i表示用户拓扑关系网中划分后的用户群i;
eii表示用户群i中处于群内的边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例;
ai表示用户群i所关联的所有边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例。
其中,所述用户群内交互关系强度可表现同一用户群内的不同用户进行信息发布的发布竞争关系紧密度。
在一示例中,若用户拓扑关系网中所有边的连接权值和为12,在该用户拓扑关系网划分后的用户群i中,用户群i中处于群内的边的连接权值和为6,且与该用户群i所关联的所有边的连接权值和3,则在步骤S5中,网络设备计算获得该用户群i的用户群内交互关系强度Q为
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于CNM算法,基于上式3)在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度的实现方式,均应包含在本发明的范围内。
通过确定用户拓扑关系网中每个用户群的用户群内交互关系强度,能够掌握群内各个用户基于信息发布的竞争关系紧密度,使得群内每一用户能够客观了解与其具有相同或相似信息发布需求的其他用户的与自身的发布竞争关系,从而为适当调整其信息发布方式提供可靠依据。
图4示出根据本发明一个优选实施例的为用户群标注描述信息的方法流程图。本优选实施例中该方法还包括步骤S6和步骤S7。其中,在步骤S6中,网络设备提取划分后的属于同一用户群的多个用户的相同特征信息;在步骤S7中,网络设备将所述相同特征信息标注为该用户群的描述信息。
其中,所述相同特征信息包括但不限于:
1)用户属性信息;其中,用户属性信息包括但不限于:用户注册名称信息、地域信息等。
2)同一用户群的多个用户的发布信息对应的相同关键词。
具体地,在步骤S6中,网络设备根据划分后的属于同一用户群的每个用户的标识信息,通过查询用户信息库,来获得每个用户的用户属性信息,和/或通过查询发布信息库,来获得每个用户的发布信息;随后,网络设备从所获取的多个用户的用户属性信息中提取相同的用户属性信息,作为该用户群的多个用户的相同特征信息;和/或网络设备从多个用户的发布信息中,提取多个发布信息中所包括的相同关键词,作为该用户群的多个用户的相同特征信息;优选地,网络设备从所获取的多个用户的相同用户属性信息及发布信息所包括的相同关键词中,提取重复度大于重复度阈值的相同用户属性信息及相同关键词,作为该用户群的多个用户的相同特征信息;随后,在步骤S7中,网络设备将该等相同特征信息,例如通过写入用户群信息数据库,来标注该用户群的描述信息;其中,所述用户信息库中包括每个用户的标识信息所对应的用户注册名称信息、地域信息等;所述用户群信息数据库中包括每个用户群的标识信息及其所对应的用户群描述信息;优选地,所述用户信息库及所述用户群信息数据库包括但不限于关系数据库、Key-Value存储系统或文件系统等;所述发布信息库及所述用户群信息数据库可位于网络设备中,或位于与该网络设备通过网络连接的其他第三方设备。
在一示例中,在步骤S6中,网络设备根据用户群i中每个用户的用户ID,通过查询用户信息库,获得每个用户的用户地域信息均属于华北地区且用户注册名称信息均包括“餐饮”,且通过查询发布信息库,获得每个用户的发布信息中均包括相同的关键词“涮羊肉”和“火锅”,则提取该用户群i的多个用户的相同特征信息“华北地区”、“餐饮”、“涮羊肉”和“火锅”;随后,在步骤S7中,网络设备在用户群信息库中写入一条包括该用户群ID及包括该等相同特征信息的描述信息的数据记录。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何提取划分后的属于同一用户群的多个用户的相同特征信息,将所述相同特征信息标注为该用户群的描述信息的实现方式,均应包含在本发明的范围内。
通过提取划分后的用户群中的多个用户的相同特征信息的方式来为该用户群标注描述信息,使得描述信息能够更加全面、准确地从多个维度出发来概括该用户群,因此用户能够充分了解其自身所处用户群的特点,为用户进一步适当调整其信息发布方式提供可靠依据;进一步,降低了由于用户不能准确把握其所属用户群而错失的发布机会,使得网民可通过搜索引擎进行查询来获取与其查询需求更为匹配的来自同一用户群的多条发布信息,提高了网民查询效率与搜索体验。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,其中的硬件可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他步骤,单数不排除复数。装置权利要求中陈述的多个装置也可以由一个装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (11)
1.一种基于用户拓扑关系网对多个用户进行用户群划分的方法,该方法包括以下步骤:
a获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;
b根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;
c当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分。
3.根据权利要求2所述的方法,其中,该方法还包括:
-基于CNM算法,根据下式在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度:
Q=∑i(eii-ai 2)。
其中,i表示用户拓扑关系网中划分后的用户群i;
eii表示用户群i中处于群内的边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例;
ai表示用户群i所关联的所有边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例。
4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-提取划分后的属于同一用户群的多个用户的相同特征信息;
-将所述相同特征信息标注为该用户群的描述信息。
5.根据权利要求4所述的方法,其中,所述相同特征信息包括以下至少任一项:
-用户属性信息;
-同一用户群的多个用户的发布信息对应的相同关键词。
6.一种用于基于用户拓扑关系网对多个用户进行用户群划分的划分装置,该划分装置包括:
发布次数获取装置,用于获取基于网民的同次检索的搜索结果中,多个用户中任意两个用户的发布信息的共同发布次数和非共同发布次数;
第一强度确定装置,用于根据该任意两个用户的所述共同发布次数及所述非共同发布次数,确定该任意两个用户的共现关系强度;
第一划分装置,当所述共现关系强度不小于预定的关系强度阈值时,通过层次级聚类方法对所述用户拓扑关系网中的多个用户进行用户群划分。
8.根据权利要求7所述的划分装置,其中,该划分装置还包括:
第二强度确定装置,用于基于CNM算法,根据下式在所述用户拓扑关系网中确定每个用户群的用户群内交互关系强度:
Q=∑i(eii-ai 2)。
其中,i表示用户拓扑关系网中划分后的用户群i;
eii表示用户群i中处于群内的边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例;
ai表示用户群i所关联的所有边的连接权值和与用户拓扑关系网中所有边的连接权值和的比例。
9.根据权利要求6至8中任一项所述的划分装置,其中,该划分装置还包括:
特征信息提取装置,用于提取划分后的属于同一用户群的多个用户的相同特征信息;
标注装置,用于将所述相同特征信息标注为该用户群的描述信息。
10.根据权利要求9所述的划分装置,其中,所述相同特征信息包括以下至少任一项:
-用户属性信息;
-同一用户群的多个用户的发布信息对应的相同关键词。
11.一种网络设备,包括如权利要求6至10中至少一项所述的划分装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210526282.XA CN103049496B (zh) | 2012-12-07 | 2012-12-07 | 一种对多个用户进行用户群划分的方法、装置与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210526282.XA CN103049496B (zh) | 2012-12-07 | 2012-12-07 | 一种对多个用户进行用户群划分的方法、装置与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103049496A true CN103049496A (zh) | 2013-04-17 |
CN103049496B CN103049496B (zh) | 2016-08-17 |
Family
ID=48062137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210526282.XA Active CN103049496B (zh) | 2012-12-07 | 2012-12-07 | 一种对多个用户进行用户群划分的方法、装置与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103049496B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605791A (zh) * | 2013-12-04 | 2014-02-26 | 深圳中兴网信科技有限公司 | 信息推送系统和信息推送方法 |
CN105763631A (zh) * | 2016-04-13 | 2016-07-13 | 北京网康科技有限公司 | 一种对等体组识别方法及装置 |
CN106027526A (zh) * | 2016-05-23 | 2016-10-12 | 北京网康科技有限公司 | 一种追踪网络联通图中团体演化的方法及装置 |
CN106021325A (zh) * | 2016-05-06 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种好友推荐方法和装置 |
CN106355405A (zh) * | 2015-07-14 | 2017-01-25 | 阿里巴巴集团控股有限公司 | 风险识别方法、装置及风险防控系统 |
CN106708844A (zh) * | 2015-11-12 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种用户群体的划分方法和装置 |
CN107203578A (zh) * | 2016-03-18 | 2017-09-26 | 北京京东尚科信息技术有限公司 | 建立用户标识的关联的方法和装置 |
CN103700018B (zh) * | 2013-12-16 | 2018-04-24 | 华中科技大学 | 一种移动社会网络中的人群划分方法 |
CN108460630A (zh) * | 2018-02-12 | 2018-08-28 | 广州虎牙信息科技有限公司 | 基于用户数据进行分类分析的方法和装置 |
CN109669956A (zh) * | 2018-12-22 | 2019-04-23 | 江西微应科技有限公司 | 存储器、用户关系确定方法、装置和设备 |
CN109712011A (zh) * | 2017-10-25 | 2019-05-03 | 北京京东尚科信息技术有限公司 | 社区发现方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118539A1 (en) * | 2005-11-18 | 2007-05-24 | International Business Machines Corporation | Focused community discovery |
CN101383748A (zh) * | 2008-10-24 | 2009-03-11 | 北京航空航天大学 | 一种复杂网络中的社区划分方法 |
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和系统 |
CN102073700A (zh) * | 2010-12-30 | 2011-05-25 | 浙江大学 | 一种复杂网络社团的发现方法 |
-
2012
- 2012-12-07 CN CN201210526282.XA patent/CN103049496B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118539A1 (en) * | 2005-11-18 | 2007-05-24 | International Business Machines Corporation | Focused community discovery |
CN101383748A (zh) * | 2008-10-24 | 2009-03-11 | 北京航空航天大学 | 一种复杂网络中的社区划分方法 |
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和系统 |
CN102073700A (zh) * | 2010-12-30 | 2011-05-25 | 浙江大学 | 一种复杂网络社团的发现方法 |
Non-Patent Citations (2)
Title |
---|
AARON CLAUSET 等: "Finding community structure in very large networks", 《PHYSICAL REVIEW E》 * |
王继民 等: "搜索引擎日志挖掘领域的论文合著网络分析", 《现代图书情报技术》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605791A (zh) * | 2013-12-04 | 2014-02-26 | 深圳中兴网信科技有限公司 | 信息推送系统和信息推送方法 |
CN103700018B (zh) * | 2013-12-16 | 2018-04-24 | 华中科技大学 | 一种移动社会网络中的人群划分方法 |
CN106355405A (zh) * | 2015-07-14 | 2017-01-25 | 阿里巴巴集团控股有限公司 | 风险识别方法、装置及风险防控系统 |
CN106708844A (zh) * | 2015-11-12 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种用户群体的划分方法和装置 |
CN107203578A (zh) * | 2016-03-18 | 2017-09-26 | 北京京东尚科信息技术有限公司 | 建立用户标识的关联的方法和装置 |
CN107203578B (zh) * | 2016-03-18 | 2021-04-30 | 北京京东尚科信息技术有限公司 | 建立用户标识的关联的方法和装置 |
CN105763631B (zh) * | 2016-04-13 | 2019-03-29 | 北京网康科技有限公司 | 一种对等体组识别方法及装置 |
CN105763631A (zh) * | 2016-04-13 | 2016-07-13 | 北京网康科技有限公司 | 一种对等体组识别方法及装置 |
CN106021325A (zh) * | 2016-05-06 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种好友推荐方法和装置 |
CN106027526A (zh) * | 2016-05-23 | 2016-10-12 | 北京网康科技有限公司 | 一种追踪网络联通图中团体演化的方法及装置 |
CN109712011A (zh) * | 2017-10-25 | 2019-05-03 | 北京京东尚科信息技术有限公司 | 社区发现方法和装置 |
CN109712011B (zh) * | 2017-10-25 | 2022-01-07 | 北京京东尚科信息技术有限公司 | 社区发现方法和装置 |
CN108460630A (zh) * | 2018-02-12 | 2018-08-28 | 广州虎牙信息科技有限公司 | 基于用户数据进行分类分析的方法和装置 |
CN109669956A (zh) * | 2018-12-22 | 2019-04-23 | 江西微应科技有限公司 | 存储器、用户关系确定方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103049496B (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049496A (zh) | 一种对多个用户进行用户群划分的方法、装置与设备 | |
CN102521416B (zh) | 数据关联查询方法和数据关联查询装置 | |
CN101446962B (zh) | 一种数据转换方法、装置及数据处理系统 | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
CN110059807A (zh) | 图像处理方法、装置和存储介质 | |
CN102855245A (zh) | 一种用于确定图片相似度的方法与设备 | |
CN103955462A (zh) | 一种基于多视图和半监督学习机制的图像标注方法 | |
CN107145526B (zh) | 一种路网下地理社交关键字反最近邻查询处理方法 | |
CN103049568A (zh) | 对海量文档库的文档分类的方法 | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN102402589A (zh) | 一种提供与搜索请求相关的参考搜索信息的方法与设备 | |
CN104090882A (zh) | 一种广告订单的快速聚类方法及系统、服务器 | |
CN104050271A (zh) | 一种基于HBase的卡口数据处理方法 | |
CN102193934B (zh) | 用于寻找图像集合中的代表性图像的系统和方法 | |
CN103473275A (zh) | 一种采用多特征融合的图像自动标注方法和系统 | |
CN104969237A (zh) | 匹配采集到的可视数据的特征 | |
CN104462347B (zh) | 关键词的分类方法及装置 | |
CN116992887A (zh) | 一种元数据的数据目录处理方法、装置以及处理设备 | |
CN104376074B (zh) | 一种复述资源获取方法及系统 | |
CN105426392A (zh) | 一种协同过滤推荐方法及系统 | |
CN101916260A (zh) | 一种灾害本体和关系数据库间语义映射构建的方法 | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN111325255B (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN104376000A (zh) | 确定网页属性的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |