CN111626890A

CN111626890A - 一种基于销售信息网络的显著社团发现方法

Info

Publication number: CN111626890A
Application number: CN202010493721.6A
Authority: CN
Inventors: 李川; 丁云平
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-04
Anticipated expiration: 2040-06-03
Also published as: CN111626890B

Abstract

本发明公开了一种基于销售信息网络的显著社团发现方法，该方法包括如下步骤：S1：将销售信息抽象为销售信息网络；S2：初始删边：删除销售信息网络中权值小于给定显著度阈值的边；S3：构建显著社团森林：发现当前销售信息网络中的极大团，判断极大团是否符合显著社团的预定要求，将符合要求的极大团作为显著社团放入初始显著社团森林中；S4：迭代删边：删除极大团中权值最小的边；S5：重复S3、S4过程，直到网络中只剩孤立节点；S6：调整显著社团森林：根据显著社团森林中的非叶子节点，判断是否存在噪声边，若不存在噪声边，则不做要求；若存在噪声节点，则将噪声边所属显著社团从显著社团森林中删除。

Description

一种基于销售信息网络的显著社团发现方法

技术领域

本发明涉及一种显著社团发现方法，具体涉及一种基于销售信息网络的显著社团发现方法。

背景技术

随着互联网技术的兴起，以及电子商务的迅速发展，产生了海量的、复杂的、丰富的销售信息。而这些销售信息中往往蕴含了巨大的商业价值，因此如何快速且准确的根据历史销售信息，挖掘其中的销售规律，具有重要的研究意义。

社团结构是表示了网络的中观特点，经常被用于分析各种信息网络的特性，是信息网络研究一个热点问题。

Newman等人[28]于2004年提出了基于模块度的社团发现算法，通过将划分的社团结构与具有相同序列的随机网络之间做对比，如果模块度越大，则表示社团结构的划分越好，自此，模块度在社团划分结果评价中占据着重要地位。但是，对原始网络求解模块度最大，是一个NP问题。为了解决这个问题，有些研究者[28-30]提出了模拟退火、谱聚类、极值优化以及贪婪算法等，但是也只能得到模块度近似最优。其中相对经典的研究是Blondel等人[31]提出的Louvain算法，以及标签传播算法。Louvain算法的目标是最大化网络的模块度[28]，该算法是一个不断迭代的过程，在，每一轮迭代时，将上一轮的社团看成单个节点，然后根据收益最大化合并两个节点，不断重复，直到每一个节点的社团归属不再发生变化。基于模块度的社团发现算法还有很多，例如，Mucha等人[32]提出的多片模块度Qmultislice的社团发现，Newman等人[33]提出的大规模社团发现算法，以及De Meo等人[34]提出的广义Louvain社团发现算法。

标签传播算法(LPA)通过节点的标签进行社团划分。LAP算法的基本思想是：每个节点的标签应该与其大多数邻居的标签相同，将一个节点的邻居节点的标签中数量最多的标签作为该节点自身的标签，不断迭代这个过程，直到所有节点的标签不再发生变化为止。基于这种思想的社团发现算法有很多。例如，Gregory等人[35]提出重叠LPA算法，Boldi等人[36]提出分层LPA算法以及Sun等人[37]提出基于中心的LPA算法。

上面的研究都是基于网络节点进行社团划分，在2010年，Ahn等人[38]提出了基于边进行社团划分的思想，根据边相似性将原始网络划分成不同的层次结构，然后根据边社团密度将层次结构划分成不同的社团结构。

传统的社团发现算法可以应用于大部分网络，划分的社团可以解释网络的一般特性，即同属于一个社团的节点彼此具有一定的共性。但是对于不同的网络，用户的需求和关注的兴趣度是不同的。传统的研究都是针对一般性信息网络，发现一般网络的特性，而专门针对销售信息网络的研究几乎不存在。

发明内容

本发明所要解决的技术问题是，如何通过销售信息网络特有的规则结构来构建显著社团森林，目的在于提供一种基于销售信息网络的显著社团发现方法，解决上述问题。

本发明通过下述技术方案实现：

一种基于销售信息网络的显著社团发现方法，该方法包括如下步骤：

S1：将销售信息抽象为销售信息网络；

S2：初始删边：删除销售信息网络中权值小于给定显著度阈值的边；

S3：构建显著社团森林：发现当前销售信息网络中的极大团，判断极大团是否符合显著社团的预定要求，将符合要求的极大团作为显著社团放入初始显著社团森林中；

S4：迭代删边：删除极大团中权值最小的边；

S5：重复S3、S4过程，直到网络中只剩孤立节点；

S6：调整显著社团森林：根据显著社团森林中的非叶子节点，判断是否存在噪声边，若不存在噪声边，则不做要求；若存在噪声节点，则将噪声边所属显著社团从显著社团森林中删除。

进一步地，一种基于销售信息网络的显著社团发现方法，所述S1中销售信息包括商品信息以及各个商品之间的共售关系，将商品抽象为销售信息网络的顶点，将商品之间的共售关系抽象为销售信息网络的边。

进一步地，一种基于销售信息网络的显著社团发现方法，销售信息网络是经过划分所述销售信息得到的各个顶点的邻接图。

进一步地，一种基于销售信息网络的显著社团发现方法，所述显著度阈值的取值为X，X为大于等于1的整数。

进一步地，一种基于销售信息网络的显著社团发现方法，所述S3中，极大团定义为：

给定图G＝(V,E,W,N)，若假设V是一个节点集合，E是边的集合，W为边权重集合，N为节点权重集合；

G[H]是由H引起的子图，如果子图G[H]任意两个节点对之间都有边，称G[H]是图G中的团；

对于给定团G[H]，如对于集合V中任何可能节点x，x∈V，不能使得G[H∪x]是图G中的团，则称G[H]为图G的极大团。

进一步地，一种基于销售信息网络的显著社团发现方法，所述S6中噪声边应满足：

对于显著社团集合C＝{H₁,H₂,…,H_k}构建的显著社团树，给定阈值ε，H_i为H_j的子节点，若γ>ε，则称G[H_j]中权重最小的边为噪声边。

进一步地，一种基于销售信息网络的显著社团发现方法，所述显著社团定义为：对于图G＝(V,E,W,N)，若假设V是一个节点集合，E是边的集合，W为边权重集合，N为节点权重集合；

G[H]是由H引起的子图，如果G[H]满足以下条件：

(1)G[H]是一个团；

(2)在H的所有可能选择中，f(G[H])最大化，即不存在

使f(G[H])≤f(G[H′])；

(3)H中不存在噪声边；

则称G[H]为显著社团；

所述S3中显著社团的预定要求具体为G[H]满足条件(1)和(2)。

进一步地，一种基于销售信息网络的显著社团发现方法，所述显著社团之间的关系满足显著社团等高线，所述显著社团等高线具体定义如下：

给定显著社团集合S＝{C₁,C₂…,C_n}，每个显著社团都有一条椭圆对应，显著度小的商品社团对应的椭圆较大，若

并且C_i的显著度大于C_j的显著度，则C_i对应的椭圆包含C_j对应的椭圆，表现为大椭圆包含小椭圆，我们将这些椭圆定义为显著社团等高线。

本发明方法用到的定义如下：

极大团：给定图G＝(V,E,W,N)，若假设V是一个节点集合，E是边的集合，W为边权重集合，N为节点权重集合。

G[H]是由H引起的子图，如果子图G[H]任意两个节点对之间都有边，称G[H]是图G中的团。

社团显著度(Community Significance Degree)：给定图G＝(V,E,W,N)，

G[H]是由H引起的子图，G[H]的显著度f(G[H]])定义为G[H]中权重最小的边；

根据定义5.3，如果导出子图G[H]显著度比较高，则G[H]中每条边都应该具有比较高的显著度。这里，如果影响力函数f(G[H])选择f(G[H])中边权重的平均值，即

则子图显著度容易受一些极端值(如：权重较大/较小的边)影响，呈现出较大的倾斜性。因此，本文选择最小权重作为度量指标来保证函数的鲁棒性。

显著社团(Significance Community)：对于图G＝(V,E,W,N)，若假设V是一个节点集合，E是边的集合，W为边权重集合，N为节点权重集合。

G[H]是由H引起的子图，如果G[H]满足以下条件：

(1)G[H]是一个团；

(2)在H的所有可能选择中，f(G[H])最大化。即不存在

使f(G[H])≤f(G[H′])；

(3)H中不存在噪声边。

则称G[H]为显著社团。

显著社团树(Significance Community Tree)：对于显著社团集合C＝{H₁,H₂,…,H_k}，H_i为显著社团节点集合，令每个显著社团为树中的一个节点，若存在

则存在一条H_j指向H_i的边，称H_j对应的节点为H_i对应节点的父节点；若

则只存在H_l指向H_j和H_j指向H_i的边，不存在H_l指向H_i的边。按照这种方式将显著社团集合进行描述的方式称为显著社团树，多个显著社团树组成了显著社团森林。

噪声边(Noise Edge)：对于显著社团集合C＝{H₁,H₂,…,H_k}构建的显著社团树，给定阈值ε，H_i为H_j的子节点，按照公式(5)计算γ值，若γ>ε，则称G[H_j]中权重最小的边为噪声边。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明一种基于销售信息网络的显著社团发现方法，用于揭示销售信息网络中满足用户兴趣度的商品社团结构，在此基础上提出了商品等高线概念，用于揭示显著社团之间的蕴含关系。

显著商品社团着重发现销售信息网络中销售较好的结构。本发明考虑销售信息网络的构建特性，从团的角度来发现满足用户兴趣度的商品结构，迭代发现满足约束的商品极大团。由于发现极大团的方法时间复杂度较高，本发明设计了极大团快速生成方法，除第一轮外，后面的轮次均可在上一轮次极大团结构的基础上，快速输出当前轮次的的商品极大团结构。发明还提出了噪声边概念，最后输出的显著商品社团为不含噪声边的极大团。为了更直观的描述不同显著社团之间的关联关系，本文提出了商品等高线概念，商品等高线值等于显著社团的显著度，属于同一个显著社团的商品具有相同的等高线值，通过商品等高线解释不同显著社团之间的关系。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明方法流程图。

图2为本发明原始商品销售网络示意图。

图3为本发明商品销售网络变化过程示意图。

图4为本发明初始显著商品社团森林示意图。

图5为本发明最终显著商品社团森林示意图。

图6为本发明显著社团等高线示意图。

图7为本发明不同数据集的显著社团数目。

图8为本发明SigComm算法运行时间。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图2所示的原始销售网络，并要求显著度为2，γ＝0.3，使用显著社团发现算法后，网络的变化过程如图3所示：

详细步骤如下：

(1)初始删边：先删除图中显著度小于给定阈值的边，变成了图3(a)；

(2)使用极大团发现方法输出的极大团为：{A,B,C：50}、{C,D,E,F,G:2}；

(3)删除极大团中权重最小的边，变成了图3(b)，并使用极大团发现方法，输出极大团为：{D,E,F,G:20}、{C,D,G:3}

(4)重复(3)过程，变成了图3(c)，输出极大团为：{D,F,G:22}、{D,E,F:22}

(5)重复(3)过程，变成了图3(d)，输出极大团为：{D,G:23}、{F,G:23}和{E,F:23}

…

(6)最终的极大团为{C,D,E,F,G:2}、{A,B,C:50}、{D,E,F,G:20}、{C,D,G:3}、{D,F,G:22}、{D,E,F:22}、{F,G:23}、{E,F:23}、{D,G:23}。

构建初始显著社团森林，如图4所示：按层次方式，从每棵显著社团树的根节点开始，选择显著度最小的子节点，计算γ值是否满足：

若不满足，则将指向子树的边删除，并输出噪声边；若满足，则不作任何处理。依次向右分析该层所有的显著社团，或者发现不满足显著社团定义的极大团结构。分析后，初始显著社团森林变成了图5，图5为最终的显著社团。

算法的有限次数说明：

销售信息网络虽然是一个稠密网络，但是对于每个极大社团均进行有限次数均可停止，原因是一：一次购买的商品种类有限，所以极大团的节点个数有限且偏少，故边数不会很多；二：销售信息网络的边权重来源于一起购买次数，所以极大团中很多边的权重是一样的，则在删除显著社团权重最小的边时，一般来说，一次会删除多条边。这两个原因保证了该算法是一个有限且次数较少的迭代过程。另外，显著社团个数的有限且少量，所以显著社团森林的调整过程仅需显著社团个数次线性计算便可结束。

算法的伪代码如下：

算法3-2展示了销售信息网络显著社团发现算法的整个过程，第1行是数据的预处理，第2行是使用BK^[67]发现网络中的极大团结构，4-11行是显著社团森林的构建过程，在这个过程中不再使用BK算法发现新网络中的极大团结构，而是使用一种极大团快速定位算法QBK，详细过程在后面介绍。12-15行是删除显著社团森林中包含噪声边的显著社团结构，最后输出的显著社团森林中包含了所有的显著社团结构。

发现网络中的极大团结构时间复杂度较高，在删除网络中权重最小的边形成新的网路后，不再使用时间复杂度较高的BK算法发现网络中的极大团结构，而是通过删除的边和上一轮次网络中的极大团结构，快速输出当前轮次的极大团结构，如图3所示：

令图3(c)为当前轮次，则上一轮次的极大团结构是{D,E,F,G}、{C,D,G}，删除的边是{(C,D),(C,G),(E,G)}，所以由极大团{C,D,G}衍生的子极大团中不能包含边(C,D)、(C,G)，即C不能与D或G同时出现在一个极大团，故{C,D,G}衍生的子极大团结构只有{D,G}。由极大团{D,E,F,G}衍生的子极大团中不能包含边(E,G)，即E不能与G在同时出现在一个极大团中，所以有(D,E,F)、(D,F,G)这两种极大团结构，因极大团结构{D,G}包含于极大团结构(D,F,G)：所以最终的极大团结构为(D,E,F)、(D,F,G)这两种。

算法为代码如下：

显著社团等高线：

通过分析，我们发现有些显著社团之间存在着蕴含关系，如本发明方法实施例中发现的显著社团{E,F:23}、{F,G:23}、{D,E,F:22}、{D,F,G:22}和{D,E,F,G:20}。为了更直观的展示这些显著社团之间的关系，我们用图6刻画这种蕴含关系，显著度小的社团用较大的外围椭圆表示，显著度大的显著社团位于较小显著度的里面，并将属于同一个显著社团的节点置于椭圆线上。从图6中可以看出从外到内的显著度逐渐变大，显著度大的社团节点集合如果包含于显著度小的社团集合，则在图6中表示为椭圆之间的包含关系。

如图6所示，图6的刻画形式很符合地理上的等高线表示形式，位于同一椭圆上的节点具有相同的显著度。不同的是，在图6中一个节点可能会位于多个椭圆上，这是因为不同的商品组合可能会带来不同的组合效果。鉴于这种描述形式类似于地理上的等高线，因此我们将此称为显著社团等高线，具体定义如下：

显著社团等高线：给定显著社团集合S＝{C₁,C₂…,C_n}，每个显著社团都有一条椭圆对应，显著度小的社团对应的椭圆较大，若

并且C_i的显著度大于C_j的显著度，则C_i对应的椭圆包含C_j对应的椭圆，表现为大椭圆包含小椭圆，我们将这些椭圆定义为显著社团等高线。显著社团等高线具有以下特点：

(1)一个节点可位于不同的等高线上；

(2)如果两个不同显著社团节点集存在包含关系，则显著度小的社团对应的等高线包含显著度大的社团对应的等高线；

(3)如果一个节点存在与内层的等高线上，则一定位于外层的等高线上，反之则不成立。

实验环境

操作系统：Windows 7旗舰版64位

CPU：Intel Core i5-3470@3.20GHz

内存：16GB

编程语言：Python

实验分析：

本发明选取了3组真实数据和1组合成数据集，包括真实数据集retail、Groceries、amazon0302，以及合成数据集T10I4D00K，下面是这四组数据集的简单介绍。

retail:该数据集为比利时零售某超市商店提供的购物数据集。数据集是在三个非连续时间段内收集的，分别为1999年12月下半月到2000年1月下半月、2000年5月到2000年6月初、2000年8月底到2000年11月低，共有88163条记录。

Geoceries:该数据集是开源软件RGui里arules软件包中的数据集，记录了某个杂货店一个月的真实交易记录，共有9835条记录，以及169个不同商品。

Amazon0302：该数据集是2003年5月2日从Amazon网站收集的，是一个销售网络数据。它基于Amazon网站上用户同时购买了商品的i和j，如果商品i与商品j共同购买，则网络中存在一条i到j的边。共有26211个商品。

T10I4D00K：该数据集是使用IBM Almaden Quest研究小组的生成器生成的，共有4439条记录和870个节点。

将这四组数据集进行网络表示，处理后的四组销售网络数据的主要信息如表3.1所示，AD：平均度，CC：聚集系数。

表3.1数据集的主要信息

显著社团发现算法SigComm实验分析

实验一：显著社团数目

令噪声阈值ε值为01、0.2、0.3、0.4、0.5和0.6，分析噪声边对数据集显著性的影响。图7展示了数据集上显著社团的个数受噪声阈值ε的影响，横轴表示噪声边阈值ε，横轴表示显著社团数目。从整体上看，四种数据集显著社团的个数和ε成正比。对于数据集retail，ε＝0.3的时候显著社团数目增加最显著，说明了对于初始的显著社团森林，有较多的父节点和子节点显著度差与其和之比是位于0.2至0.3之间，意味着将阈值ε设为0.2得到的显著社团具有较强的销售意义，且显著社团的大小不至于太小。从图中可以看出，对于数据集Amazon、Groceries和T10I4D00K，其合适的噪声阈值ε分别为0.3、0.3和0.2。

实验二：显著社团发现算法SigComm运行时间分析：

为了更准确地分析SigComm算法的可行性，使用LFR生成不同密度和不同节点数的人工网络，并为这些网络随机生成范围为5-40的边权重，这些数据的详细信息如表3.5和表3.6所示：

表3.5不同密度的合成数据-density

表3.6不同节点数的合成数据-nodenum

图8为显著社团发现算法SigComm在合成数据集上的运行时间，横轴表示不同密度和节点数的合成数据，纵轴表示算法运行时间。从图中可以看出，SigComm算法运行时间整体上随数据规模和密度增大而增大。另外，SigComm算法受数据规模的影响相较于密度的影响小，这是因为第一轮的极大团发现受数据密度的影响较敏感。从图中还可以看出SigComm算法的主要时间消耗是第一轮次的极大团发现，后面的全部轮次的QBK算法仅需极少的时间消耗。

本发明提出销售信息网络的显著社团发现算法SigComm，SigComm迭代发现销售信息网络中的极大团结构，并通过噪声边定义，构建符合显著社团定义的显著社团森林，并通过显著社团等高线刻画不同显著度的商品社团之间的蕴含关系，实验表明，显著社团的数目受到噪声阈值的影响，且不同的数据的最佳阈值不同。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。