CN104199828A - 一种基于事务日志数据的社会网络构建方法 - Google Patents
一种基于事务日志数据的社会网络构建方法 Download PDFInfo
- Publication number
- CN104199828A CN104199828A CN201410358497.4A CN201410358497A CN104199828A CN 104199828 A CN104199828 A CN 104199828A CN 201410358497 A CN201410358497 A CN 201410358497A CN 104199828 A CN104199828 A CN 104199828A
- Authority
- CN
- China
- Prior art keywords
- occurrence
- time
- definition
- coefficient
- limit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于社会网络分析数据挖掘领域,具体为一种基于事务日志数据的社会网络构建方法。本发明通过对现代软件系统如ERP,MIS,CRM等系统产生的事务日志数据进行挖掘,构建出基于真实环境的系统用户之间的社会网络,以供社会网络分析使用。本发明包括数据预处理模块、共现矩阵生成模块、社会网络构建模块。本发明首先将现代软件系统产生的事务日志数据进行预处理,包括清洗数据杂质、确定时间标识、确定空间标识等;然后共现矩阵生成模块根据事务用户使用系统行为特征计算出系统用户的加权共现矩阵。最后,定义一个基于边权重和JACCARD相关性系数的社会关系存在系数,用来判断真实的社会关系,从共现矩阵中构建出可信的社会网络。
Description
技术领域
本发明属于社会网络分析技术领域,具体涉及一种社会网络构建。
背景技术
社会网络分析(Social Network Analysis)是对社会网络的关系结构及其属性加以分析的规范和方法,主要关注参与者之间的关系与结构,及其对参与个体和整个群体的影响。社会网络分析在职业流动分析、城市化对个体幸福的影响、世界政治和经济体系分析等领域得以广泛应用,发挥了重要作用。近年来,社会网络分析日益成为了数据挖掘领域的热门研究问题,受到了来自学术界和工业界的广泛关注。
在社会网络分析相关研究中,社会网络数据的质量和规模,是决定分析结果可信与否的两个关键因素。但是,当前社会网络分析存在如下问题:
a) 大部分社会网络分析研究基于在线社会网络开展,但是在线社会网络只是对真实社会网络近似,其分析结果无法直接移植到真实社会网络上。当前对于社会网络分析的研究大多数基于在线社会网络,如Facebook, twitter以及国内的新浪微博等等。在线社交网络难以完全代替真实社会网络。一方面,现实世界中,并不是所有人都使用社交网站,在线社交网络难以刻画完整的社会关系。另一方面,网络世界的虚拟特性导致在线社交网络与现实社会网络存在巨大的结构差异。因此,基于在线社交网络观测到的现象和结论难以直接移植到真实社会网络上。
b) 由于数据采集难度较大,少数基于真实社会网络的研究往往受限于小规模社会网络,难以取得统计意义下显著的分析结果。当前少部分针对真实世界社会网络开展的研究工作主要通过人工收集获取社会网络数据。比如,早在20世纪70年代初,Wayne Zachary[1]通过观察,构建了一个拥有34个节点的空手道乐部社会网络。近年来MIT Human Dynamics Lab通过采集手机位置数据、通话数据构建真实社会网络,由于这一方法成本较大,构造出的社会网络只有几百个节点。真实社会网络的有限规模极大地降低了分析结果的统计显著性,从而削弱了结论的可信度。
事务日志(transaction logs)是由设备、软件、应用或者一个系统产生的记录该系统所提供的活动的日志文件。事务日志通常包括活动内容、执行时间、参与者的信息,以及一些其它信息。现代应用系统如ERP, MIS, CRM,电子商务系统以及监控系统中通常会系统地产生大量此类事务日志。
因此,当前社会网络分析研究急需、具有一定规模的真实社会网络数据。本发明提出一种基于事务日志的全新真实社会网络构建方法,该方法优点在于基于事务日志构建真实的社会关系网络,以满足当前研究对于真实社会网络的迫切需求。
发明内容
本发明的目的在于提供一种质量高、规模大的基于事务日志数据的社会网络构建方法,该方法能够从现代软件系统产生的海量事务日志数据中构建基于真实环境的社会关系网络。
本发明所提供的一种基于事务日志数据的社会网络构建方法,主要由数据预处理、共现矩阵生成和社会网络构建三个大步骤组成,其中:
数据预处理,包括对原始事务数据清洗,确定时间标识,确定空间标识;
共现矩阵生成,根据空间、时间共现特征,定义空间共现模型、时间共现模型,将事务数据分成不同的事务日志序列,定义具体共现矩阵计算模型,生成共现矩阵;
社会网络构建,定义一个基于边权重和节点间JACCARD系数的边存在系数,构建真实的社会关系网络;
数据预处理步骤如下:
(1)事务日志数据清洗:对从软件系统中采集来的事务日志数据进行整理分析,包括按照时间戳排序、按照地点分类、将个别不符合格式要求的数据杂质去掉;
(2)确定时间标识:探索事务日志的时间戳特性,确定哪些字段能够唯一标识一条记录的时间;
(3)确定空间标识:探索事务日志中的地点相关字段特征,确定哪些字段共同标识一个唯一的空间位置;
共现矩阵计算步骤如下:
(1)定义空间共现模型:考察数据预处理步骤(3)中定义的空间位置标记字段,分析各个空间位置产生的事务日志性质是否相同,如不同,按照性质将空间位置分为不同的类型,每个类型中分别定义空间共现,为方便处理,将所有日志按空间共现聚类,将日志按照空间聚类分为不同的日志序列,每一个日志序列中,所有日志之间都满足空间共现定义;
(2)定义时间共现模型:考察事务日志中,标识时间的字段特征,分析日志的时间特征,定义时间共现模型,选取一个时间间隔 作为时间共现阈值,两条日志时间戳相差小于时,称这两条日志满足时间共现;
(3)定义全局共现模型:同时满足空间共现模型定义和时间共现模型定义的两条事务日志,为满足全局共现模型定义的两条日志;
(4)计算共现矩阵:处理所有的日志序列,找出所有满足共现模型定义的用户对,创建一个由所有学生间的共现关系构成的共现矩阵元素的值为u, v对应用户共现的次数,该矩阵为一个对称矩阵,, 当u=v时,;
社会关系网络构建步骤如下:
(1)计算任意两个用户u, v对应点之间的边权重:一条边的权重定义如下:
其中,为共现矩阵计算步骤中,所生成的共现矩阵对应的元素值;
(2)计算任意两个用户u, v对应点之间的JACCARD系数,两个用户u, v对应点之间的JACCARD系数计算方法如下:
其中,为共现矩阵计算步骤中,所生成的共现矩阵对应的元素值,, 分别表示点u, v的度数;
(3)计算任意两个用户u, v对应点之间的边存在系数,两个用户u, v对应点之间的边存在系数计算方法如下:
其中,Z为归一化因子, ,r为实数,参数r决定边的权重在存在系数中的重要程度;当r=0时, ;
(4)构建社会网络:计算出所有用户点之间的存在系数,然后,根据事务日志产生系统的规模特性,预估社会网络的大小,确定边存在系数阈值,保留边存在系数大于阈值的边,这些边即构成构建的社会网络。
本发明中,定义日志序列的共现时间间隔阈值有两种方法:
(1)非固定时间隔:将日志序列中,相邻的两条日志对应的用户视为时间共现;
(2)时间间隔:计算出日志序列所有相邻日志时间间隔,按大小排序,选择时间间隔的中位数作为共现时间间隔阈值。
附图说明
图1为本发明方法的系统结构示意图。
图2为事务日志数据样例图。
图3为学生卡管理系统不同下同班级比率precision。
图4为学生卡管理系统不同下同班级比率recall。
图5为学生卡管理系统不同下同班级比率F-measure。
图6为学生共现矩阵构建的方法示例。
图7为取不同参数下所构建网络的同班级比率。
具体实施方式
下面结合附图,以国内某高校学生卡管理系统产生的学生卡刷卡事务日志为例,对本发明进一步说明。
国内某大学,通过学生卡管理系统管理学生的学生卡使用情况。该系统每月产生约2,000,000条学生卡刷卡事务日志。图2 为该系统产生的事务日志样例,每一条数据分别记录了刷卡流水号、用户ID、用户姓名、消费的商户ID与名称、刷卡的时间、消费金额、刷卡的POS机ID等信息。每一条交易日志记录了一个学生的以此刷卡行为。大学好友通常倾向于同时进行消费,如同时去食堂吃饭,同时去超市购物以及同时去图书馆学习等。这种好友行为特征势必体现于日志数据之中。因此,根据学生是否多次同时出现在同一地点消费时,可以推断两个学生是好友的可能。利用这种方法对海量的学生刷卡日志进行分析即可获得全体校学生的社会网络。
本例以这个学生卡管理系统两个月产生的刷卡事务数据为例,构建学生社会网络,具体步骤如下:
1、数据预处理
(1)数据清洗:
从学生管理系统中采集来的原始数据如图2所示,每条数据记录了一个刷卡记录。在原始数据中,有个别数据不符合要求,数据清洗任务包括删去数据中个别不符合格式的异常数据,将所有数据按照时间排序,找出表示数据中标识时间的字段和标识地点的字段。
(2)确定时间标识:
观察图2中数据,可以发现,有两个字段--——刷卡日期和刷卡时间,共同标识一条事务日志的执行时间。
(3)确定空间标识:
从图2数据中我们可以发现,标识空间的字段为商户ID、商户名称、POS机ID等数据项,不同的商户ID可能对应着相同的POS机ID。所以,一个商户ID和一个POS机ID结合可以标识一个唯一的空间位置。
2、生成共现矩阵
(1)定义空间共现模型:
观察发现,不同的消费地点性质不同,如开水房和超市的消费性质显然不同,超市中,同时消费的好友在同一个POS机上刷卡,开水房中同时消费的好友在不同的POS机刷卡。将消费场所分为如下两类:类型A:好友之间同时消费时,在同一台POS机刷卡,如超市等。类型B:好友之间同时消费时,在同一商户的不同POS机刷卡,如开水房。在类型A的场所中,两人在同一POS机下刷卡消费称为同一地点消费;在类型Bl的场所中,同一地点消费指两人在同一商户的同一台或者任意两台POS机刷卡消费。将所有的事务日志分成刷卡日志序列,A类型的一个POS机一个序列,B类型场所,相同商户ID为同一个序列。
(2)定义时间共现模型
对于每一个刷卡序列,由于消费地点的性质不同,应该拥有一个独立的共现时间间隔阈值,图3、图4、图5分别是选取刷卡序列样例计算在不同时间间隔作为阈值下,共现的学生之间为同班级好友的precision, recall和F-measure,其中 。由图5可知,对于不同类型的日志序列,同班同学F-measure的峰值,基本上都在中位数附近。所以,在网络构建时,共现时间间隔阈值,分别取每组刷卡时间间隔的中位数。
(3)定义共现模型:
在空间共现模型中,将事物日志分成了不同的日志序列,同一序列中的所有日志满足空间共现;时间共现模型中,定义了每个日志序列的刷卡时间间隔中位数作为时间共现阈值。两者结合,共同定义了学生卡事务日志共现模型。
(4)生成共现矩阵:
如图6,两条日志满足共现模型,那么两条日志对应的用户共现,共现矩阵中,,如果再次出现这两人之间共现,该元素值递增。将所有日志处理完,由所有学生之间的共现矩阵即构建完成。
3、构建社会关系网络
(1)计算权重:
任意两用户u, v对应点之间的边权重。
(2)计算JACCARD系数:
任意两用户u, v对应点之间的JACCARD系数
, , 分别表示点u, v的度数。
(3)计算存在系数:
任意两用户u, v对应点之间的边存在系数 Z为归一化因子, r为实数。
(4)构建社会网络:
在学生社会网络中经常与一个学生一起进行吃饭、打水、去图书馆等活动的好友个数不会太多,一般只有几个人。我们假设在这些学生中,平均每人的这种好友有k个,平均度分布K=k,优化后的网络中应保留存在系数ρ最大的前M=kN/2条边。
图7为r取不同值时所构建的网络中的同班级比率。同时,图7计算了从原始共现矩阵,随机选取M条边,对应的学生的同班级比率,即random对应的图示,由图可知,随机选取的M条边同班级比率很小,只有0.018左右。
图7中,weight图示表示直接截取权重最大的M条边的同班级比率,这个比率小于所有r取值下,存在系数ρ前M条边的同班级比率,这验证了边的权重不能唯一决定一条边的存在性。当r=1时,所构建的网络同班级比率最大,最接近真实网络。当r越大时,权值占的比重越大,保留的边集合越趋近于截取权重最大的M条边集合。
图7中,r=1是,同班级比率为73.4%左右,最接近于真实网络,这是一个合理的比率,因为我们抽取的是好友关系,在学生中,并不是所有好友都来自同一个班级,还存在一些跨班级好友。
Claims (2)
1. 一种基于事务日志的社会网络构建方法,其特征在于该方法主要由数据预处理、共现矩阵生成和社会网络构建三个大步骤组成,其中:
数据预处理:包括对原始事务数据清洗,确定时间标识,确定空间标识;
共现矩阵生成:根据空间、时间共现特征,定义空间共现模型、时间共现模型,将事务数据分成不同的事务日志序列,定义具体共现矩阵计算模型,生成共现矩阵;
社会网络构建:定义一个基于边权重和节点间JACCARD系数的边存在系数,构建真实的社会关系网络;
所述数据预处理步骤如下:
(1)事务日志数据清洗:对从软件系统中采集来的事务日志数据进行整理分析,包括按照时间戳排序、按照地点分类、将个别不符合格式要求的数据杂质去掉;
(2)确定时间标识:探索事务日志的时间戳特性,确定哪些字段能够唯一标识一条记录的时间;
(3)确定空间标识:探索事务日志中的地点相关字段特征,确定哪些字段共同标识一个唯一的空间位置;
所述共现矩阵生成步骤如下:
(1)定义空间共现模型:考察数据预处理步骤(3)中定义的空间位置标记字段,分析各个空间位置产生的事务日志性质是否相同,如不同,按照性质将空间位置分为不同的类型,每个类型中分别定义空间共现,为方便处理,将所有日志按空间共现聚类,将日志按照空间聚类分为不同的日志序列,每一个日志序列中,所有日志之间都满足空间共现定义;
(2)定义时间共现模型:考察事务日志中,标识时间的字段特征,分析日志的时间特征,定义时间共现模型,选取一个时间间隔 作为时间共现阈值,两条日志时间戳相差小于时,称这两条日志满足时间共现;
(3)定义全局共现模型:同时满足空间共现模型定义和时间共现模型定义的两条事务日志,为满足全局共现模型定义的两条日志;
(4)计算共现矩阵:处理所有的日志序列,找出所有满足全局共现模型定义的用户对,创建一个由所有学生间的共现关系构成的共现矩阵,元素的值为u, v对应用户共现的次数,该矩阵为一个对称矩阵,, 当u=v时,;
所述社会关系网络构建步骤如下:
(1)计算任意两个用户u, v对应点之间的边权重:一条边的权重定义如下:
其中,为共现矩阵计算步骤中,所生成的共现矩阵对应的元素值;
(2)计算任意两个用户u, v对应点之间的JACCARD系数,两个用户u, v对应点之间的JACCARD系数计算方法如下:
其中,为共现矩阵计算步骤中,所生成的共现矩阵对应的元素值,, 分别表示点u, v的度数;
(3)计算任意两个用户u, v对应点之间的边存在系数,两个用户u, v对应点之间的边存在系数计算方法如下:
其中,Z为归一化因子, ,r为实数,参数r决定边的权重在存在系数中的重要程度;当r=0时, ;
(4)构建社会网络:计算出所有用户点之间的存在系数,然后,根据事务日志产生系统的规模特性,预估社会网络的大小,确定边存在系数阈值,保留边存在系数大于阈值的边,这些边即构成所构建的社会网络。
2. 根据权利要求1所述的基于事务日志的社会网络构建方法,其特征在于定义日志序列的共现时间间隔阈值有两种方法:
(1)非固定时间隔:将日志序列中,相邻的两条日志对应的用户视为时间共现;
(2)时间间隔:计算出日志序列所有相邻日志时间间隔,按大小排序,选择时间间隔的中位数作为共现时间间隔阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410358497.4A CN104199828B (zh) | 2014-07-26 | 2014-07-26 | 一种基于事务日志数据的社会网络构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410358497.4A CN104199828B (zh) | 2014-07-26 | 2014-07-26 | 一种基于事务日志数据的社会网络构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104199828A true CN104199828A (zh) | 2014-12-10 |
CN104199828B CN104199828B (zh) | 2017-07-07 |
Family
ID=52085121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410358497.4A Expired - Fee Related CN104199828B (zh) | 2014-07-26 | 2014-07-26 | 一种基于事务日志数据的社会网络构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199828B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954986A (zh) * | 2015-06-05 | 2015-09-30 | 南京邮电大学 | 一种基于多行为地点的机会式数据传输方法 |
CN110990777A (zh) * | 2019-07-03 | 2020-04-10 | 北京市安全生产科学技术研究院 | 数据关联性分析方法及系统、可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054029A (zh) * | 2010-12-17 | 2011-05-11 | 哈尔滨工业大学 | 一种基于社会网络和人名上下文的人物信息消歧处理方法 |
US20120284340A1 (en) * | 2010-01-29 | 2012-11-08 | E-Therapeutics Plc | Social media analysis system |
CN102937985A (zh) * | 2012-10-25 | 2013-02-20 | 南京理工大学 | 一种基于用户心智模型的网站分类优化分析方法 |
CN103139251A (zh) * | 2011-11-29 | 2013-06-05 | 神州数码信息系统有限公司 | 一种城市级数据共享交换平台技术的方法 |
-
2014
- 2014-07-26 CN CN201410358497.4A patent/CN104199828B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120284340A1 (en) * | 2010-01-29 | 2012-11-08 | E-Therapeutics Plc | Social media analysis system |
CN102054029A (zh) * | 2010-12-17 | 2011-05-11 | 哈尔滨工业大学 | 一种基于社会网络和人名上下文的人物信息消歧处理方法 |
CN103139251A (zh) * | 2011-11-29 | 2013-06-05 | 神州数码信息系统有限公司 | 一种城市级数据共享交换平台技术的方法 |
CN102937985A (zh) * | 2012-10-25 | 2013-02-20 | 南京理工大学 | 一种基于用户心智模型的网站分类优化分析方法 |
Non-Patent Citations (1)
Title |
---|
王辉 等: "基于Web社会网络的节点间关系多样性分析", 《解放军理工大学学报(自然科学版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954986A (zh) * | 2015-06-05 | 2015-09-30 | 南京邮电大学 | 一种基于多行为地点的机会式数据传输方法 |
CN104954986B (zh) * | 2015-06-05 | 2018-04-10 | 南京邮电大学 | 一种基于多行为地点的机会式数据传输方法 |
CN110990777A (zh) * | 2019-07-03 | 2020-04-10 | 北京市安全生产科学技术研究院 | 数据关联性分析方法及系统、可读存储介质 |
CN110990777B (zh) * | 2019-07-03 | 2022-03-18 | 北京市应急管理科学技术研究院 | 数据关联性分析方法及系统、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104199828B (zh) | 2017-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104394118B (zh) | 一种用户身份识别方法及系统 | |
CN104915879B (zh) | 基于金融数据的社会关系挖掘的方法及装置 | |
Rowe et al. | Automated social hierarchy detection through email network analysis | |
CN104572449A (zh) | 一种基于用例库的自动化测试方法 | |
CN104504264A (zh) | 虚拟人建立方法及装置 | |
Xie et al. | Incentive mechanism and rating system design for crowdsourcing systems: Analysis, tradeoffs and inference | |
CN102480481A (zh) | 一种提高产品用户数据安全性的方法及装置 | |
Creamer et al. | Segmentation and automated social hierarchy detection through email network analysis | |
CN107767055A (zh) | 一种基于串谋检测的众包结果汇聚方法及装置 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
Harrigan et al. | Airdrops and privacy: a case study in cross-blockchain analysis | |
CN107977855B (zh) | 一种管理用户信息的方法及装置 | |
CN105426392A (zh) | 一种协同过滤推荐方法及系统 | |
CN104965846A (zh) | MapReduce平台上的虚拟人建立方法 | |
CN103593355A (zh) | 用户原创内容的推荐方法及推荐装置 | |
CN104199828A (zh) | 一种基于事务日志数据的社会网络构建方法 | |
CN105447117A (zh) | 一种用户聚类的方法和装置 | |
Ariu et al. | Regret in online recommendation systems | |
Yu et al. | Research on situational perception of power grid business based on user portrait | |
Kotnik et al. | ICT as Enabler of Exports | |
Carazo et al. | Foreign entry modes of Colombian small and medium enterprises | |
CN114049213A (zh) | 一种信息化金融数据分析系统与分析方法 | |
Yihua | Vip customer segmentation based on data mining in mobile-communications industry | |
Wu et al. | Enhancing international knowledge transfer through information technology: the intervention of communication culture | |
CN105930404B (zh) | 一种基于共生关系分析的服务组合主题演化图构造方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170707 Termination date: 20200726 |