CN110704612A - 一种社交群体发现方法、装置和存储介质 - Google Patents
一种社交群体发现方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110704612A CN110704612A CN201910732451.7A CN201910732451A CN110704612A CN 110704612 A CN110704612 A CN 110704612A CN 201910732451 A CN201910732451 A CN 201910732451A CN 110704612 A CN110704612 A CN 110704612A
- Authority
- CN
- China
- Prior art keywords
- users
- user
- network
- social group
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004891 communication Methods 0.000 claims abstract description 101
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000003993 interaction Effects 0.000 claims description 14
- 230000001174 ascending effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000006855 networking Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000003012 network analysis Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提出了一种社交群体发现方法、装置和存储介质,用以提高社交群体发现精度和准确度。所述社交群体发现方法,包括:利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;根据提取的关联特征信息,确定每一候选用户对应的置信度;确定对应的置信度大于预设阈值的候选用户为目标用户;根据目标用户之间的通信联系建立初始群体网络;利用群体发现算法从所述初始群体网络中发现社交群体子网络。
Description
技术领域
本发明涉及社交网络分析技术领域,尤其涉及一种社交群体发现方法、装置和存储介质。
背景技术
近年来随着社交网络的发展,群体或者社区发现与分析研究领域的关注度大大提升。社区或者群体反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系,研究网络中的群体对理解整个网络的结构和功能起到至关重要的作用,并且可帮助我们分析及预测整个网络各元素间的交互关系。
群体发现算法广泛应用在社交网络数据挖掘等领域之中。世界各国的政府、警方和研究人员都在用包括群体发现在内的多种社交网络分析手段来对潜在或者正在发生的恐怖和犯罪活动进行监测和分析。通过对社交应用等多种媒体的信息进行分析,发现犯罪网络,能够快速锁定犯罪分子中的重要人员。对犯罪团伙的犯罪行为进行追踪,可以有效的防范犯罪行为的发生,打击犯罪团伙,维护社会的治安与稳定。
在互联网数据的基础上,我们可以构建出以信息资源为节点的网络。如图片、视频、帖子、新闻、个人账户等。网络的连边为用户在资源之间的流动或者信息在用户之间的流动。但是,现有的社交群体子网络发现算法数据通常为通过互联网收集的数据,即用户访问网络所产生的数据,数据来源单一,降低了社交群体发现的精度和准确度。
发明内容
本发明要解决的技术问题是针对由于数据来源单一,导致现有的社交群体发现精度和准确度较低,提供一种社交群体发现方法、装置和存储介质。
本发明采用的技术方案是提供一种社交群体发现方法,包括:
利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;
从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;
根据提取的关联特征信息,确定每一候选用户对应的置信度;
确定对应的置信度大于预设阈值的候选用户为目标用户;
根据目标用户之间的通信联系建立初始群体网络;
利用群体发现算法从所述初始群体网络中发现社交群体子网络。
在一种可能的实施方式中,利用群体发现算法从所述初始群体网络中发现社交群体子网络,具体包括:
从所述初始群体网络中,查找大小为K的完全子图,其中,K为大于1的整数;
以每个完全子图为一个节点建立重叠矩阵;
将所述重叠矩阵转换为邻接矩阵;
确定所述邻接矩阵的每个连通分量为一个社交群体子网络。
在一种可能的实施方式中,所述关联特征信息包括以下至少一项:所述候选用户与所述种子用户之间的短信交互频次、通话交互频次、短信内容相关度、通联时间和通联人数;
根据提取的关联特征信息,确定每一候选用户对应的置信度,具体包括:
针对每一候选用户,将该候选用户对应的每一关联特征信息进行归一化处理得到关联特征参数;
根据所述关联特征参数确定该候选用户对应的置信度。
在一种可能的实施方式中,本发明提供的社交群体子网络发现方法,还包括:
针对每一社交群体子网络,根据社交群体子网络中网络节点的度由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为联系人众多的用户;和/或
根据社交群体子网络中网络节点的介数由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为桥接用户;和/或
根据社交群体子网络中网络边的权重由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为交互频繁用户。
在一种可能的实施方式中,本发明提供的社交群体子网络发现方法,还包括:
针对所述社交群体子网络中的任一用户,如果该用户对应的用户类型包括至少两个,则根据该用户在每一类型用户中对应的排序序号,确定对应的排序序号最小的用户类型为该用户对应的用户类型。
在一种可能的实施方式中,本发明提供的社交群体子网络发现方法,还包括:
获取所述社交群体子网络中任两个用户在预设时间段内的短信通联内容;
按照短信发送时间升序排列获取的短信通联内容;
计算相邻两条短信之间的时间间隔,得到时间间隔序列并按照升序排列;
按照切分百分比将所述时间间隔序列切分为两段,所述切分百分比为利用标注有会话状态的短信样本数据进行训练得到的;
标注第一段时间间隔对应的短信会话状态为会话中。
在一种可能的实施方式中,本发明提供的社交群体子网络发现方法,还包括:
针对每一社交群体子网络,连接短信会话状态为会话中的所有短信通联内容得到短文本;
将所述短文本进行分词并去除停用词;
根据预设的主题数量,利用主题发现模型进行主题发现;
利用所述短文本中出现频次大于第一预设频次阈值的分词绘制主题词。
在一种可能的实施方式中,本发明提供的社交群体子网络发现方法,还包括:
针对每一社交群体子网络,获取根据该社交群体子网络中包含的用户之间发生通信联系时的地理位置信息和通联时间;
根据获取的地理位置信息和用户之间的通信数据,构建地理位置通联网络并显示,所述地理位置通联网络中的网络节点为地理位置信息,网络的边的权重为各个网络节点用户通联次数之和;或者
根据用户之间发生通信联系时的地理位置信息和通联时间,获得每个用户随时间变化的位置序列,每个位置序列构成一条位置轨迹;
显示出现频次高于第二预设频次阈值的位置轨迹。
本发明还提供一种社交群体发现装置,包括:
第一查找单元,用于利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;
提取单元,用于从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;
第一确定单元,用于根据提取的关联特征信息,确定每一候选用户对应的置信度;
网络构建单元,用于根据目标用户之间的通信联系建立初始群体网络,所述目标用户为置信度大于预设阈值的候选用户;利用群体发现算法从所述初始群体网络中发现社交群体子网络。
在一种可能的实施方式中,所述网络构建单元,具体用于从所述初始群体网络中,查找大小为K的完全子图,其中,K为大于1的整数;以每个完全子图为一个节点建立重叠矩阵;将所述重叠矩阵转换为邻接矩阵;确定所述邻接矩阵的每个连通分量为一个社交群体子网络。
在一种可能的实施方式中,所述关联特征信息包括以下至少一项:所述候选用户与所述种子用户之间的短信交互频次、通话交互频次、短信内容相关度、通联时间和通联人数;
所述第一确定单元,具体用于针对每一候选用户,将该候选用户对应的每一关联特征信息进行归一化处理得到关联特征参数;根据所述关联特征参数确定该候选用户对应的置信度。
在一种可能的实施方式中,本发明实施例提供的社交群体发现装置,还包括:
第二确定单元,用于针对每一社交群体子网络,根据社交群体子网络中网络节点的度由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为联系人众多的用户;和/或根据社交群体子网络中网络节点的介数由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为桥接用户;和/或根据社交群体子网络中网络边的权重由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为交互频繁用户。
在一种可能的实施方式中,所述第二确定单元,还用于针对所述社交群体子网络中的任一用户,如果该用户对应的用户类型包括至少两个,则根据该用户在每一类型用户中对应的排序序号,确定对应的排序序号最小的用户类型为该用户对应的用户类型。
在一种可能的实施方式中,本发明实施例提供的社交群体发现装置,还包括:
标注单元,用于获取所述社交群体子网络中任两个用户在预设时间段内的短信通联内容;按照短信发送时间升序排列获取的短信通联内容;计算相邻两条短信之间的时间间隔,得到时间间隔序列并按照升序排列;
按照切分百分比将所述时间间隔序列切分为两段,所述切分百分比为利用标注有会话状态的短信样本数据进行训练得到的;标注第一段时间间隔对应的短信会话状态为会话中。
在一种可能的实施方式中,本发明实施例提供的社交群体发现装置,还包括:
主题发现单元,用于针对每一社交群体子网络,连接短信会话状态为会话中的所有短信通联内容得到短文本;将所述短文本进行分词并去除停用词;根据预设的主题数量,利用主题发现模型进行主题发现;利用所述短文本中出现频次大于第一预设频次阈值的分词绘制主题词。
在一种可能的实施方式中,所述网络构建单元,还用于针对每一社交群体子网络,获取根据该社交群体子网络中包含的用户之间发生通信联系时的地理位置信息和通联时间;根据获取的地理位置信息和用户之间的通信数据,构建地理位置通联网络并显示,所述地理位置通联网络中的网络节点为地理位置信息,网络的边的权重为各个网络节点用户通联次数之和;或者根据用户之间发生通信联系时的地理位置信息和通联时间,获得每个用户随时间变化的位置序列,每个位置序列构成一条位置轨迹;显示出现频次高于第二预设频次阈值的位置轨迹。
本发明还提供一种计算装置,所述计算装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一社交群体发现方法所述的步骤。
本发明还提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一社交群体发现方法所述的步骤。
采用上述技术方案,本发明至少具有下列优点:
本发明所述的社交群体发现方法、装置和存储介质,通过贵包含短信内容和通话数据等在内的多种数据源进行分析,实现对群体信息更全面的挖掘,从而提高了社交群体子网络发现的精度和准确度。
附图说明
图1为本发明实施例的社交群体发现系统的系统结构示意图;
图2为本发明实施例的社交群体发现方法的实施流程示意图;
图3为本发明实施例的k-clique算法的原理示意图;
图4为本发明实施例的社交群体子网络发现流程图;
图5为本发明实施例的短信会话还原流程图;
图6为本发明实施例的主题发现流程图;
图7为本发明实施例的社交群体发现装置的结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
如图1所示,其为本发明实施例提供的社交群体发现系统的系统架构图。本系统架构一共分为4个层次:展示层、业务层、计算层、数据层,其中:
展示层负责查看已有群体、根据约束条件新建群体,将群体的发现与分析结果通过图表等方式展现出来。如发现的群体通过社交网络图进行展示,会话还原通过表格来展示,地理位置信息通过饼状图和地图来展示等;
业务层是展示层与计算层的中间层,负责接收系统用户的请求,调用计算层算子对请求进行相应处理,并将业务相关的数据传入数据层进行存储。
计算层负责本系统中所有算法的具体计算,包括会话还原算子、群体发现算子、社交网络分析算子、地域分析算子、时空轨迹分析算子等等;该层调用数据层获取相应的数据,并将计算的结果数据通过数据层进行存储。
数据层负责系统所有数据的管理,如短信数据、基站数据、CDR数据、计算结果数据、业务管理数据。该层将原始数据进行清洗和预处理,然后MongoDB数据库中,并对上层的数据请求返回相应数据。
如图2所示,其为本发明实施例提供的社交群体发现方法的实施流程示意图,可以包括以下步骤:
S21、利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户。
其中,通信数据源中包括短信数据和通话数据,候选用户包括与种子用户通信的第一用户和/或满足约束条件的第二用户。
具体实施时,用户根据实际需求通过交互界面向系统提交种子用户和约束条件,例如关键词、起始时间和地理位置信息等,根据用户提交的种子用户和约束条件,在通信数据源中搜索与之相关的用户,包括,根据种子用户在短信数据以及通话数据中找到相应的候选用户,以及根据关键词全文检索出短信数据中包含该关键词的候选用户。如果约束条件还包括起始时间和地理位置等限制条件,则从满足条件的通信数据中进行选择。
S22、从候选用户的通信数据中提取与种子用户关联的关联特征信息。
本步骤中,针对查找到的候选用户进行特征提取,提取与种子用户关联的关联特征信息,其中,关联特征信息可以包括至少以下一项:候选用户与种子用户之间的短信交互频次、通话交互频次、短信内容相关度、通联时间和通联人数。
S23、根据提取的关联特征信息,确定每一候选用户对应的置信度。
本步骤中,针对每一候选用户,将该候选用户对应的每一关联特征信息进行归一化处理,得到相应的关联特征参数,根据关联特征参数确定该候选用户对应的置信度。其中,关联特征参数可以为各关联特征信息归一化处理后得到的数值的均值,也可以为归一化数值中的最大值,将候选用户对应的关联特征参数作为该候选用户对应的置信度。
S24、根据目标用户之间的通信联系建立初始群体网络,其中,目标用户为置信度大于预设阈值的候选用户。
本步骤中,确定置信度高于预设阈值的候选用户为目标用户,并根据各个目标用户之间的通信联系建立,其中,通信联系包括短信通联以及通话通联,即两个目标用户之间存在短信交互和/或通话交互即在两者之间建立连接关系,组成初始群体网络。
S25、利用群体发现算法从初始群体网络中发现社交群体子网络。
本发明实施例中,可以采用k-clique算法进行社交群体子网络的发现。k-clique算法主要思想为:对于一个图G而言,如果其中有一个完全子图,节点数是k,那么这个完全子图就可称为一个k-clique。如果两个k-clique之间存在k-1个共同的节点,那么就称这两个clique(群体)是相邻的。彼此相邻的这样一串clique构成最大集合,彼此相邻的多个clique构成最大集合,就可以称为一个社区或者社交群体(而且这样的社区是可以重叠的,即重叠社区,即有些节点可以同时属于多个社区)。k-clique算法的原理示意图如图3所示。
基于此,本发明实施例中,可以按照图4所示的流程发现社交群体子网络:
S41、从初始群体网络中,查找大小为K的完全子图。
其中,K为大于1的整数,其中K可以根据实际需要进行设定,本发明实施例对此不进行限定,例如,K可以设定为3。
S42、以每个完全子图为一个节点建立重叠矩阵。
本步骤中,将每个完全子图定义为一个接待,建立一个重叠矩阵,其中,将重叠矩阵中对角线小于K的元素以及非对角线小于K-1的元素置为0。
S43、将重叠矩阵转换为邻接矩阵。
S44、确定邻接矩阵的每个连通分量为一个社交群体子网络。
上述社交群体发现方法中,根据用户提供的约束条件从根据用户提供的约束条件从短信和通话数据中发现该群体的用户并构建网络,分析网络的结构特征,对网络进行子网络划分。
在社交群体发现过程中,有一些不同类型的用户,在网络中起着重要作用,本发明实施例中称之为关键用户。其中,关键用户的发现,有利于获取群体中的重要信息。例如,在网络中起桥接作用的用户、有众多联系人的用户、与其他用户进行频繁的短信、通话交互的用户,这些用户都具有一些特殊的特征。有鉴于此,本发明实施例还提供了一种关键用户发现的方法。
具体实施时,针对每一社交群体子网络,根据社交群体子网络中网络节点的度由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为联系人众多的用户,并记录其对应的排序序号;和/或
根据社交群体子网络中网络节点的介数由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为桥接用户,并记录其对应的排序序号;和/或
根据社交群体子网络中网络边的权重由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为交互频繁用户,并记录其对应的排序序号。
具体实施时,可以预先设定网络中关键用户占所有用户的比例,并根据群体中用户总数量和设定的比例确定出关键用户的数量。社交群体子网络中,边的权重可以为连接的两个用户之间短信通联以及通话通联频次之和。
需要说明的是,针对社交群体子网络中的任一用户,如果该用户对应的用户类型包括至少两个,则根据该用户在每一类型用户中对应的排序序号,确定对应的排序序号最小的用户类型为该用户对应的用户类型。例如,对于任一用户来说,其在联系人众多的用户中排序序号为8,在桥接用户中排序序号为12,则确定该用户对应的用户类型为联系人众多的用户。
本发明实施提供的社交群体发现方法,在发现群体中关键用户的基础上,还提供了短信会话还原以及主题发现分析的方法,并将分析得到的主题词云展示给用户。短信会话还原是指将用户间的通联内容切分成会话,每个会话描述了某一个特定的话题。在通过对用户的短信数据做统计分析之后,发现用户间的短信时间间隔是非常有用的特征,时间间隔越大越可能是不同会话,基于此,本发明实施例中,可以按照以下方法来训练短信会话还原中的切分百分比:
a)首先人工标注测试集,对每条短信标注其对应的会话状态,1表示会话开始,0表示会话中,2表示会话结束;
b)对于每一对用户,获取相应时间段内的所有短信数据,并按照发送时间升序排序;
c)计算短信之间的时间间隔,得到时间间隔的序列;
d)设定时间间隔切分的百分比,将时间间隔序列按升序排序,按照切分百分比将序列切分成两段,第一段时间间隔对应的短信属于同一会话,标注会话状态为0(会话中),第二段时间间隔对应的短信属于不同的会话,分别标注两条短信的状态为2(会话结束)和1(会话开始);
e)利用标注的测试数据集衡量还原结果的准确性,根据结果调节切分百分比,并返回执行d),直至还原结果的准确性达到预设准确率阈值,或者达到预设的迭代次数。
基于上述得到的切分百分比,本发明实施例中,可以按照图5所示的流程进行短信会话还原:
S51、获取社交群体子网络中任两个用户在预设时间段内的短信通联内容。
S52、按照短信发送时间升序排列获取的短信通联内容。
S53、计算相邻两条短信之间的时间间隔,得到时间间隔序列并按照升序排列。
S54、按照切分百分比将所述时间间隔序列切分为两段。
其中,切分百分比为利用标注有会话状态的短信样本数据进行训练得到的。
S55、标注第一段时间间隔对应的短信会话状态为会话中。
进一步地,本发明实施例中,在短信会话还原之后,还可以利用主题模型进行主题发现。有关主题模型发现主要有LDA(Latent Dirichlet Allocation),PLSA(概率潜在语义分析,probabilistic Latent Semantic Analysis)以及mixture of unigrams(元混合模型)。在研究和实验LDA话题模型时发现,在解决短文本话题分析时,由于其基于文档词共现的实现原理分析时无法解决短文本的离散问题。本发明实施例中,选择BTM模型(BitermTopic Model)实现主题发现,BTM模型比LDA模型更适用于短文本话题分析。如图6所示,本发明实施例中,可以按照以下流程进行主题发现:
S61、针对每一社交群体子网络,连接短信会话状态为会话中的所有短信通联内容得到短文本。
S62、将所述短文本进行分词并去除停用词。
其中,停用词可以为预先设定的。
S63、根据预设的主题数量,利用主题发现模型进行主题发现。
S64、利用短文本中出现频次大于第一预设频次阈值的分词绘制主题词。
在一个实施例中,本发明实施例提供的社交群体发现方法还可以根据用户之间通联时的地理位置信息,构建地理位置通联的网络,其中节点为省份,边为省份之间通联的频次,将该网络在系统上进行可视化展示。具体地,针对每一社交群体子网络,获取根据该社交群体子网络中包含的用户之间发生通信联系时的地理位置信息和通联时间;根据获取的地理位置信息和用户之间的通信数据,构建地理位置通联网络并显示,所述地理位置通联网络中的网络节点为地理位置信息,网络的边的权重为各个网络节点用户通联次数之和;或者根据用户之间发生通信联系时的地理位置信息和通联时间,获得每个用户随时间变化的位置序列,每个位置序列构成一条位置轨迹;显示出现频次高于第二预设频次阈值的位置轨迹。
本发明实施例提供的群体发现方法中,根据用户提供的约束条件从短信和通话数据中发现该群体的用户并构建社交群体网络,分析网络的结构特征,对网络进行子网络划分并在活跃度等方面对子网络进行分析,利用网络中节点的度、介数等特征发现群体中的关键用户;对于群体中的每个用户,获取其与其他用户的短信通联内容,将通联内容切分成较细粒度的会话,利用主题模型分析整个群体中会话所包含的主题以及会话的关键词云;根据群体中用户的地理位置信息,分析群体中不同地域之间的通联情况,获得群体中用户随时间变化的轨迹,并以可视化的形式展现出来。
本发明实施例提供的群体发现方法中,通过结合多种数据源对群体进行分析,提高群体发现的准确度与精度,对群体的分析更全面;通过对通信数据(如短信数据、通话数据等)的挖掘,在群体发现的同时,实现短信会话还原与主题发现;能够对群体中用户的地理位置进行分析,获得群体中用户随时间变化的轨迹,并进行可视化的展示。
基于同一技术构思,本发明实施例还提供了一种社交群体发现装置,如图7所示,包括:
第一查找单元71,用于利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;
提取单元72,用于从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;
第一确定单元73,用于根据提取的关联特征信息,确定每一候选用户对应的置信度;
网络构建单元74,用于根据目标用户之间的通信联系建立初始群体网络,所述目标用户为置信度大于预设阈值的候选用户;利用群体发现算法从所述初始群体网络中发现社交群体子网络。
在一种可能的实施方式中,所述网络构建单元,具体用于从所述初始群体网络中,查找大小为K的完全子图,其中,K为大于1的整数;以每个完全子图为一个节点建立重叠矩阵;将所述重叠矩阵转换为邻接矩阵;确定所述邻接矩阵的每个连通分量为一个社交群体子网络。
在一种可能的实施方式中,所述关联特征信息包括以下至少一项:所述候选用户与所述种子用户之间的短信交互频次、通话交互频次、短信内容相关度、通联时间和通联人数;
所述第一确定单元,具体用于针对每一候选用户,将该候选用户对应的每一关联特征信息进行归一化处理得到关联特征参数;根据所述关联特征参数确定该候选用户对应的置信度。
在一种可能的实施方式中,本发明实施例提供的社交群体发现装置,还包括:
第二确定单元,用于针对每一社交群体子网络,根据社交群体子网络中网络节点的度由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为联系人众多的用户;和/或根据社交群体子网络中网络节点的介数由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为桥接用户;和/或根据社交群体子网络中网络边的权重由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为交互频繁用户。
在一种可能的实施方式中,所述第二确定单元,还用于针对所述社交群体子网络中的任一用户,如果该用户对应的用户类型包括至少两个,则根据该用户在每一类型用户中对应的排序序号,确定对应的排序序号最小的用户类型为该用户对应的用户类型。
在一种可能的实施方式中,本发明实施例提供的社交群体发现装置,还包括:
标注单元,用于获取所述社交群体子网络中任两个用户在预设时间段内的短信通联内容;按照短信发送时间升序排列获取的短信通联内容;计算相邻两条短信之间的时间间隔,得到时间间隔序列并按照升序排列;
按照切分百分比将所述时间间隔序列切分为两段,所述切分百分比为利用标注有会话状态的短信样本数据进行训练得到的;标注第一段时间间隔对应的短信会话状态为会话中。
在一种可能的实施方式中,本发明实施例提供的社交群体发现装置,还包括:
主题发现单元,用于针对每一社交群体子网络,连接短信会话状态为会话中的所有短信通联内容得到短文本;将所述短文本进行分词并去除停用词;根据预设的主题数量,利用主题发现模型进行主题发现;利用所述短文本中出现频次大于第一预设频次阈值的分词绘制主题词。
在一种可能的实施方式中,所述网络构建单元,还用于针对每一社交群体子网络,获取根据该社交群体子网络中包含的用户之间发生通信联系时的地理位置信息和通联时间;根据获取的地理位置信息和用户之间的通信数据,构建地理位置通联网络并显示,所述地理位置通联网络中的网络节点为地理位置信息,网络的边的权重为各个网络节点用户通联次数之和;或者根据用户之间发生通信联系时的地理位置信息和通联时间,获得每个用户随时间变化的位置序列,每个位置序列构成一条位置轨迹;显示出现频次高于第二预设频次阈值的位置轨迹。
基于相同的技术构思,本发明实施例还提供了一种计算装置,所述计算装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一社交群体发现方法所述的步骤。
基于相同的技术构思,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一社交群体发现方法所述的步骤。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
Claims (10)
1.一种社交群体发现方法,其特征在于,包括:
利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;
从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;
根据提取的关联特征信息,确定每一候选用户对应的置信度;
根据目标用户之间的通信联系建立初始群体网络,所述目标用户为置信度大于预设阈值的候选用户;
利用群体发现算法从所述初始群体网络中发现社交群体子网络。
2.根据权利要求1所述的方法,其特征在于,利用群体发现算法从所述初始群体网络中发现社交群体子网络,具体包括:
从所述初始群体网络中,查找大小为K的完全子图,其中,K为大于1的整数;
以每个完全子图为一个节点建立重叠矩阵;
将所述重叠矩阵转换为邻接矩阵;
确定所述邻接矩阵的每个连通分量为一个社交群体子网络。
3.根据权利要求1所述的方法,其特征在于,所述关联特征信息包括以下至少一项:所述候选用户与所述种子用户之间的短信交互频次、通话交互频次、短信内容相关度、通联时间和通联人数;
根据提取的关联特征信息,确定每一候选用户对应的置信度,具体包括:
针对每一候选用户,将该候选用户对应的每一关联特征信息进行归一化处理得到关联特征参数;
根据所述关联特征参数确定该候选用户对应的置信度。
4.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
针对每一社交群体子网络,根据社交群体子网络中网络节点的度由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为联系人众多的用户;和/或,
根据社交群体子网络中网络节点的介数由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为桥接用户;和/或,
根据社交群体子网络中网络边的权重由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为交互频繁用户。
5.根据权利要求4所述的方法,其特征在于,所述方法,还包括:
针对所述社交群体子网络中的任一用户,如果该用户对应的用户类型包括至少两个,则根据该用户在每一类型用户中对应的排序序号,确定对应的排序序号最小的用户类型为该用户对应的用户类型。
6.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取所述社交群体子网络中任两个用户在预设时间段内的短信通联内容;
按照短信发送时间升序排列获取的短信通联内容;
计算相邻两条短信之间的时间间隔,得到时间间隔序列并按照升序排列;
按照切分百分比将所述时间间隔序列切分为两段,所述切分百分比为利用标注有会话状态的短信样本数据进行训练得到的;
标注第一段时间间隔对应的短信会话状态为会话中。
7.根据权利要求6所述的方法,其特征在于,所述方法,还包括:
针对每一社交群体子网络,连接短信会话状态为会话中的所有短信通联内容得到短文本;
将所述短文本进行分词并去除停用词;
根据预设的主题数量,利用主题发现模型进行主题发现;
利用所述短文本中出现频次大于第一预设频次阈值的分词绘制主题词。
8.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
针对每一社交群体子网络,获取根据该社交群体子网络中包含的用户之间发生通信联系时的地理位置信息和通联时间;
根据获取的地理位置信息和用户之间的通信数据,构建地理位置通联网络并显示,所述地理位置通联网络中的网络节点为地理位置信息,网络的边的权重为各个网络节点用户通联次数之和;或者根据用户之间发生通信联系时的地理位置信息和通联时间,获得每个用户随时间变化的位置序列,每个位置序列构成一条位置轨迹;
显示出现频次高于第二预设频次阈值的位置轨迹。
9.一种计算装置,其特征在于,所述计算装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述方法的步骤。
10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910732451.7A CN110704612B (zh) | 2019-08-09 | 2019-08-09 | 一种社交群体发现方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910732451.7A CN110704612B (zh) | 2019-08-09 | 2019-08-09 | 一种社交群体发现方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704612A true CN110704612A (zh) | 2020-01-17 |
CN110704612B CN110704612B (zh) | 2022-09-16 |
Family
ID=69193193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910732451.7A Active CN110704612B (zh) | 2019-08-09 | 2019-08-09 | 一种社交群体发现方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704612B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818258A (zh) * | 2021-03-08 | 2021-05-18 | 珠海市蜂巢数据技术有限公司 | 基于关键词的社交网络用户查找方法、计算机装置及计算机可读存储介质 |
CN113536848A (zh) * | 2020-04-17 | 2021-10-22 | 中国移动通信集团广东有限公司 | 一种数据处理方法、装置及电子设备 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050138070A1 (en) * | 2003-12-19 | 2005-06-23 | Huberman Bernardo A. | Discovering communities-of-practice |
CN102857921A (zh) * | 2011-06-30 | 2013-01-02 | 国际商业机器公司 | 判断垃圾信息发送者的方法及装置 |
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN103945488A (zh) * | 2014-03-31 | 2014-07-23 | 北京邮电大学 | 基于地理位置的网络社区构建方法及网络节点 |
CN103986814A (zh) * | 2014-05-26 | 2014-08-13 | 深圳市中兴移动通信有限公司 | 创建通话记录的方法和移动终端 |
CN104166731A (zh) * | 2014-08-29 | 2014-11-26 | 河海大学常州校区 | 一种社交网络重叠社区发现系统及其方法 |
CN105160546A (zh) * | 2015-08-07 | 2015-12-16 | 北京思特奇信息技术股份有限公司 | 一种构建和分析社交网络的方法及系统 |
US20160134692A1 (en) * | 2014-11-10 | 2016-05-12 | Facebook, Inc. | Identifying groups for a social networking system user based on group characteristics and likelihood of user interaction |
CN105721279A (zh) * | 2016-01-15 | 2016-06-29 | 中国联合网络通信有限公司广东省分公司 | 一种电信网络用户的交往圈挖掘方法及系统 |
US9602965B1 (en) * | 2015-11-06 | 2017-03-21 | Facebook, Inc. | Location-based place determination using online social networks |
CN106557984A (zh) * | 2016-11-18 | 2017-04-05 | 中国联合网络通信集团有限公司 | 一种社交群体的确定方法及装置 |
CN107657034A (zh) * | 2017-09-28 | 2018-02-02 | 武汉大学 | 一种社交信息增强的事件社交网络推荐算法 |
CN109039827A (zh) * | 2018-08-30 | 2018-12-18 | 河南信安通信技术股份有限公司 | 基于位置的社交软件热点采集系统及其方法 |
CN109104694A (zh) * | 2018-06-26 | 2018-12-28 | 重庆市交通规划研究院 | 一种基于手机信令的用户停留位置发现方法及系统 |
CN109146638A (zh) * | 2018-08-29 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 异常金融交易群体的识别方法及装置 |
-
2019
- 2019-08-09 CN CN201910732451.7A patent/CN110704612B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050138070A1 (en) * | 2003-12-19 | 2005-06-23 | Huberman Bernardo A. | Discovering communities-of-practice |
CN102857921A (zh) * | 2011-06-30 | 2013-01-02 | 国际商业机器公司 | 判断垃圾信息发送者的方法及装置 |
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN103945488A (zh) * | 2014-03-31 | 2014-07-23 | 北京邮电大学 | 基于地理位置的网络社区构建方法及网络节点 |
CN103986814A (zh) * | 2014-05-26 | 2014-08-13 | 深圳市中兴移动通信有限公司 | 创建通话记录的方法和移动终端 |
CN104166731A (zh) * | 2014-08-29 | 2014-11-26 | 河海大学常州校区 | 一种社交网络重叠社区发现系统及其方法 |
US20160134692A1 (en) * | 2014-11-10 | 2016-05-12 | Facebook, Inc. | Identifying groups for a social networking system user based on group characteristics and likelihood of user interaction |
CN105160546A (zh) * | 2015-08-07 | 2015-12-16 | 北京思特奇信息技术股份有限公司 | 一种构建和分析社交网络的方法及系统 |
US9602965B1 (en) * | 2015-11-06 | 2017-03-21 | Facebook, Inc. | Location-based place determination using online social networks |
CN105721279A (zh) * | 2016-01-15 | 2016-06-29 | 中国联合网络通信有限公司广东省分公司 | 一种电信网络用户的交往圈挖掘方法及系统 |
CN106557984A (zh) * | 2016-11-18 | 2017-04-05 | 中国联合网络通信集团有限公司 | 一种社交群体的确定方法及装置 |
CN107657034A (zh) * | 2017-09-28 | 2018-02-02 | 武汉大学 | 一种社交信息增强的事件社交网络推荐算法 |
CN109104694A (zh) * | 2018-06-26 | 2018-12-28 | 重庆市交通规划研究院 | 一种基于手机信令的用户停留位置发现方法及系统 |
CN109146638A (zh) * | 2018-08-29 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 异常金融交易群体的识别方法及装置 |
CN109039827A (zh) * | 2018-08-30 | 2018-12-18 | 河南信安通信技术股份有限公司 | 基于位置的社交软件热点采集系统及其方法 |
Non-Patent Citations (6)
Title |
---|
JINFENG ZHUANG等: "《Community Discovery from Social Media by Low-Rank Matrix Recovery》", 《ACM》 * |
PIOTR BRODKA 等: "《Group Evolution Discovery in Social Networks》", 《IEEE》 * |
刘分等: "基于移动网络位置信息的群体发现方法", 《计算机应用研究》 * |
曲洋等: "基于通联数据的人际关系网络构建与挖掘", 《信息网络安全》 * |
杜翠凤等: "基于社交网络和地理位置的用户关系预测", 《移动通信》 * |
王燕等: "移动通信网中基于用户网络影响的社区发现算法", 《小型微型计算机系统》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536848A (zh) * | 2020-04-17 | 2021-10-22 | 中国移动通信集团广东有限公司 | 一种数据处理方法、装置及电子设备 |
CN113536848B (zh) * | 2020-04-17 | 2024-03-19 | 中国移动通信集团广东有限公司 | 一种数据处理方法、装置及电子设备 |
CN112818258A (zh) * | 2021-03-08 | 2021-05-18 | 珠海市蜂巢数据技术有限公司 | 基于关键词的社交网络用户查找方法、计算机装置及计算机可读存储介质 |
CN112818258B (zh) * | 2021-03-08 | 2024-05-10 | 珠海市蜂巢数据技术有限公司 | 基于关键词的社交网络用户查找方法、计算机装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110704612B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782965B (zh) | 意图推荐方法、装置、设备及存储介质 | |
Gambs et al. | De-anonymization attack on geolocated data | |
Yin et al. | LCARS: A spatial item recommender system | |
US11334636B2 (en) | Real-time event detection on social data streams | |
US10140384B2 (en) | Dynamically modifying elements of user interface based on knowledge graph | |
US11556851B2 (en) | Establishing a communication session between client terminals of users of a social network selected using a machine learning model | |
CN109471978B (zh) | 一种电子资源推荐方法及装置 | |
CN113095948B (zh) | 一种基于图神经网络的多源异构网络用户对齐方法 | |
Lim et al. | A topological approach for detecting twitter communities with common interests | |
CN110704612B (zh) | 一种社交群体发现方法、装置和存储介质 | |
Kamath et al. | Spatio-temporal meme prediction: learning what hashtags will be popular where | |
CN114138968A (zh) | 一种网络热点的挖掘方法、装置、设备及存储介质 | |
WO2015165230A1 (zh) | 一种社交消息的监测方法及装置 | |
CN114637903A (zh) | 一种针对定向目标数据拓展的舆情数据采集系统 | |
US10511556B2 (en) | Bursty detection for message streams | |
CN109213938B (zh) | 一种基于异构网络的poi推荐方法 | |
Srivastava et al. | Importance of User's Profile Attributes in Identity Matching Across Multiple Online Social Networking Sites | |
CN115858815A (zh) | 确定映射信息的方法、广告推荐方法、装置、设备及介质 | |
Liu et al. | Identifying user clicks based on dependency graph | |
Bayat et al. | Estimation of Twitter user's nationality based on friends and followers information | |
Taneja et al. | On viewing SpaceX Starlink through the Social Media Lens | |
US10726090B1 (en) | Per-user accuracy measure for social network based geocoding algorithms | |
JP6774917B2 (ja) | 所定行動に対するグループ内の同調圧力を推定するプログラム、装置及び方法 | |
Ozer et al. | Predicting the change of location of mobile phone users | |
Li et al. | DeepPick: a deep learning approach to unveil outstanding users with public attainable features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |