CN114461879A - 基于文本特征整合的语义社交网络多视角社区发现方法 - Google Patents
基于文本特征整合的语义社交网络多视角社区发现方法 Download PDFInfo
- Publication number
- CN114461879A CN114461879A CN202210073662.6A CN202210073662A CN114461879A CN 114461879 A CN114461879 A CN 114461879A CN 202210073662 A CN202210073662 A CN 202210073662A CN 114461879 A CN114461879 A CN 114461879A
- Authority
- CN
- China
- Prior art keywords
- matrix
- social network
- semantic
- semantic information
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000010354 integration Effects 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 141
- 239000013598 vector Substances 0.000 claims description 87
- 238000001914 filtration Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000006855 networking Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本特征整合的语义社交网络多视角社区发现方法,包括:抓取社交网络中用户发表语义信息;提取语义信息中预设数量的词频特征构建矩阵;对语义信息进行TF‑IDF值计算,提取预设数量的关键字特征构建矩阵;利用LDA主题模型获取语义信息的主题和每位用户的主题分布构建矩阵;利用Pearson相关系数求解上述矩阵之间的相似度矩阵,并与预设阈值进行比较,若大于则建立连接重构原社交网络,得到语义社交网络;利用基于图学习的多视角聚类算法对语义社交网络进行多视角社区发现,得到社区划分结果。该方法从多个视角考虑社交网络的语义信息再进行社区发现,保证社区结构划分结果的高质量、高准确度和高凝聚性。
Description
技术领域
本发明涉及语义社区发现技术领域,特别涉及一种基于文本特征整合的语义社交网络多视角社区发现方法。
背景技术
在线社交网络改变了人们交流的方式。全世界数以百万计的人利用社交媒体来创建、分享和讨论信息,并建立网络。这些社交网络应用程序通过提供越来越多的服务吸引了越来越多的用户,并使全球大约10亿人保持联系,这使得社交网络分析(SNA)在过去几年里呈指数级增长。为了分析对一种产品的意见、预测调查结果、研究假新闻如何通过社交网络传播,人们创造了各种不同的技术,同时对社交网络信息的聚合和分析越来越感兴趣,这也引起了人们对各种研究领域的兴趣,不仅是与计算机科学相关的领域,还包括物理学、心理学、市场营销、旅游和金融等领域。具体的主题包括聚类、图挖掘、社区发现、自然语言处理、实体消歧、信息融合、情感分析或推荐系统等。
社区发现将社交网络中存在联系的用户聚集成群体,群体内部紧密,群体内部松散。访问来自这些群体的信息可以检测网络的底层社区结构。这类社区的形成可以解释为具有共同利益和偏好的社会行动者之间的相似性。因此,这种结构不仅编码在网络拓扑中,而且还通过相似参与者组的数据扩散反映出来。通过社区发现方法,在社交网络的聚类中耦合内容和关系信息,可以使社区拓扑连接良好,语义一致。社区发现之所以在网络分析中如此重要,是因为它在各个领域有许多重要的应用。例如,对于一些电商平台,一个使其产品和服务更具竞争力的好方法是检测营销网络中拥有相似兴趣的客户社区,因为它可以使电商平台建立更高效、更精细的推荐系统,更好地引导顾客。
语义社区发现的目的是将具有相似语义上下文的节点聚类到同一个社区中,而社交网络通常由各种复杂的数据组成,如果仅从单一角度分析这些数据会忽视了数据中大量的细节。词频是数学语言学中一个广为人知、研究深入且常用的统计工具;关键字被定义为文档中有意义和重要的单词,它提供了对其内容的精确描述;主题可以作为文本分类的区分因素,同样也能在社交网络中作为社区发现的考虑因素。从词频、关键字和主题进行文本分析可以有效对社交网络进行特征表示。
现有方法存在的问题在于:目前针对在线社交网络的社区发现方法,很少考虑用户本身所具备的语义信息,仅从用户节点的拓扑结构出发,或者只对社交网络数据进行单一的分析,会忽视数据中大量的细节,从而导致最终的社区发现结果无法将真实的社交网络准确反映出来。并且传统的社区发现算法通常只适用于单视角数据,即使将所有视图数据连接成单个视图,之后在该视图上采用最新的社区发现算法,也很难有性能上的提升,导致划分的社区结构质量较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种基于文本特征整合的语义社交网络多视角社区发现方法,该方法保证社区结构划分结果的高质量、高准确度和高凝聚性。
为达到上述目的,本发明实施例提出了基于文本特征整合的语义社交网络多视角社区发现方法,包括以下步骤:步骤S1,抓取社交网络中用户发表语义信息,并对所述语义信息进行预处理,得到初始语义信息;步骤S2,对所述初始语义信息进行词频特征提取,选取预设数量的词频特征,以构建词频向量矩阵;步骤S3,对所述初始语义信息进行TF-IDF值计算,提取预设数量的关键字特征,以构建关键字向量矩阵;步骤S4,利用LDA主题模型获取所述初始语义信息的主题和每位用户的主题分布,以构建主题向量矩阵;步骤S5,将所述词频向量矩阵、所述关键字向量矩阵和所述主题向量矩阵堆叠形成数据矩阵,利用Pearson相关系数求解数据矩阵中所述词频向量矩阵、所述关键字向量矩阵和所述主题向量矩阵之间的相似度矩阵,并与预设阈值进行比较,若大于则建立连接重构原社交网络,得到语义社交网络,反之则不连接;步骤S6,利用基于图学习的多视角聚类算法对所述语义社交网络进行多视角社区发现,得到社区划分结果。
本发明实施例的基于文本特征整合的语义社交网络多视角社区发现方法,从多个视角考虑社交网络的语义信息,并利用图学习的多视角聚类算法进行社区发现,解决了在线社交网络的社区发现方法仅从拓扑结构出发,不考虑社交网络本身所具备的语义信息,并且对社交网络数据仅进行单一的分析,导致最终的社区发现结果无法反映社交网络的真实情况和社区划分结果出现质量差,凝聚性低的技术问题,保证了社区结构划分结果的高质量、高准确度和高凝聚性。
另外,根据本发明上述实施例的基于文本特征整合的语义社交网络多视角社区发现方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S1中利用正则表达式和去停词表清洗所述语义信息中的无效信息,得到所述初始语义信息。
进一步地,在本发明的一个实施例中,所述步骤S2具体包括:步骤S201,将所述初始语义信息作为一个整体语料库D′进行词频统计,计算每个词的词频数;步骤S202,将每个词的词频数降次排序,根据预设需求选取词频数,构成所述词频向量矩阵及其特征数量,并依次统计所述词频向量矩阵在每条语义信息中出现的次数。
进一步地,在本发明的一个实施例中,所述TF-IDF值求解公式为:
其中,fi,j为词频向量矩阵在每条语义信息中出现的次数,wj为文件dj中不同单词的个数,|D|为语料库中文本数量的总数,即社交网络中用户发表的语义信息的总数,{j:wi∈dj}|为包含词wi的文件数目。
进一步地,在本发明的一个实施例中,所述步骤S3具体包括:步骤S301,对所述初始语义信息进行过滤、分词和词性筛选;步骤S302,将处理后的初始语义信息作为文档d',使用TF-IDF值求解公式和预设语料库得到所述文档d'中每个词组的TF-IDF值,将前t个TF-IDF值所对应的词组作为关键字kw,其中,t为正整数;步骤S303,将文档d'的所有语义信息作为语料库D',某个用户发表的信息作为文档dj,再次TF-IDF值求解公式计算关键字kwj在所述文档dj中的TF-IDF值,以构建所述关键字向量矩阵。
进一步地,在本发明的一个实施例中,所述步骤S4具体包括:步骤S401,对所述初始语义信息进行清洗和过滤;步骤S402,确定需要生成的主题个数,利用LDA生成文档对处理后的初始语义信息进行主题抽取,得到每条信息的主题分布;步骤S403,将所述主题作为所述主题向量矩阵的行,和所述用户发表的信息作为所述主题向量矩阵的列,信息的主题分布作为数据矩阵的值,以构建所述主题向量矩阵。
进一步地,在本发明的一个实施例中,所述LDA生成文档的具体过程为:设所述初始语义信息的先验分布是Dirichlet分布,即对任意用户发表的文本信息dj∈D,得到文本的主题分布θd=Dirichlet(α),其中,α为超参数向量,决定了文档中主题的分布比例;设所述主题的先验分布是Dirichlet分布,即对任意主题t∈T,得到词分布βt=Dirichlet(η),其中,η为超参数向量,决定主题中词的分布比例;对任意语义信息dj中的第n个词,从主题分布θd中得到其主题编号从所述主题编号得知词的概率分布
进一步地,在本发明的一个实施例中,所述步骤S5中Pearson相关系数的求解过程为:
其中,ri,j为每个视角的相似度矩阵,xi和xj分别为词频向量矩阵或关键字向量矩阵或主题向量矩阵的第i列和第j列,N为词频向量矩阵或关键字向量矩阵或主题向量矩阵的总列数。
进一步地,在本发明的一个实施例中,所述步骤S6具体包括:步骤S601,基于图学习的多视图聚类算法对所述语义社交网络进行多视角社区发现,通过自适应每一个视角的权重,学习得到多个视角融合后的最终矩阵;步骤S602,利用秩约束rank(Ls)=n-c使所述最终矩阵的连通分量数正好为社区结构数。
进一步地,在本发明的一个实施例中,所述步骤S602的目标函数为:
其中,为第v个视角的相似度矩阵的第j列,为的权重,n为相似度矩阵的行或列数,sj为最终矩阵S的第j列,V为视角个数,γ为权衡参数,P={p1,p2,…,pc}为聚类指示矩阵,Ls为最终矩阵S的Laplacian矩阵,c为社区结构数,I为全为1的向量。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于文本特征整合的语义社交网络多视角社区发现方法;
图2是本发明具体实施例一中词频、关键字和主题信息相似性的社交网络重构图;
图3是本发明具体实施例一中社区发现结果;
图4是本发明具体实施例二中多视角和单视角的运行结果在使用图嵌入方法Node2vec的节点特征表示的可视化结果;
图5是本发明具体实施例二中相比于现有7种基线方法的模块度Q值表现对比图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于文本特征整合的语义社交网络多视角社区发现方法。
图1是本发明一个实施例的基于文本特征整合的语义社交网络多视角社区发现方法的流程图。
如图1所示,该基于文本特征整合的语义社交网络多视角社区发现方法包括以下步骤:
在步骤S1中,抓取社交网络中用户发表语义信息,并对语义信息进行预处理,得到初始语义信息。
进一步地,在本发明的一个实施例中,步骤S1中利用正则表达式和去停词表清洗语义信息中的无效信息,得到初始语义信息。
需要说明的事,本领域技术人员可以根据预设需求提取社交网络中任何个体发表的语义信息,特别是Facebook、Twitter、新浪微博等流行的语义社交网络,在此不做具体限定。
也就是说,先利用开源的爬虫项目抓取上述社交网络中用户发表语义信息;再利用正则表达式和去停词表清洗数据中无效的信息。
在步骤S2中,对初始语义信息进行词频特征提取,选取预设数量的词频特征,以构建词频向量矩阵。
也就是说,从词频的角度对社交网络中初始语义信息进行特征提取,根据提取结果构建出词频向量,获得社交网络词频角度的语义特征表示。
进一步地,在本发明的一个实施例中,步骤S2具体包括:
步骤S201,将初始语义信息作为一个整体语料库D′进行词频统计,计算每个词的词频数;
步骤S202,将每个词的词频数降次排序,根据预设需求选取词频数,构成词频向量矩阵及其特征数量,并依次统计词频向量矩阵在每条语义信息中出现的次数。
具体地,步骤S2的词频特征提取流程可以为:
首先设以fi,j表示词频,即词wi在文件dj中出现的次数,其中d∈D,D为收集的社交网络数据集合。
然后,将初始语义信息作为一个整体语料库D′进行词频统计,计算每个词的词频,即fi的值,假设wi在D′中出现1次,则fi=1,wi在D′中出现n次,则fi=n;之后将上述词组按词频数从大到小进行排序,根据排序结果选取预设词频数,构成词频向量矩阵X的特征数量;
最后依次统计出这些词组在每条语义信息中出现的次数fi,j,其中xi,j=fi,j。
需要说明的是,词频的文本处理力度较低,能保留社交网络中绝大部分信息,但同时也会使社交网络中存在的无效信息增多,从而使构造出的图出现噪音的频率增加。
在步骤S3中,对初始语义信息进行TF-IDF值计算,提取预设数量的关键字特征,以构建关键字向量矩阵。
也就是说,对社交网络中的语义信息进行TF-IDF(Term Frequency-InverseDocument Frequency)值的计算,将其作为关键字的衡量标准,使社交网络中用户发表的语义信息中的单词的TF-IDF值作为一个特征向量,以构建关键字向量矩阵。
其中,TF-IDF值求解公式为:
其中,fi,j为词频向量矩阵在每条语义信息中出现的次数,wj为文件dj中不同单词的个数,|D|为语料库中文本数量的总数,即社交网络中用户发表的语义信息的总数,|{j:wi∈dj}|为包含词wi的文件数目。
进一步地,在本发明的一个实施例中,步骤S3具体包括:
步骤S301,对初始语义信息进行过滤、分词和词性筛选;
步骤S302,将处理后的初始语义信息作为文档d',使用TF-IDF值求解公式和预设语料库得到文档d'中每个词组的TF-IDF值,将前t个TF-IDF值所对应的词组作为关键字kw,其中,t为正整数;
步骤S303,将文档d'的所有语义信息作为语料库D',某个用户发表的信息作为文档dj,再次TF-IDF值求解公式计算关键字kwj在文档dj中的TF-IDF值,以构建关键字向量矩阵。
具体地,步骤S3的关键字特征提取的具体过程如下:
首先对初始语义信息进行过滤、分词和词性筛选;然后将处理后的初始语义信息作为一个文档d',使用公式(1)和预先网络上统计好的语料库得到d'中每个词组的TF-IDF值,将前t个的TF-IDF值所对应的词组作为关键字kw;最后将文档d‘的所有语义信息作为语料库D‘,某个用户发表的信息作为文档dj,再次利用公式(1)计算关键字kwi在dj中的TF-IDF值,记为TIi,j,并将其作为关键字向量矩阵的值,即xi,j=TIi,j。
关键字相比于词频能够抑制噪音的加权,并且也会对语义信息文本的组织结构和语法等信息进行考虑,但也减少了社交网络中语义特征信息的数目。
在步骤S4中,利用LDA主题模型获取初始语义信息的主题和每位用户的主题分布,以构建主题向量矩阵。
也就是说,通过LDA模型提取社交网络中所包含的主题信息,根据每条语义信息的主题分布得到特征向量,从而构造出社交网络主题角度的特征数据矩阵。
进一步地,在本发明的一个实施例中,步骤S4具体包括:
步骤S401,对初始语义信息进行清洗和过滤;
步骤S402,确定需要生成的主题个数,利用LDA生成文档对处理后的初始语义信息进行主题抽取,得到每条信息的主题分布;
步骤S403,将主题作为主题向量矩阵的行,和用户发表的信息作为主题向量矩阵的列,信息的主题分布作为数据矩阵的值,以构建主题向量矩阵。
其中,LDA生成文档的具体过程为:
首先假设初始语义信息的先验分布是Dirichlet分布,即对任意用户发表的文本信息dj∈D,得到文本的主题分布θd=Dirichlet(α);
再假设主题的先验分布是Dirichlet分布,即对任意主题t∈T,得到词分布βt=Dirichlet(η);其中,参数α和η是超参数向量,它们分别决定了文档中主题的分布比例和主题中词的分布比例;
具体地,步骤S4的从主题角度完成社交网络的语义特征表示的具体流程为:首先对初始语义信息进行清洗和过滤;然后确定需要生成的主题个数,利用上述LDA生成文档的步骤对信息文本进行主题抽取,得到每条信息的主题分布(以浮点数形式表示所属主题所对应的概率);最后将主题和用户发表的信息作为数据矩阵的行和列,信息的主题分布作为主题向量矩阵的值,完成主题角度下的语义特征表示。
在步骤S5中,将词频向量矩阵、关键字向量矩阵和主题向量矩阵堆叠形成数据矩阵,利用Pearson相关系数求解数据矩阵中词频向量矩阵、关键字向量矩阵和主题向量矩阵之间的相似度矩阵,并与预设阈值进行比较,若大于则建立连接重构原社交网络,得到语义社交网络,反之则不连接。
也就是说,将上述初始语义信息以三个不同角度进行特征表示后,会获得3个数据矩阵,其中矩阵X的行表示特征属性的值,列表示节点向量。所以将以三个向量完成用户的节点表示,堆叠在一起形成不同视角的数据矩阵,然后通过计算用户语义信息之间的相似度对社交网络的重构。
其中,步骤S5利用Pearson相关系数的求解相似度,具体求解公式为:
其中,ri,j为每个视角的相似度矩阵,xi和xj分别为词频向量矩阵或关键字向量矩阵或主题向量矩阵的第i列和第j列,N为词频向量矩阵或关键字向量矩阵或主题向量矩阵的总列数。
需要说明的是,Pearson相关系数将衡量两个变量之间的相关程度,结果的值从-1到+1,Pearson相关系数为1表示数据对象完全正相关,即当一个变量的值变大时,另一个变量的值也会变大;-1表示数据对象是负相关的,即当一个变量的值变大时,另一个变量的值就变小。因此如果两个用户的语义相关性的Pearson相关系数大于一个阈值,本发明实施例则对两个用户建立连接,完成社交网络的重构。
在步骤S6中,利用基于图学习的多视角聚类算法对语义社交网络进行多视角社区发现,得到社区划分结果。
进一步地,在本发明的一个实施例中,步骤S6具体包括:
步骤S601,基于图学习的多视图聚类算法对语义社交网络进行多视角社区发现,通过自适应每一个视角的权重,学习得到多个视角融合后的最终矩阵;
步骤S602,利用秩约束rank(Ls)=n-c使最终矩阵的连通分量数正好为社区结构数。
具体地,通过公式(2)将获取到每个视角的相似度矩阵R(v),其中v∈V表示当前视角数,V表示视角的总数,例如R(1),R(2),R(3)分别表示词频、关键字和主题的相似度矩阵。之后使用基于图学习的多视图聚类算法对社交网络进行多视角社区发现,通过自适应每一个视角的权重,学习得到多个视角融合后的最终矩阵S,并且使用秩约束rank(Ls)=n-c,使最终融合矩阵S的连通分量数正好为社区结构数c,其中,目标函数为:
其中,为第v个视角的相似度矩阵的第j列,为的权重,n为相似度矩阵的行(列)数,sj为最终矩阵S的第j列,V为视角个数(词频,关键字,主题),Ls为最终矩阵S的Laplacian矩阵,L=U-B,U为对角矩阵,B=(ST+S)/2,c为社区结构数。
进一步地,为了获得S的最优解,需要优化公式(3)。根据Fan定理,公式(3)可重写为:
其中,为第v个视角的相似度矩阵的第j列,为的权重,n为相似度矩阵的行或列数,sj为最终矩阵S的第j列,V为视角个数(词频,关键字,主题),γ为权衡参数,P={p1,p2,…,pc}为聚类指示矩阵,Ls为最终矩阵S的Laplacian矩阵,c为社区结构数,I为全为1的向量。最后使用交替迭代法得到最终矩阵S的最优解,更具体来说就是可以选择更新一个,同时保持其他变量不变。
最后使用交替迭代法得到S的最优解,更具体来说就是可以选择更新一个,同时保持其他变量不变,得到:
下面通过两个具体实施例对本发明实施例提出的基于文本特征整合的语义社交网络多视角社区发现方法进一步说明。
实施例一
首先从社交网络收集了1023位用户的语义信息并进行预处理,然后提取词频信息,将词频从大到小进行排序,将词频数排在前10000的词作为特征属性,进行特征表示,可以得到以下矩阵:
使用公式(1)和对应步骤S3对所有语义信息进关键字的提取,选取TF-IDF值排在前3000的词作为关键字角度下的特征属性,可以得到:
使用LDA主题模型获得所有数据的主题和每个节点的主题分布,其中主题数为30,得到以下主题分布数据矩阵:
然后使用Pearson相关系数,计算节点向量(数据矩阵的列)之间的相似度,并将相似度阈值设为0.15,将小于该阈值的节点相似度设为0,大于该阈值就给节点之间建立链接,完成社交网络的重构,如图2所示为根据词频、关键字和主题信息相似性的社交网络重构图。最后使用基于图学习的多视角聚类算法对语义社交网络进行多视角社区发现,得到图3所示的社区发现结果。
实施例二
选取Ncut、Louvain、SMR、DMF、CRSC和MVGL作为对比算法。将WebKB(由康奈尔大学计算机科学系收集的4个类别的203个网页组成)、BBC(来自250个BBC新闻网站)、BBCSport(由2004年-2005年BBC Sports网站上5个主题(田径、足球、网球、橄榄球和板球)的体育新闻文章组成)、20NGs(由20个不同的新闻组文档集合组成)、Wikipedia(从维基百科的特色文章集合中挑选出来的部分文件)、100leaves(由1600个植物样本组成)和HW2sources(从MNIST手写数字(0-9)和USPS手写数字(0-9)两个来源收集的的2000个样本)作为实验数据集,表1列出了8个数据集相应特征的统计数,其中前6个数据集为文本数据集,后两个为图像数据集。
表1对多视角数据集的描述
数据集 | 社区个数 | 视角个数 | 样本个数 | 特征数量 |
WebKB | 4 | 3 | 203 | 1703/230/230 |
BBC | 5 | 4 | 685 | 4659/4633/4665/4684 |
BBCSports | 5 | 2 | 544 | 3183/3203 |
20NGs | 5 | 3 | 500 | 2000/2000/2000 |
3Sources | 6 | 3 | 169 | 3560/3631/3068 |
Wikipedia | 10 | 2 | 693 | 128/10 |
100leaves | 100 | 3 | 1600 | 64/64/64 |
HW2sources | 10 | 2 | 2000 | 784/256 |
图4为数据集20NGs和100leaves运行本发明的多视角社区发现方法后,多视角和单视角的运行结果在使用图嵌入方法Node2vec的节点特征表示的可视化结果,从图4中可以观察到多视角下的运行结果会明显好于单视角的运行结果,并且多视角下社区结构结构明显,错误率低。
图5显示了本发明实施例提出方法相比于其他7种基线方法的模块度Q值表现,可以发现本发明提出的方法在WebKB,BBC和3sources数据集上Q值略低一点以外,在其他数据集上都处于领先的位置,并且相比于其它基线算法表现非常稳定,不会出现在某一数据集上表现很差的情况。这表明ALMV算法得到的社区结构具有较高的内聚性及稳定性。
根据本发明实施例提出的基于文本特征整合的语义社交网络多视角社区发现方法,根据文本处理力度依次从词频、关键字、主题进行特征表示和节点表示,并通过Pearson相关系数对社交网络进行重构,最后使用基于图学习的多视图聚类算法进行文本特征整合,有效划分社交网络的社区结构,也就是说,从多个视角考虑社交网络的语义信息,并利用图学习的多视角聚类算法进行社区发现,保证了社区结构划分结果的高质量、高准确度和高凝聚性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,包括以下步骤:
步骤S1,抓取社交网络中用户发表语义信息,并对所述语义信息进行预处理,得到初始语义信息;
步骤S2,对所述初始语义信息进行词频特征提取,选取预设数量的词频特征,以构建词频向量矩阵;
步骤S3,对所述初始语义信息进行TF-IDF值计算,提取预设数量的关键字特征,以构建关键字向量矩阵;
步骤S4,利用LDA主题模型获取所述初始语义信息的主题和每位用户的主题分布,以构建主题向量矩阵;
步骤S5,将所述词频向量矩阵、所述关键字向量矩阵和所述主题向量矩阵堆叠形成数据矩阵,利用Pearson相关系数求解数据矩阵中所述词频向量矩阵、所述关键字向量矩阵和所述主题向量矩阵之间的相似度矩阵,并与预设阈值进行比较,若大于则建立连接重构原社交网络,得到语义社交网络,反之则不连接;以及
步骤S6,利用基于图学习的多视角聚类算法对所述语义社交网络进行多视角社区发现,得到社区划分结果。
2.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S1中利用正则表达式和去停词表清洗所述语义信息中的无效信息,得到所述初始语义信息。
3.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S2具体包括:
步骤S201,将所述初始语义信息作为一个整体语料库D′进行词频统计,计算每个词的词频数;
步骤S202,将每个词的词频数降次排序,根据预设需求选取词频数,构成所述词频向量矩阵及其特征数量,并依次统计所述词频向量矩阵在每条语义信息中出现的次数。
5.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S3具体包括:
步骤S301,对所述初始语义信息进行过滤、分词和词性筛选;
步骤S302,将处理后的初始语义信息作为文档d',使用TF-IDF值求解公式和预设语料库得到所述文档d'中每个词组的TF-IDF值,将前t个TF-IDF值所对应的词组作为关键字kw,其中,t为正整数;
步骤S303,将文档d'的所有语义信息作为语料库D',某个用户发表的信息作为文档dj,再次TF-IDF值求解公式计算关键字kwj在所述文档dj中的TF-IDF值,以构建所述关键字向量矩阵。
6.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S4具体包括:
步骤S401,对所述初始语义信息进行清洗和过滤;
步骤S402,确定需要生成的主题个数,利用LDA生成文档对处理后的初始语义信息进行主题抽取,得到每条信息的主题分布;
步骤S403,将所述主题作为所述主题向量矩阵的行,和所述用户发表的信息作为所述主题向量矩阵的列,信息的主题分布作为数据矩阵的值,以构建所述主题向量矩阵。
9.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S6具体包括:
步骤S601,基于图学习的多视图聚类算法对所述语义社交网络进行多视角社区发现,通过自适应每一个视角的权重,学习得到多个视角融合后的最终矩阵;
步骤S602,利用秩约束rank(Ls)=n-c使所述最终矩阵的连通分量数正好为社区结构数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210073662.6A CN114461879A (zh) | 2022-01-21 | 2022-01-21 | 基于文本特征整合的语义社交网络多视角社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210073662.6A CN114461879A (zh) | 2022-01-21 | 2022-01-21 | 基于文本特征整合的语义社交网络多视角社区发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114461879A true CN114461879A (zh) | 2022-05-10 |
Family
ID=81411883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210073662.6A Pending CN114461879A (zh) | 2022-01-21 | 2022-01-21 | 基于文本特征整合的语义社交网络多视角社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114461879A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775937A (zh) * | 2023-05-19 | 2023-09-19 | 江西财经大学 | 一种基于微博大数据的视频推荐方法、装置及存储介质 |
CN117811851A (zh) * | 2024-03-01 | 2024-04-02 | 深圳市聚亚科技有限公司 | 一种4g通信模块数据传输方法 |
-
2022
- 2022-01-21 CN CN202210073662.6A patent/CN114461879A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775937A (zh) * | 2023-05-19 | 2023-09-19 | 江西财经大学 | 一种基于微博大数据的视频推荐方法、装置及存储介质 |
CN116775937B (zh) * | 2023-05-19 | 2024-04-26 | 厦门市美亚柏科信息股份有限公司 | 一种基于微博大数据的视频推荐方法、装置及存储介质 |
CN117811851A (zh) * | 2024-03-01 | 2024-04-02 | 深圳市聚亚科技有限公司 | 一种4g通信模块数据传输方法 |
CN117811851B (zh) * | 2024-03-01 | 2024-05-17 | 深圳市聚亚科技有限公司 | 一种4g通信模块数据传输方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN106802956B (zh) | 一种基于加权异构信息网络的电影推荐方法 | |
CN103559206B (zh) | 一种信息推荐方法及系统 | |
Yu et al. | Hierarchical topic modeling of Twitter data for online analytical processing | |
Xiaomei et al. | Microblog sentiment analysis with weak dependency connections | |
CN109840833A (zh) | 贝叶斯协同过滤推荐方法 | |
CN114461879A (zh) | 基于文本特征整合的语义社交网络多视角社区发现方法 | |
Acharya et al. | Gamma process Poisson factorization for joint modeling of network and documents | |
Liao et al. | Coronavirus pandemic analysis through tripartite graph clustering in online social networks | |
Harakawa et al. | Extracting hierarchical structure of web video groups based on sentiment-aware signed network analysis | |
Yigit et al. | Extended topology based recommendation system for unidirectional social networks | |
Choi et al. | Alleviating item-side cold-start problems in recommender systems using weak supervision | |
Ramadhan et al. | Collaborative Filtering Recommender System Based on Memory Based in Twitter Using Decision Tree Learning Classification (Case Study: Movie on Netflix) | |
Al-Qurishi et al. | A new model for classifying social media users according to their behaviors | |
Cai et al. | An extension of social network group decision-making based on trustrank and personas | |
Zaïane et al. | Mining research communities in bibliographical data | |
CN112380455A (zh) | 基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法 | |
Shrivastava et al. | K-means clustering based solution of sparsity problem in rating based movie recommendation system | |
Do et al. | Metadata-dependent infinite poisson factorization for efficiently modelling sparse and large matrices in recommendation | |
Li et al. | Collaborative filtering on streaming data with interest-drifting | |
Regi et al. | A survey on recommendation techniques in E-Commerce | |
Udayanti et al. | Sentiment Analysis Towards Courier Service: Case Study on JNE Semarang | |
Jabbar et al. | Analyzing restricted boltzmann machine neural network for building recommender systems | |
Angdresey et al. | Classification and Sentiment Analysis on Tweets of the Ministry of Health Republic of Indonesia | |
Uchida et al. | Comparative evaluation of two approaches for retweet clustering: A text-based method and graph-based method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |