CN111191099B - 一种基于社交媒体的用户活动类型识别方法 - Google Patents

一种基于社交媒体的用户活动类型识别方法 Download PDF

Info

Publication number
CN111191099B
CN111191099B CN201911392834.0A CN201911392834A CN111191099B CN 111191099 B CN111191099 B CN 111191099B CN 201911392834 A CN201911392834 A CN 201911392834A CN 111191099 B CN111191099 B CN 111191099B
Authority
CN
China
Prior art keywords
graph
user
nodes
users
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911392834.0A
Other languages
English (en)
Other versions
CN111191099A (zh
Inventor
李润佳
姚宏
程亚凡
王晨威
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201911392834.0A priority Critical patent/CN111191099B/zh
Publication of CN111191099A publication Critical patent/CN111191099A/zh
Application granted granted Critical
Publication of CN111191099B publication Critical patent/CN111191099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于社交媒体的用户活动类型识别方法,通常情况下一张图由结点和边构成。首先将所有的用户评论和构成评论的词看做图中的多个结点,并定义不同词与词之间,词与评论之间的边的权重和关系,形成最基本的图;然后将发表评论的用户看做另一类结点,根据用户与评论之间的发表关系,定义用户和评论间边的权重,向已经形成的图中添加用户结点;然后将发表评论的用户的其他好友看做新一类的结点,定义用户和他们对应的好友结点间的关系权重,形成一张包含评论的文本信息和结构信息的大图。最后利用图卷积网络对形成的大图进行结点分类,得到用户活动分类的准确性。

Description

一种基于社交媒体的用户活动类型识别方法
技术领域
本发明属于评论数据情感分类技术领域,具体涉及一种基于社交媒体的用户活动类型识别方法。
背景技术
用户活动类型识别在多个领域都是一个十分重要的研究问题。不仅有重大的学术研究意义,同时有广泛的商业应用价值。在智能交通方面可以建立一种大范围,全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。同时在广告推荐方面可以给多种用户提供客观,专业的知识帮助与商品过滤信息,以及为商家提供消费者的选择意图。如果对一个用户在一段时间内的多个活动状态进行分析,就可以推测出用户在这段时间内的活动状态的转变和活动轨迹的变化。在大量的用户位置和行为轨迹数据的背后,隐含了丰富的时间约束信息和用户行为规律信息。通过对这些信息进行深入的挖掘和利用,不仅可以发现个体用户的日常行为规律和群体用户的共性行为特性,甚至还能掌握他们的社交关系。所以,如何挖掘用户背后关联的活动类型成为我们如今亟待研究的课题。
传统的用户活动识别方法一般要严重的依赖硬件设备的识别精度。比如利用传感器、无线射频识别技术或者无线网络。这些方法存在以下几个问题:1、数据难以采集和更新。依靠硬件的用户活动识别方法需要苛刻的数据采集环境和昂贵的采集设备。采集一套完整的数据需要消耗比较大的人力和物力,不利于实时的更新。2、只依靠硬件无法识别用户其他类型的活动。用户是一个复杂的社会群体,不仅会产生简单的动作的变化,还会参与一系列其他的人文活动和社交活动的。这些活动不仅受单个个体的主导,同时还受到其他个体的影响,无法通过硬件设备检测出来。3、传统的依靠社交媒体进行活动分类的方法只考虑了评论的文本信息特征,而忽略了评论间的结构信息,这会导致最终的活动分类准确度不高。
发明内容
本发明要解决的技术问题在于,针对上述目前传统的基于社交媒体的活动类型识别方法中只单独的考虑评论的文本信息、而忽略评论间的结构信息和用户的影响导致分类准确率不高的的技术问题,提供一种基于社交媒体的用户活动类型识别方法解决上述技术缺陷。
一种基于社交媒体的用户活动类型识别方法,包括:
S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;
S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;
S3、对评论数据进行数据预处理,滤除其中的无用信息;
S4、利用语言模型,将文本类型的评论数据、用户ID、构成评论的词看做结点,并对所述结点之间的关系进行建模,提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;
S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;
S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;
S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。
进一步的,在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多个ID对表示。
进一步的,在步骤S3中,数据预处理用于去除评论数据中的标点符号、不规范字符、停用词和表情符号。
进一步的,在步骤S4中,关系图的生成和建模过程是将所有评论数据和用户构成一张大图,包括文本类型的评论数据、用户ID、构成评论的词形成的结点和由结点形成的边。
进一步的,在步骤S5中,根据步骤5之后生成的关系图,利用图神经网络进行处理,即对图中的评论结点进行数值初始化,初始化后,将图结构的数据转化为邻接矩阵,关系图数据由图转为数值形式。
进一步的,在步骤S6中,利用图神经网络对步骤5生成的邻接矩阵进行图卷积操作,得到特征图,然后对特征图进行池化操作后,连接到一个全连接层,在经过softmax函数计算分类概率后,训练得到一个图分类模型。
与现有技术相比,本发明优势在于:传统的方法仅考虑文本的序列特征,本发明额外考虑了文本的结构特征,且加入了用户对活动类型的影响,提出了一种将评论的文本信息和结构信息相结合、并考虑用户的影响,最终利用图卷积网络提高用户活动类型识别准确率的方法。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一种基于社交媒体的用户活动类型识别方法流程图;
图2是本发明的实施例定义(1)(2)生成的图;
图3是本发明的实施例定义(3)生成的图;
图4是本发明的实施例定义(4)生成的图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种基于社交媒体的用户活动类型识别方法,如图1所示,包括:
S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;
S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;
S3、对评论数据进行数据预处理,滤除其中的无用信息;
S4、利用语言模型(例如tfidf),将文本类型的评论数据(整句或整段的评论)、用户ID、构成评论的词(所有评论中出现的词)看做结点,并对所述结点之间的关系进行建模(例如PMI+tfidf算法),提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;
S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;
S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;
S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。
在步骤S1中,用户评论共23701条,将这些数据分为训练集和测试集。其中训练集有16592条,测试集有7109条。14个不同的活动分别为“Eat food”,“Beauty&Spa”,“Entertainment”“Travel”,“Shopping”,“Services”,“Sports”,“Health”,“Car”,“Nightlife”,“Keep pets”“Education”,“Religious activity”,“Mass media”。
在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多个ID对表示。
在步骤S3中,数据预处理用于去除评论数据中的标点符号、不规范字符、停用词和表情符号等无用信息。
在步骤S4中,关系图的生成和建模过程采用如下方法实现:将所有评论数据和用户构成一张大图,包括结点和边。具体来讲,将所有的评论数据和组成评论的词以及用户ID看做图中的结点,然后对不同词与词之间、词与评论之间,用户与评论之间,用户与用户间的边进行不同的定义,形成基本的图。具体的定义过程如下:
(1)定义构成评论的词与词之间的边。词与词结点之间的边的权重定义为PMI值:
Figure BDA0002345472360000041
Figure BDA0002345472360000042
Figure BDA0002345472360000043
其中i和j代表两个不同的词,#W(i)表示一个滑动窗口中,单词i出现的个数,#W(i,j)代表滑动窗口中,单词i和j共同出现的个数。#W代表滑动窗口的总的个数。
(2)词结点与评论结点间的边的权重定义为TF-IDF值:
TFIDF=TF*IDF
Figure BDA0002345472360000044
Figure BDA0002345472360000045
由定义(1)(2)所生成的图如图2所示。
(3)用户节点和他对应的发表的评论节点间边的权重定义如下:
Figure BDA0002345472360000046
其中,n是所有用户结点的个数,m是每个不同用户发表的评论个数。Si(j)代表用户i发表的评论j中,单词的个数。(一个用户可能发表多条不同的评论)加入用户结点后,形成的新的图如图3所示。
(4)在定义(3)生成的图中,根据不同用户是否为好友关系,添加用户的好友对应的用户结点,构成新的图。用户和好友间的边的权重定义为一个常数1,具体生成的图如图4所示。
在步骤S5中,根据步骤5之后生成的关系图,利用图神经网络进行处理,即对图中的评论结点进行数值初始化,初始化后将图结构的数据转化为邻接矩阵,关系图数据由图转为数值形式。
在步骤S6中,利用图神经网络对步骤5生成的邻接矩阵进行图卷积操作,得到特征图,然后对特征图进行池化操作后,连接到一个全连接层,在经过softmax函数计算分类概率后,训练得到一个图分类模型。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (5)

1.一种基于社交媒体的用户活动类型识别方法,其特征在于,包括:
S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;
S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;
S3、对评论数据进行数据预处理,滤除其中的无用信息;
S4、利用语言模型,将文本类型的评论数据、用户ID、构成评论的词看做结点,并对所述结点之间的关系进行建模,提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;
在步骤S4中,关系图的生成和建模过程是将所有评论数据和用户构成一张大图,包括文本类型的评论数据、用户ID、构成评论的词形成的结点和由结点形成的边;
在步骤S4中,关系图的生成和建模过程采用如下方法实现:将所有评论数据和用户构成一张大图,包括结点和边;具体来讲,将所有的评论数据和组成评论的词以及用户ID看做图中的结点,然后对不同词与词之间、词与评论之间,用户与评论之间,用户与用户间的边进行不同的定义,形成基本的图;具体的定义过程如下:
(1)定义构成评论的词与词之间的边,词与词结点之间的边的权重定义为PMI值:
Figure FDA0004051903000000011
Figure FDA0004051903000000012
Figure FDA0004051903000000013
其中i和j代表两个不同的词,#W(i)表示一个滑动窗口中,单词i出现的个数,#W(i,j)代表滑动窗口中,单词i和j共同出现的个数,#W代表滑动窗口的总的个数;
(2)词结点与评论结点间的边的权重定义为TF-IDF值:
TFIDF=TF*IDF
Figure FDA0004051903000000014
Figure FDA0004051903000000021
(3)用户节点和他对应的发表的评论节点间边的权重定义如下:
Figure FDA0004051903000000022
其中,n是所有用户结点的个数,m是每个不同用户发表的评论个数,Si(j)代表用户i发表的评论j中,单词的个数;
(4)在定义(3)生成的图中,根据不同用户是否为好友关系,添加用户的好友对应的用户结点,构成新的图,用户和好友间的边的权重定义为一个常数1;
S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;
S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;
S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。
2.根据权利要求1所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多个ID对表示。
3.根据权利要求1所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S3中,数据预处理用于去除评论数据中的标点符号、不规范字符、停用词和表情符号。
4.根据权利要求1所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S5中,根据步骤5之后生成的关系图,利用图神经网络进行处理,即对图中的评论结点进行数值初始化,初始化后,将图结构的数据转化为邻接矩阵,关系图数据由图转为数值形式。
5.根据权利要求4所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S6中,利用图神经网络对步骤5生成的邻接矩阵进行图卷积操作,得到特征图,然后对特征图进行池化操作后,连接到一个全连接层,在经过softmax函数计算分类概率后,训练得到一个图分类模型。
CN201911392834.0A 2019-12-30 2019-12-30 一种基于社交媒体的用户活动类型识别方法 Active CN111191099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911392834.0A CN111191099B (zh) 2019-12-30 2019-12-30 一种基于社交媒体的用户活动类型识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911392834.0A CN111191099B (zh) 2019-12-30 2019-12-30 一种基于社交媒体的用户活动类型识别方法

Publications (2)

Publication Number Publication Date
CN111191099A CN111191099A (zh) 2020-05-22
CN111191099B true CN111191099B (zh) 2023-04-07

Family

ID=70707804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911392834.0A Active CN111191099B (zh) 2019-12-30 2019-12-30 一种基于社交媒体的用户活动类型识别方法

Country Status (1)

Country Link
CN (1) CN111191099B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858929A (zh) * 2020-06-22 2020-10-30 网宿科技股份有限公司 一种基于图神经网络的网络爬虫检测方法、系统及装置
CN111861546A (zh) * 2020-06-28 2020-10-30 浪潮(北京)电子信息产业有限公司 一种评论质量的判断方法、装置、设备及存储介质
CN112414401B (zh) * 2020-11-06 2023-02-28 北京理工大学 基于图神经网络的无人机协同定位系统及方法
CN113743103A (zh) * 2021-08-20 2021-12-03 南京星云数字技术有限公司 评论用户身份识别方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845644A (zh) * 2015-12-10 2017-06-13 Tcl集团股份有限公司 一种通过相互关系学习用户及移动应用的联系的异构网络
CN109948665A (zh) * 2019-02-28 2019-06-28 中国地质大学(武汉) 基于长短时记忆神经网络的人体活动类型分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306144A1 (en) * 2009-06-02 2010-12-02 Scholz Martin B System and method for classifying information
US9195748B2 (en) * 2012-02-21 2015-11-24 Spotright, Inc. Systems and methods for identifying and analyzing internet users
US20190073410A1 (en) * 2017-09-05 2019-03-07 Estia, Inc. Text-based network data analysis and graph clustering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845644A (zh) * 2015-12-10 2017-06-13 Tcl集团股份有限公司 一种通过相互关系学习用户及移动应用的联系的异构网络
CN109948665A (zh) * 2019-02-28 2019-06-28 中国地质大学(武汉) 基于长短时记忆神经网络的人体活动类型分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尹丹 ; 高宏 ; .异构信息网挖掘:概念、技术与未来.智能计算机与应用.2016,第6卷(第06期),正文2-4页. *
杜治娟.社会媒体大数据分析研究综述.计算机科学与探索.2017,第第11卷卷(第第11卷期),正文1-6页. *

Also Published As

Publication number Publication date
CN111191099A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
Zhang et al. Scientific evolutionary pathways: Identifying and visualizing relationships for scientific topics
Bhatia Data mining and data warehousing: principles and practical techniques
Fayazi et al. Uncovering crowdsourced manipulation of online reviews
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
Jiang et al. A multi-objective PSO approach of mining association rules for affective design based on online customer reviews
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及系统
CN106156286A (zh) 面向专业文献知识实体的类型抽取系统及方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN103970873A (zh) 一种音乐推荐方法和系统
Huang et al. A multi-source integration framework for user occupation inference in social media systems
CN108509517B (zh) 一种面向实时新闻内容的流式话题演化跟踪方法
CN112765480A (zh) 一种信息推送方法、装置及计算机可读存储介质
Zhou et al. Corporate communication network and stock price movements: insights from data mining
CN113422761A (zh) 基于对抗学习的恶意社交用户检测方法
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
Wang Analysis of students’ behavior in english online education based on data mining
Han et al. Link Prediction in Microblog Network Using Supervised Learning with Multiple Features.
Song et al. Recommending hashtags to forthcoming tweets in microblogging
CN108363759A (zh) 基于结构化数据的主题树生成方法及系统及智能对话方法
CN103761246A (zh) 一种基于链接网络的用户领域识别方法及其装置
Wang et al. An improved clustering method for detection system of public security events based on genetic algorithm and semisupervised learning
CN112163069A (zh) 一种基于图神经网络节点特征传播优化的文本分类方法
Jin et al. Textual content prediction via fuzzy attention neural network model without predefined knowledge
CN106910013A (zh) 基于动态表达学习的不实信息检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant