CN111191099A - 一种基于社交媒体的用户活动类型识别方法 - Google Patents
一种基于社交媒体的用户活动类型识别方法 Download PDFInfo
- Publication number
- CN111191099A CN111191099A CN201911392834.0A CN201911392834A CN111191099A CN 111191099 A CN111191099 A CN 111191099A CN 201911392834 A CN201911392834 A CN 201911392834A CN 111191099 A CN111191099 A CN 111191099A
- Authority
- CN
- China
- Prior art keywords
- graph
- user
- nodes
- comments
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于社交媒体的用户活动类型识别方法,通常情况下一张图由结点和边构成。首先将所有的用户评论和构成评论的词看做图中的多个结点,并定义不同词与词之间,词与评论之间的边的权重和关系,形成最基本的图;然后将发表评论的用户看做另一类结点,根据用户与评论之间的发表关系,定义用户和评论间边的权重,向已经形成的图中添加用户结点;然后将发表评论的用户的其他好友看做新一类的结点,定义用户和他们对应的好友结点间的关系权重,形成一张包含评论的文本信息和结构信息的大图。最后利用图卷积网络对形成的大图进行结点分类,得到用户活动分类的准确性。
Description
技术领域
本发明属于评论数据情感分类技术领域,具体涉及一种基于社交媒体的用户活动类型识别方法。
背景技术
用户活动类型识别在多个领域都是一个十分重要的研究问题。不仅有重大的学术研究意义,同时有广泛的商业应用价值。在智能交通方面可以建立一种大范围,全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。同时在广告推荐方面可以给多种用户提供客观,专业的知识帮助与商品过滤信息,以及为商家提供消费者的选择意图。如果对一个用户在一段时间内的多个活动状态进行分析,就可以推测出用户在这段时间内的活动状态的转变和活动轨迹的变化。在大量的用户位置和行为轨迹数据的背后,隐含了丰富的时间约束信息和用户行为规律信息。通过对这些信息进行深入的挖掘和利用,不仅可以发现个体用户的日常行为规律和群体用户的共性行为特性,甚至还能掌握他们的社交关系。所以,如何挖掘用户背后关联的活动类型成为我们如今亟待研究的课题。
传统的用户活动识别方法一般要严重的依赖硬件设备的识别精度。比如利用传感器、无线射频识别技术或者无线网络。这些方法存在以下几个问题:1、数据难以采集和更新。依靠硬件的用户活动识别方法需要苛刻的数据采集环境和昂贵的采集设备。采集一套完整的数据需要消耗比较大的人力和物力,不利于实时的更新。2、只依靠硬件无法识别用户其他类型的活动。用户是一个复杂的社会群体,不仅会产生简单的动作的变化,还会参与一系列其他的人文活动和社交活动的。这些活动不仅受单个个体的主导,同时还受到其他个体的影响,无法通过硬件设备检测出来。3、传统的依靠社交媒体进行活动分类的方法只考虑了评论的文本信息特征,而忽略了评论间的结构信息,这会导致最终的活动分类准确度不高。
发明内容
本发明要解决的技术问题在于,针对上述目前传统的基于社交媒体的活动类型识别方法中只单独的考虑评论的文本信息、而忽略评论间的结构信息和用户的影响导致分类准确率不高的的技术问题,提供一种基于社交媒体的用户活动类型识别方法解决上述技术缺陷。
一种基于社交媒体的用户活动类型识别方法,包括:
S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;
S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;
S3、对评论数据进行数据预处理,滤除其中的无用信息;
S4、利用语言模型,将文本类型的评论数据、用户ID、构成评论的词看做结点,并对所述结点之间的关系进行建模,提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;
S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;
S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;
S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。
进一步的,在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多个ID对表示。
进一步的,在步骤S3中,数据预处理用于去除评论数据中的标点符号、不规范字符、停用词和表情符号。
进一步的,在步骤S4中,关系图的生成和建模过程是将所有评论数据和用户构成一张大图,包括文本类型的评论数据、用户ID、构成评论的词形成的结点和由结点形成的边。
进一步的,在步骤S5中,根据步骤5之后生成的关系图,利用图神经网络进行处理,即对图中的评论结点进行数值初始化,初始化后,将图结构的数据转化为邻接矩阵,关系图数据由图转为数值形式。
进一步的,在步骤S6中,利用图神经网络对步骤5生成的邻接矩阵进行图卷积操作,得到特征图,然后对特征图进行池化操作后,连接到一个全连接层,在经过softmax函数计算分类概率后,训练得到一个图分类模型。
与现有技术相比,本发明优势在于:传统的方法仅考虑文本的序列特征,本发明额外考虑了文本的结构特征,且加入了用户对活动类型的影响,提出了一种将评论的文本信息和结构信息相结合、并考虑用户的影响,最终利用图卷积网络提高用户活动类型识别准确率的方法。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一种基于社交媒体的用户活动类型识别方法流程图;
图2是本发明的实施例定义(1)(2)生成的图;
图3是本发明的实施例定义(3)生成的图;
图4是本发明的实施例定义(4)生成的图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种基于社交媒体的用户活动类型识别方法,如图1所示,包括:
S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;
S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;
S3、对评论数据进行数据预处理,滤除其中的无用信息;
S4、利用语言模型(例如tfidf),将文本类型的评论数据(整句或整段的评论)、用户ID、构成评论的词(所有评论中出现的词)看做结点,并对所述结点之间的关系进行建模(例如PMI+tfidf算法),提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;
S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;
S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;
S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。
在步骤S1中,用户评论共23701条,将这些数据分为训练集和测试集。其中训练集有16592条,测试集有7109条。14个不同的活动分别为“Eat food”,“Beauty&Spa”,“Entertainment”“Travel”,“Shopping”,“Services”,“Sports”,“Health”,“Car”,“Nightlife”,“Keep pets”“Education”,“Religious activity”,“Mass media”。
在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多个ID对表示。
在步骤S3中,数据预处理用于去除评论数据中的标点符号、不规范字符、停用词和表情符号等无用信息。
在步骤S4中,关系图的生成和建模过程采用如下方法实现:将所有评论数据和用户构成一张大图,包括结点和边。具体来讲,将所有的评论数据和组成评论的词以及用户ID看做图中的结点,然后对不同词与词之间、词与评论之间,用户与评论之间,用户与用户间的边进行不同的定义,形成基本的图。具体的定义过程如下:
(1)定义构成评论的词与词之间的边。词与词结点之间的边的权重定义为PMI值:
其中i和j代表两个不同的词,#W(i)表示一个滑动窗口中,单词i出现的个数,#W(i,j)代表滑动窗口中,单词i和j共同出现的个数。#W代表滑动窗口的总的个数。
(2)词结点与评论结点间的边的权重定义为TF-IDF值:
TFIDF=TF*IDF
由定义(1)(2)所生成的图如图2所示。
(3)用户节点和他对应的发表的评论节点间边的权重定义如下:
其中,n是所有用户结点的个数,m是每个不同用户发表的评论个数。Si(j)代表用户i发表的评论j中,单词的个数。(一个用户可能发表多条不同的评论)加入用户结点后,形成的新的图如图3所示。
(4)在定义(3)生成的图中,根据不同用户是否为好友关系,添加用户的好友对应的用户结点,构成新的图。用户和好友间的边的权重定义为一个常数1,具体生成的图如图4所示。
在步骤S5中,根据步骤5之后生成的关系图,利用图神经网络进行处理,即对图中的评论结点进行数值初始化,初始化后将图结构的数据转化为邻接矩阵,关系图数据由图转为数值形式。
在步骤S6中,利用图神经网络对步骤5生成的邻接矩阵进行图卷积操作,得到特征图,然后对特征图进行池化操作后,连接到一个全连接层,在经过softmax函数计算分类概率后,训练得到一个图分类模型。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (6)
1.一种基于社交媒体的用户活动类型识别方法,其特征在于,包括:
S1、在Yelp网站上爬取代表不同活动类型的评论数据,对爬取的每条评论数据添加用户活动类型的类别标签;
S2、记录每个用户的ID信息以及每个用户之间的好友关系信息,好友关系信息用于表征是否为好友;
S3、对评论数据进行数据预处理,滤除其中的无用信息;
S4、利用语言模型,将文本类型的评论数据、用户ID、构成评论的词看做结点,并对所述结点之间的关系进行建模,提取评论数据结点之间的结构特征和信息交互,得到一张包含结点和边的关系图;
S5、利用图神经网络对S4得到的关系图进行结点的数值初始化;
S6、经过S5初始化完成后,将S4中的关系图作为图神经网络的输入,训练后得到每个结点的向量表示以及学习到的参数矩阵,该参数矩阵即为训练完成的图分类模型;
S7、利用训练完成的S6所得的图分类模型,对待分类数据进行活动类型识别分类。
2.根据权利要求1所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S2中,用户的信息用一个唯一的ID表示,用户之间的好友关系信息用多个ID对表示。
3.根据权利要求1所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S3中,数据预处理用于去除评论数据中的标点符号、不规范字符、停用词和表情符号。
4.根据权利要求1所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S4中,关系图的生成和建模过程是将所有评论数据和用户构成一张大图,包括文本类型的评论数据、用户ID、构成评论的词形成的结点和由结点形成的边。
5.根据权利要求1所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S5中,根据步骤5之后生成的关系图,利用图神经网络进行处理,即对图中的评论结点进行数值初始化,初始化后,将图结构的数据转化为邻接矩阵,关系图数据由图转为数值形式。
6.根据权利要求5所述的一种基于社交媒体的用户活动类型识别方法,其特征在于,在步骤S6中,利用图神经网络对步骤5生成的邻接矩阵进行图卷积操作,得到特征图,然后对特征图进行池化操作后,连接到一个全连接层,在经过softmax函数计算分类概率后,训练得到一个图分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911392834.0A CN111191099B (zh) | 2019-12-30 | 2019-12-30 | 一种基于社交媒体的用户活动类型识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911392834.0A CN111191099B (zh) | 2019-12-30 | 2019-12-30 | 一种基于社交媒体的用户活动类型识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191099A true CN111191099A (zh) | 2020-05-22 |
CN111191099B CN111191099B (zh) | 2023-04-07 |
Family
ID=70707804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911392834.0A Active CN111191099B (zh) | 2019-12-30 | 2019-12-30 | 一种基于社交媒体的用户活动类型识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191099B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858929A (zh) * | 2020-06-22 | 2020-10-30 | 网宿科技股份有限公司 | 一种基于图神经网络的网络爬虫检测方法、系统及装置 |
CN111861546A (zh) * | 2020-06-28 | 2020-10-30 | 浪潮(北京)电子信息产业有限公司 | 一种评论质量的判断方法、装置、设备及存储介质 |
CN112414401A (zh) * | 2020-11-06 | 2021-02-26 | 北京理工大学 | 基于图神经网络的无人机协同定位系统及方法 |
CN113743103A (zh) * | 2021-08-20 | 2021-12-03 | 南京星云数字技术有限公司 | 评论用户身份识别方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100306144A1 (en) * | 2009-06-02 | 2010-12-02 | Scholz Martin B | System and method for classifying information |
US20130218865A1 (en) * | 2012-02-21 | 2013-08-22 | Spotright, Inc. | Systems and methods for identifying and analyzing internet users |
CN106845644A (zh) * | 2015-12-10 | 2017-06-13 | Tcl集团股份有限公司 | 一种通过相互关系学习用户及移动应用的联系的异构网络 |
US20190073410A1 (en) * | 2017-09-05 | 2019-03-07 | Estia, Inc. | Text-based network data analysis and graph clustering |
CN109948665A (zh) * | 2019-02-28 | 2019-06-28 | 中国地质大学(武汉) | 基于长短时记忆神经网络的人体活动类型分类方法及系统 |
-
2019
- 2019-12-30 CN CN201911392834.0A patent/CN111191099B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100306144A1 (en) * | 2009-06-02 | 2010-12-02 | Scholz Martin B | System and method for classifying information |
US20130218865A1 (en) * | 2012-02-21 | 2013-08-22 | Spotright, Inc. | Systems and methods for identifying and analyzing internet users |
CN106845644A (zh) * | 2015-12-10 | 2017-06-13 | Tcl集团股份有限公司 | 一种通过相互关系学习用户及移动应用的联系的异构网络 |
US20190073410A1 (en) * | 2017-09-05 | 2019-03-07 | Estia, Inc. | Text-based network data analysis and graph clustering |
CN109948665A (zh) * | 2019-02-28 | 2019-06-28 | 中国地质大学(武汉) | 基于长短时记忆神经网络的人体活动类型分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
尹丹;高宏;: "异构信息网挖掘:概念、技术与未来" * |
杜治娟: "社会媒体大数据分析研究综述" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858929A (zh) * | 2020-06-22 | 2020-10-30 | 网宿科技股份有限公司 | 一种基于图神经网络的网络爬虫检测方法、系统及装置 |
WO2021258480A1 (zh) * | 2020-06-22 | 2021-12-30 | 网宿科技股份有限公司 | 一种基于图神经网络的网络爬虫检测方法、系统及装置 |
CN111861546A (zh) * | 2020-06-28 | 2020-10-30 | 浪潮(北京)电子信息产业有限公司 | 一种评论质量的判断方法、装置、设备及存储介质 |
CN112414401A (zh) * | 2020-11-06 | 2021-02-26 | 北京理工大学 | 基于图神经网络的无人机协同定位系统及方法 |
CN112414401B (zh) * | 2020-11-06 | 2023-02-28 | 北京理工大学 | 基于图神经网络的无人机协同定位系统及方法 |
CN113743103A (zh) * | 2021-08-20 | 2021-12-03 | 南京星云数字技术有限公司 | 评论用户身份识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111191099B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191099B (zh) | 一种基于社交媒体的用户活动类型识别方法 | |
Zhang et al. | Scientific evolutionary pathways: Identifying and visualizing relationships for scientific topics | |
CN106528693B (zh) | 面向个性化学习的教育资源推荐方法及系统 | |
Fayazi et al. | Uncovering crowdsourced manipulation of online reviews | |
CN103812872B (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及系统 | |
CN112199608A (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN112765480B (zh) | 一种信息推送方法、装置及计算机可读存储介质 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
Huang et al. | A multi-source integration framework for user occupation inference in social media systems | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
Geng et al. | The business model of intelligent manufacturing with Internet of Things and machine learning | |
Gerhana et al. | Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period | |
CN107368521A (zh) | 一种基于大数据和深度学习的知识推介方法及系统 | |
Yang | Clothing design style recommendation using decision tree algorithm combined with deep learning | |
Duan et al. | Research on the service mode of the university library based on data mining | |
CN108363759A (zh) | 基于结构化数据的主题树生成方法及系统及智能对话方法 | |
CN103761246A (zh) | 一种基于链接网络的用户领域识别方法及其装置 | |
Yang | Research on strategies of promoting mental health of higher vocational college students based on data mining | |
Cao | Design and optimization of a decision support system for sports training based on data mining technology | |
Jiang et al. | Open product design for social manufacturing | |
CN112163069A (zh) | 一种基于图神经网络节点特征传播优化的文本分类方法 | |
CN116805010A (zh) | 面向装备制造的多数据链集成与融合知识图谱构建方法 | |
Ramadiani et al. | Evaluation of student academic performance using e-learning with the association rules method and the importance of performance analysis | |
Sun et al. | Urban region function mining service based on social media text analysis | |
CN109948665B (zh) | 基于长短时记忆神经网络的人体活动类型分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |