CN115587263A - 基于社交网络数据的社会心理预测方法 - Google Patents
基于社交网络数据的社会心理预测方法 Download PDFInfo
- Publication number
- CN115587263A CN115587263A CN202211595455.3A CN202211595455A CN115587263A CN 115587263 A CN115587263 A CN 115587263A CN 202211595455 A CN202211595455 A CN 202211595455A CN 115587263 A CN115587263 A CN 115587263A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- social network
- psychosocial
- social
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000009193 crawling Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 5
- 238000010219 correlation analysis Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000006855 networking Effects 0.000 description 6
- 238000011835 investigation Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 230000036642 wellbeing Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 230000004630 mental health Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010029216 Nervousness Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及基于社交网络数据的社会心理预测方法,包括:利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据;根据预设的社会心理特征和用户特征之间的映射关系,从社交网络数据中提取与社会心理特征最相关的用户特征数据;用户特征数据包括个人统计学特征数据、大五人格特征数据和关联特征数据;将用户特征数据输入训练好的社会心理预测模型,输出待测用户的社会心理预测标签;社会心理预测模型为预先使用公开数据集和社交网络数据集训练得到。能够基于社交网络数据有效预测社会心理。
Description
技术领域
本发明属于机器学习与预测技术领域,涉及一种基于社交网络数据的社会心理预测方法。
背景技术
社会心理是指在一段特定的时期内弥漫在社会及其群体中的整个社会心理状态,是整个社会的情绪基调、共识和价值取向的总和。随着信息技术的飞速发展,一大批社交网络平台应运而生,给社会心理自动化分析带来了新的可能性。这些平台不仅改变了人们的沟通方式,也开启了一种全新的社交模式。一方面,随着平台服务的不断扩大,用户可以借助社交平台分享记录生活,或者就某个事件表达个人的观点和态度,给人们提供了一个允许个性化表达并释放个人情绪的空间。另一方面,社交网络相较报纸、杂志等传统媒体具有及时性更强、互动更多维和碎片趣味等优势。网络用户不仅能够在社交媒体上轻易捕捉到社会上发生的热点事件和新闻,而且可以借助社交平台真实、自发地表达或分享自己的情感、观点和社会态度,这为社会心理研究提供了大量真实、可信的潜在数据源。
虽然社会心理的研究得到了社会各界的高度重视,同时社交网络平台的发展为社会心理分析研究方法突破转变提供了客观条件,但目前在社交网络中分析社会心理仍面临很多挑战,存在着无法基于社交网络数据有效预测社会心理的技术问题。
发明内容
针对上述传统方法中存在的技术问题,本发明提出了一种基于社交网络数据的社会心理预测方法和一种基于社交网络数据的社会心理预测装置,能够基于社交网络数据有效预测社会心理。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,提供一种基于社交网络数据的社会心理预测方法,包括步骤:
利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据;
根据预设的社会心理特征和用户特征之间的映射关系,从社交网络数据中提取与社会心理特征最相关的用户特征数据;用户特征数据包括个人统计学特征数据、大五人格特征数据和关联特征数据;
将用户特征数据输入训练好的社会心理预测模型,输出待测用户的社会心理预测标签;社会心理预测模型为预先使用公开数据集和社交网络数据集训练得到。
另一方面,还提供一种基于社交网络数据的社会心理预测装置,包括:
数据爬取模块,用于利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据;
特征提取模块,用于根据预设的社会心理特征和用户特征之间的映射关系,从社交网络数据中提取与社会心理特征最相关的用户特征数据;用户特征数据包括个人统计学特征数据、大五人格特征数据和关联特征数据;
预测输出模块,用于将用户特征数据输入训练好的社会心理预测模型,输出待测用户的社会心理预测标签;社会心理预测模型为预先使用公开数据集和社交网络数据集训练得到。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述基于社交网络数据的社会心理预测方法,通过利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据,以获取待测用户在其使用的社交网络平台上产生的数据,然后根据预设的社会心理特征和用户特征之间的映射关系,从爬取的社交网络数据中提取与社会心理特征最相关的三类用户特征数据,最后将最相关的这三类用户特征数据输入训练好的社会心理预测模型进行分析预测处理,输出针对待测用户的社会心理预测标签,以大数据为基础,采用机器学习的技术手段实现基于社交网络数据有效社会心理预测,在社会科学工程的现实应用上具有重要技术价值。
附图说明
为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中基于社交网络数据的社会心理预测方法的流程示意图;
图2为一个实施例中社会心理预测模型的训练流程示意图;
图3为一个实施例中基于社交网络数据的社会心理分析框架示意图;
图4为一个实施例中基于社交网络数据的社会心理预测装置的模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。
本领域技术人员可以理解,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
社会心理通常包含心理健康状态、主观幸福感和社会心态等多方面特征。社会心理健康状态指个体或群体在社会交互过程中的心理健康水平,是否出现恐慌、焦虑、害怕或者愤怒等消极情绪。主观幸福感指人们对其生活质量所做的情感性和认知性的整体评价。社会态度表现在人们对社会环境的体验和看法,以及对社会管理体系和管理能力的信任度。
一直以来,社会心理学家不断地运用各种方法研究相互影响的方式和规律,比如收入和幸福感之间的关系。研究方法包括心理实验和反馈信息调查,心理实验一般是模拟一个可控的现实社会,反馈信息调查一般是通过大规模的心理学问卷获得数据。但这些传统的社会心理研究技术存在很多局限性,一是度量效率低,无论是心理实验还是反馈信息调查都需要大量的人力、成本和时间,难以实现自动化和规模化快速分析。二是度量准确度有限,被测人员在测试时会存在随便填写的情况,对社会的态度也大多持回避趋势。
目前在社交网络中分析社会心理仍面临不少挑战:(1)数据采集难度大。由于目前没有公开的有关社会心理的社交网络数据集,需要研究者自行采集获取。通常会采用调查问卷的方式,获取用户的社交账号和社会心理特征,然后通过爬虫方式获取用户授权使用的社交网络数据。但是在现实社会里,人们往往不愿填写调查问卷,更不愿透漏自己的社交账号和自己发表的评论等信息,这给社交网络数据的获取增加了一些难度。
(2)缺乏社会心理特征提取和度量模型。相比其他心理学特征,社会心理没有相应的心理模型,缺乏度量方式。比如人格特征有大五人格、MBTI职业性格等心理模型,通过相应的度量量表衡量心理特征。但社会心理特征往往采用用户的自我评价,这会存在用户隐藏自己的态度、只填写好的方面的问题。最后,目前也缺少从社交网络数据中提取社会心理特征的模型。
下面将结合本发明实施例图中的附图,对本发明实施方式进行详细说明。
请参阅图1,在一个实施例中,本申请实施例提供了一种基于社交网络数据的社会心理预测方法,包括如下处理步骤S12至S16:
S12,利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据;
可以理解,社交媒体平台可以是现有的各类社交网络平台,待测用户可以是某个社交网络用户,也可以某类或者其他选定数量的社交网络用户,具体可以根据实际应用场景的预测范围需要确定。Scrapy框架爬虫是使用python语言的Scrapy框架预先编写的爬虫,具体编写方式可以参照python语言的Scrapy框架本身的使用方式或者现有同类爬虫的编写方式同理理解,本说明书中不再展开赘述。
S14,根据预设的社会心理特征和用户特征之间的映射关系,从社交网络数据中提取与社会心理特征最相关的用户特征数据;用户特征数据包括个人统计学特征数据、大五人格特征数据和关联特征数据。
可以理解,预设的社会心理特征和用户特征之间的映射关系,可以利用现有调查的公开数据集预先分析设定,用于标识社会心理特征与相关联的用户特征之间的对应关系,一个社会心理特征可以对应多个最相关的用户特征。个人统计学特征数据可以是性别、年龄、职业和教育程度等表征用户个人基本的公开数据,可以直接从公开的用户信息界面上识别获得。大五人格特征数据可以是开放性、宜人性、责任心、外向性和神经质等人格相关的特征数据,可以利用现有的分类模型/工具直接提取得到。关联特征数据也称其他相关特征,可以选取为活动类信息感兴趣度、使用网络渠道获取活动类信息和突发事件渠道可信度等特征数据,可以从社交网络数据中提取得到。
S16,将用户特征数据输入训练好的社会心理预测模型,输出待测用户的社会心理预测标签;社会心理预测模型为预先使用公开数据集和社交网络数据集训练得到。
可以理解,训练好的社会心理预测模型是采用机器学习领域中现有的分类和回归算法建立初始的社会心理预测模型后,基于本领域现有的公开数据集和社交网络数据集预先训练得到的预测模型,用于对输入的用户特征数据进行分析预测后,输出相应的社会心理预测标签。社会心理预测标签可以至少包括对满意度的取值(满意/不满意)、个人幸福感(幸福/不幸福)和活动信任度(信任/中立/不信任)。
上述基于社交网络数据的社会心理预测方法,通过利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据,以获取待测用户在其使用的社交网络平台上产生的数据,然后根据预设的社会心理特征和用户特征之间的映射关系,从爬取的社交网络数据中提取与社会心理特征最相关的三类用户特征数据,最后将最相关的这三类用户特征数据输入训练好的社会心理预测模型进行分析预测处理,输出针对待测用户的社会心理预测标签,以大数据为基础,采用机器学习的技术手段实现基于社交网络数据有效社会心理预测,在社会科学工程的现实应用上具有重要技术价值。
在一个实施例中,进一步的,关于上述的步骤S12,具体可以包括如下处理:
确定待测用户所在社交网络平台上待爬取信息的统一资源定位符队列;
根据统一资源定位符队列,分别爬取每个统一资源定位符对应的社交网页内容;
分别对各社交网页内容进行解析处理,得到待测用户的社交网络数据并存入设定数据库中。
可以理解,统一资源定位符也即社交网络平台上网页的URL。解析处理可以是指在根据URL获取相应的网页内容(html或者json)后,按照现有的网页内容解析方式将网页内容解析成相应的文本数据。设定数据库是指用于存储爬取的社交网络数据的通用数据库或者专用数据库,其可以是本地数据库,也可以是云数据库。通过上述处理,可以快速完成社交网络数据的爬取与存储。
进一步的,社交网络数据包括公开的用户个人信息、发布的社交信息和互动行为信息。
可以理解,用户个人信息是指能够表征用户统计学特征的信息,发布的社交信息是指用户在社交网络平台上发布的公开文本,互动行为信息是指用户在社交网络平台上产生的社交动作,例如但不限于关注操作、点赞操作、转发操作和收藏操作等社交动作。通过爬取上述三类信息,可以确保最终预测结果符合实际统计分析结果,减少误判。
在一个实施例中,社会心理预测模型为基于公开数据集和社交网络数据集采用逻辑回归、支持向量机、XGBoost、决策树和随机森林学习算法训练得到的预测模型。
可以理解,公开数据集可以是本领域中现有且能够用于统计分析社会心理特征的各类数据集中的一个或者多个;社交网络数据集可以是采集到的用户的社交网络数据,比如文本数据和行为数据。逻辑回归、支持向量机、XGBoost、决策树和随机森林学习算法均为机器学习领域中现有的分类和回归算法,可以基于各算法本身的使用方式按照分类预测模型的现有构建方式建立社会心理预测模型,利用数据集进行预先训练得到可以直接使用的社会心理预测模型。通过采用上述学习算法建立、训练得到上述的社会心理预测模型,效率高且可靠性好。
在一个实施例中,如图2和图3所示,社会心理预测模型的训练过程,包括:
S01,从社会调查网站获取关于社会意识调查的公开数据集;
S02,对公开数据集进行数据预处理;
S03,在预处理后的公开数据集中,根据设定的社会心理分类标签提取目标社会心理特征并抽取各用户特征;
S04,利用在线数据统计分析工具对目标社会心理特征和各用户特征进行数据相关性分析,确定与目标社会心理特征最相关的用户特征类型;
S05,利用Scrapy框架爬虫从社交网络平台上爬取各用户的社交网络数据;
S06,根据用户特征类型,从社交网络数据中提取各用户的用户特征数据;
S07,基于目标社会心理特征和各用户的用户特征数据组成的训练集,采用逻辑回归、支持向量机、XGBoost、决策树和随机森林学习算法训练得到社会心理预测模型。
可以理解,以在线社交网络平台为对象,构建了基于社交网络数据的社会心理预测模型,整个设计过程可以划分为基于问卷调查数据的社会心理特征分析、基于社交网络数据的用户特征提取及社会心理预测模型构建三部分,具体框架如图3所示。首先,根据2018年网络用户社会意识调查数据,进行数据分析得到能够预测社会心理的用户特征和相应的社会心理特征标签。再通过使用scrapy爬虫框架爬取用户个人信息、发布社交数据以及社交行为数据,对这些数据进行预处理。同时基于社交网络数据中用户特征与社会心理特征之间的映射关系,设计实现用户特征提取方法,以得到与社会心理有关的用户特征。最终,设计建立基于网络社交数据的社会心理预测模型。
具体的,第一步,基于问卷调查数据的社会心理特征分析:
基于问卷调查的社会心理特征分析,也即使用问卷调查数据提取社会心理特征,分析各个用户特征和社会心理特征之间的关联关系,得到与社会心理相关的用户特征。在实验中已建立了预测模型验证使用用户特征预测社会心理的可行性。
自评问卷被作为心理测验的主要传统方法,能够较为准确地计算被测者的心理特征。为了保证实验数据的严谨性和实验结果的可验证性,本示例采用的公开数据集是来源于2018年“网络用户社会意识调查”数据集。首先对“网络用户社会意识调查”数据集进行数据预处理。在网站获取2018年“网络用户社会意识调查”数据集,数据获取后需要对数据进行预处理,包括数据清洗和数据特征处理两个部分。
首先进行数据清理,去除数据集中的无用值、重复值、缺失值和异常值等。删除用户seq、id、ip、调查问卷起始、调查问卷完成时间、承诺认真作答、对说法或观点的态度等无关的属性数据;删除喜欢的数字和水果等缺失值较多的数据属性。
其次进行数据特征的处理。选取满意度、个人幸福感和活动信任度作为社会心理分类标签,抽取的相关用户特征可以包括多个,如下表1(以20个为例)所示。
表1
将用户特征和社会心理特征进行相关性分析,根据分析结果筛选出用户特征和社会心理特征相关性较高的特征值。
可以使用现有在线数据统计分析工具SPSSAU进行数据相关性分析,以通过Pearson(皮尔生)相关性分析,最终分别得到与三个社会心理指标最相关的用户(维度)特征,如下表2所示。
在选取与社会心理特征相关的用户特征后,采用不同的分类和回归算法建立社会心理预测模型,可以通过模型准确率验证基于用户特征预测社会心理特征方法的可行性。
表2
第二步,基于社交网络数据的用户特征提取:
通过上述基于问卷调查的社会心理特征分析后,得到了与社会心理特征相关的维度,分别是性别、年龄、职业、教育程度等个人信息、人格,以及活动类信息感兴趣度、是否使用活动分析报道获取活动类信息、对活动机构和媒体发布的消息是否信任等特征,把这些特征分为三类,分别是个人统计学特征、大五人格特征和其他关联特征。具体步骤包括:
1、数据采集。使用python语言的Scrapy框架编写爬虫代码获取用户的社交网络数据,首先确定待爬信息的URL队列,获取每个URL对应的网页内容(html或者json),然后对网页内容进行解析并存入数据库中。
2、用户特征提取:(1)个人统计学特征,即性别、年龄和教育程度等,在用户信息界面可直接获取。(2)大五人格特征,可利用公开数据集,提取用户文本的TF (TermFrequency,词频)-IDF (Inverse Document Frequency,逆文本频率指数)特征、LIWC(语言查询和字数统计)心理学特征和情感特征,以及提取基于doc2vec的文本特征等,建立SVM(支持向量机)分类模型,计算用户的大五人格特征。
进一步的,(3)其他关联特征数据的提取过程,可以包括如下处理:
将社交网络数据中的特征相关数据进行分类;特征相关数据包括用户关注、点赞、转发活动微博或媒体微博数据,分类的类型包括关注数量、点赞数量、点赞文本、转发数量和转发文本;
根据关注数量确定用户对活动类信息的感兴趣程度;
根据点赞数量和转发数量确定用户是否使用活动微博或媒体微博查看活动类信息;
根据点赞文本和转发文本的所有数据计算用户对活动微博的信任度。
第三步,社会心理分析模型构建:
使用基于社交网络数据提取的用户特征和人工标注的社会心理标签组成的数据集以及公开数据集进行训练,模型算法选取逻辑回归(Logistic Regression)、支持向量机(SVM)、XGBoost、决策树和随机森林等五种机器学习算法进行训练,直至预测模型的准确率通过验收即可得到训练好的社会心理预测模型。
应该理解的是,虽然图1至图2程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1至图2的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图4,在一个实施例中,提供一种基于社交网络数据的社会心理预测装置100,包括数据爬取模块11、特征提取模块12和预测输出模块13。其中,数据爬取模块11用于利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据。特征提取模块12用于根据预设的社会心理特征和用户特征之间的映射关系,从社交网络数据中提取与社会心理特征最相关的用户特征数据;用户特征数据包括个人统计学特征数据、大五人格特征数据和关联特征数据。预测输出模块13用于将用户特征数据输入训练好的社会心理预测模型,输出待测用户的社会心理预测标签;社会心理预测模型为预先使用公开数据集和社交网络数据集训练得到。
上述基于社交网络数据的社会心理预测装置100,通过各模块的协作,利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据,以获取待测用户在其使用的社交网络平台上产生的数据,然后根据预设的社会心理特征和用户特征之间的映射关系,从爬取的社交网络数据中提取与社会心理特征最相关的三类用户特征数据,最后将最相关的这三类用户特征数据输入训练好的社会心理预测模型进行分析预测处理,输出针对待测用户的社会心理预测标签,以大数据为基础,采用机器学习的技术手段实现基于社交网络数据有效社会心理预测,在社会科学工程的现实应用上具有重要技术价值。
在一个实施例中,上述的数据爬取模块11包括定位子模块、内容子模块和解析子模块,其中,定位子模块用于确定待测用户所在社交网络平台上待爬取信息的统一资源定位符队列。内容子模块用于根据统一资源定位符队列,分别爬取每个统一资源定位符对应的社交网页内容。解析子模块用于分别对各社交网页内容进行解析处理,得到待测用户的社交网络数据并存入设定数据库中。
在一个实施例中,社交网络数据包括公开的用户个人信息、发布的社交信息和互动行为信息。
在一个实施例中,社会心理预测模型为基于公开数据集和社交网络数据集采用逻辑回归、支持向量机、XGBoost、决策树和随机森林学习算法训练得到的预测模型。
关于基于社交网络数据的社会心理预测装置100的具体限定,可以参见上文中基于社交网络数据的社会心理预测方法的相应限定,在此不再赘述。上述基于社交网络数据的社会心理预测装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型数据处理设备。
在一个实施例中,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如下处理步骤:利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据;根据预设的社会心理特征和用户特征之间的映射关系,从社交网络数据中提取与社会心理特征最相关的用户特征数据;用户特征数据包括个人统计学特征数据、大五人格特征数据和关联特征数据;将用户特征数据输入训练好的社会心理预测模型,输出待测用户的社会心理预测标签;社会心理预测模型为预先使用公开数据集和社交网络数据集训练得到。
可以理解,上述计算机设备除上述述及的存储器和处理器外,还包括其他本说明书未列出的软硬件组成部分,具体可以根据不同应用场景下的具体数据处理设备的型号确定,本说明书不再一一列出详述。
在一个实施例中,处理器执行计算机程序时还可以实现上述基于社交网络数据的社会心理预测方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于社交网络数据的社会心理预测方法,其特征在于,包括步骤:
利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据;
根据预设的社会心理特征和用户特征之间的映射关系,从所述社交网络数据中提取与所述社会心理特征最相关的用户特征数据;所述用户特征数据包括个人统计学特征数据、大五人格特征数据和关联特征数据;
将所述用户特征数据输入训练好的社会心理预测模型,输出所述待测用户的社会心理预测标签;所述社会心理预测模型为预先使用公开数据集和社交网络数据集训练得到。
2.根据权利要求1所述的基于社交网络数据的社会心理预测方法,其特征在于,利用Scrapy框架爬虫从社交网络平台上爬取待测用户的社交网络数据的步骤,包括:
确定待测用户所在社交网络平台上待爬取信息的统一资源定位符队列;
根据所述统一资源定位符队列,分别爬取每个统一资源定位符对应的社交网页内容;
分别对各所述社交网页内容进行解析处理,得到所述待测用户的所述社交网络数据并存入设定数据库中。
3.根据权利要求2所述的基于社交网络数据的社会心理预测方法,其特征在于,所述社交网络数据包括公开的用户个人信息、发布的社交信息和互动行为信息。
4.根据权利要求1所述的基于社交网络数据的社会心理预测方法,其特征在于,所述关联特征数据的提取过程,包括:
将所述社交网络数据中的特征相关数据进行分类;所述特征相关数据包括用户关注、点赞、转发活动微博或媒体微博数据,所述分类的类型包括关注数量、点赞数量、点赞文本、转发数量和转发文本;
根据关注数量确定用户对活动类信息的感兴趣程度;
根据点赞数量和转发数量确定用户是否使用活动微博或媒体微博查看活动类信息;
根据点赞文本和转发文本的所有数据计算用户对活动微博的信任度。
5.根据权利要求1所述的基于社交网络数据的社会心理预测方法,其特征在于,所述社会心理预测模型为基于公开数据集和社交网络数据集,采用逻辑回归、支持向量机、XGBoost、决策树和随机森林学习算法训练得到的预测模型。
6.根据权利要求5所述的基于社交网络数据的社会心理预测方法,其特征在于,所述社会心理预测模型的训练过程,包括:
从社会调查网站获取关于社会意识调查的所述公开数据集;
对所述公开数据集进行数据预处理;
在预处理后的所述公开数据集中,根据设定的社会心理分类标签提取目标社会心理特征并抽取各用户特征;
利用在线数据统计分析工具对所述目标社会心理特征和各用户特征进行数据相关性分析,确定与所述目标社会心理特征最相关的用户特征类型;
利用Scrapy框架爬虫从社交网络平台上爬取各用户的社交网络数据;
根据所述用户特征类型,从所述社交网络数据中提取各用户的用户特征数据;
基于所述目标社会心理特征和各用户的所述用户特征数据组成的训练集,采用逻辑回归、支持向量机、XGBoost、决策树和随机森林学习算法训练得到所述社会心理预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211595455.3A CN115587263A (zh) | 2022-12-13 | 2022-12-13 | 基于社交网络数据的社会心理预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211595455.3A CN115587263A (zh) | 2022-12-13 | 2022-12-13 | 基于社交网络数据的社会心理预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115587263A true CN115587263A (zh) | 2023-01-10 |
Family
ID=84783475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211595455.3A Pending CN115587263A (zh) | 2022-12-13 | 2022-12-13 | 基于社交网络数据的社会心理预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115587263A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902566A (zh) * | 2012-12-26 | 2014-07-02 | 中国科学院心理研究所 | 一种基于微博用户行为的人格预测方法 |
KR101524971B1 (ko) * | 2014-02-11 | 2015-06-02 | 숭실대학교산학협력단 | 개인 성향 예측 방법 및 그 장치 |
CN109409433A (zh) * | 2018-10-31 | 2019-03-01 | 北京邮电大学 | 一种社交网络用户的人格识别系统和方法 |
CN109902216A (zh) * | 2019-03-04 | 2019-06-18 | 桂林电子科技大学 | 一种基于社交网络的数据采集与分析方法 |
CN110060772A (zh) * | 2019-01-24 | 2019-07-26 | 暨南大学 | 一种基于社交网络的职业心理性格分析方法 |
-
2022
- 2022-12-13 CN CN202211595455.3A patent/CN115587263A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902566A (zh) * | 2012-12-26 | 2014-07-02 | 中国科学院心理研究所 | 一种基于微博用户行为的人格预测方法 |
KR101524971B1 (ko) * | 2014-02-11 | 2015-06-02 | 숭실대학교산학협력단 | 개인 성향 예측 방법 및 그 장치 |
CN109409433A (zh) * | 2018-10-31 | 2019-03-01 | 北京邮电大学 | 一种社交网络用户的人格识别系统和方法 |
CN110060772A (zh) * | 2019-01-24 | 2019-07-26 | 暨南大学 | 一种基于社交网络的职业心理性格分析方法 |
CN109902216A (zh) * | 2019-03-04 | 2019-06-18 | 桂林电子科技大学 | 一种基于社交网络的数据采集与分析方法 |
Non-Patent Citations (3)
Title |
---|
娜迪热等: "基于用户社交网络数据的人格倾向性分析及预测模型的建立", 《电脑知识与技术》 * |
林靖怡等: "基于社交数据挖掘的心理健康预警建模与分析", 《电子技术与软件工程》 * |
罗晶欣: "基于社交媒体的用户行为和心理研究", 《万方学位论文》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874992B (zh) | 舆情分析方法、系统、计算机设备和存储介质 | |
Hunger et al. | What's in a buzzword? A systematic review of the state of populism research in political science | |
Moreno-Marcos et al. | Sentiment analysis in MOOCs: A case study | |
Bucur | Using opinion mining techniques in tourism | |
CN111708949B (zh) | 医疗资源的推荐方法及装置、电子设备、存储介质 | |
CN109829629B (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
CN109376237B (zh) | 客户稳定性的预测方法、装置、计算机设备和存储介质 | |
CN107301199B (zh) | 一种数据标签生成方法和装置 | |
CN109543925B (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN111506723A (zh) | 问答响应方法、装置、设备及存储介质 | |
KR102105319B1 (ko) | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 | |
US9171255B2 (en) | Method, software, and system for making a decision | |
Moon et al. | Document management system using text mining for information acquisition of international construction | |
Piña-García et al. | Towards a standard sampling methodology on online social networks: collecting global trends on Twitter | |
US10706359B2 (en) | Method and system for generating predictive models for scoring and prioritizing leads | |
CN112288279A (zh) | 基于自然语言处理和线性回归的业务风险评估方法和装置 | |
CN110781380A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
Vinson et al. | Decision contamination in the wild: Sequential dependencies in online review ratings | |
CN114969528B (zh) | 基于能力评测的用户画像和学习路径推荐方法、装置及设备 | |
Cordell et al. | Disaggregating repression: Identifying physical integrity rights allegations in human rights reports | |
Eligüzel | Analyzing society anti-vaccination attitudes towards COVID-19: combining latent dirichlet allocation and fuzzy association rule mining with a fuzzy cognitive map | |
CN111859074B (zh) | 基于深度学习的网络舆情信息源影响力评估方法及系统 | |
Lilleker et al. | Content analysis and the examination of digital propaganda on social media | |
KR102476612B1 (ko) | 인공지능에 기반한 심리 맞춤 솔루션 제공 방법 및 시스템 | |
Cho et al. | Credibility evaluation and results with leader-weight in opinion mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |