CN110442865A - 一种基于社交媒体的社会群体认知指数构建方法 - Google Patents
一种基于社交媒体的社会群体认知指数构建方法 Download PDFInfo
- Publication number
- CN110442865A CN110442865A CN201910685348.1A CN201910685348A CN110442865A CN 110442865 A CN110442865 A CN 110442865A CN 201910685348 A CN201910685348 A CN 201910685348A CN 110442865 A CN110442865 A CN 110442865A
- Authority
- CN
- China
- Prior art keywords
- social
- cognitive
- indicate
- social groups
- groups
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 101
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 230000019771 cognition Effects 0.000 claims abstract description 44
- 230000004899 motility Effects 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000012417 linear regression Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 11
- 238000011160 research Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 208000011597 CGF1 Diseases 0.000 claims description 3
- 101500010645 Schistocerca gregaria Protease inhibitor SGPI-2 Proteins 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004039 social cognition Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000013480 data collection Methods 0.000 abstract description 3
- 230000000052 comparative effect Effects 0.000 abstract 1
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000005211 surface analysis Methods 0.000 description 2
- 239000004956 Amodel Substances 0.000 description 1
- 240000004272 Eragrostis cilianensis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于社交媒体语义分析技术领域,具体涉及一种基于社交媒体的社会群体认知指数构建方法;本发明提出了基于社交媒体的社会群体认知指数的构建方法,通过对于非社会群体认知特征主题与社会群体认知特征的差异分析,在不同地域和不同时间内,分别获取基于社交媒体的社会群体认知表达性指数和基于社交媒体的社会群体认知能动性指数,得到可以进行不同时间、地域比较的社会群体认知指数;消除了个体主观因素对数据收集的影响,有助于更为精确地进行社会群体认知状况评估。本发明在多层级水平上构建社会认知指数,有助于根据不同地域特征进行当地居民的社会群体认知数据纵向采集,实现区域社会群体认知的多维度比较评估。
Description
技术领域
本发明属于社交媒体语义分析技术领域,具体涉及一种基于社交媒体的社会群体认知指数构建方法。
背景技术
近年来移动互联网技术与平台的迅速发展,为社会成员表达自己的思想、观点与心态提供了巨大的空间。伴随经济高速发展所引发的社会矛盾和社会问题影响着个体心理和社会心态的变化,对于不同社会群体的认知判断成为在心理层面预警社会矛盾发生的重要影响机制。
具体到我国的实际情况,我国正处于城镇化、工业化、信息化所推动的经济转型关键期,民众的社会群体认知已经成为值得关注的重要社会心理指标,作为社会心态的重要组成部分,采用科学的方法构建社会群体认知指数来解决社会矛盾和社会问题的需求更为迫切。
通常,对于社会群体认知的评估是采用相应的社会心态调查题项,针对个体对于目标群体的反应进行收集、分析、综合、判断,具体可以包括“深度访谈”、“问卷调查”等多种技术。
“深度访谈”是一种质化研究方法,需要访谈员根据访谈对象的回答进行编码转换后得出结论。“问卷调查”中所用到的测量问卷是用来量化观察中所得印象的一种测量工具,一般由若干题项组成,每一个题项都可以看作是对一系列认知特征的抽象描述。实施时需要个体根据自身情况与项目内容的契合程度填写作答,然后评定员根据编码手册提供的评分方法汇总评分从而得出结论。
“深度访谈”、“问卷调查”技术广泛应用的同时,面临着共同的问题。收集到的数据准确度会受到被试主观因素的影响,即被试的作答会不可避免地受到社会称许性、个体认知能力的影响。同时问卷调查中因漏答错答等造成的缺失值问题也会影响结果的统计分析。
“深度访谈”、“问卷调查”技术收集到的数据受到时间和规模的影响。每次访谈和问卷调查在被试规模上受到实际实施过程中时间、空间的限制,样本数量非常有限,更重要的是,较难开展不同地域不同时间下的大规模人群的追踪研究。
发明内容
本发明的发明目的在于克服现有技术存在的缺点,提出设计一种基于社交媒体的社会群体认知指数构建方法,能够在更广的范围上进行大规模的个体数据采集,实现大规模的社会群体认知评估,更好的保证了社会群体认知评估的信效度。
本发明涉及的基于社交媒体的社会群体认知指数构建方法,包括以下步骤:
(1)目标群体选取:根据9个社会阶层分类确定11个目标群体特征词,包括领导、经理、老板、专家、教授、医生、农民、服务员、工人、白领、公务员,获取社交媒体账号所发布的推文中包含目标群体特征词的推文;
(2)数据预处理:对社交媒体账号所发布的推文做分词处理,去除无用符号,得到账号特征词;删除无文字内容推文;采用词袋模型来表征账号,词袋模型是基于自然语言处理和信息检索下被简化的一种表达模型,此模型无需考虑文法以及词的顺序;
(3)特征词选取:根据社会认知基本维度中文形容词词库的两个基本维度:能动性维度和表达性维度的特征词进行选取;按照社会认知基本维度中文形容词词库,其中表达性维度的特征词包括友好、善良、可靠、热情、和蔼、真诚,能动性维度的特征词包括有能力、自信、上进、高效、聪明、努力;
(4)特征词扩展:寻找社会认知两个基本维度特征词的近义词,对已有特征词进行扩展;利用哈工大信息检索研究室同义词词林扩展版HIT IR-Lab Tongyici Cilin(extended)进行特征词的扩展,HIT IR-Lab Tongyici Cilin(extended)按照树状的层次结构把同义词分成了大、中、小三类;
(5)数据库建立:选取目标时间区间的社交媒体推文构建数据库,包括社会群体认知两个基本维度所涉及的特征词,建立目标数据库,命名SC数据库(social cognition);随机抽样相等数量的非社会群体认知基本维度的特征词其中,表达主题包括事件和经历,生活方式,运动、社区参与和实践活动,建立控制变量数据库,命名CV数据库(controlvariable);
(6)社会群体认知模型构建:采用机器学习技术中的K近邻算法分类识别两种基本维度的特征词,基于SC和CV数据库作为二分类别框架建构模型,采用多层级线性回归模型,建立SC数据库;基于CV数据库的社会群体认知模型构建:采用K近邻算法分类识别两种基本维度的特征词,基于SC和CV数据库作为二分类别框架建构模型,采用多层级线性回归模型,建立CV数据库;
(7)社会群体认知指数构建:基于社会群体认知模型,确定社交媒体账号使用者社会群体认知表达与非社会群体认知表达在其推文中的频次;构建社会群体认知指数(Social Group Cognition Index,SGCI),社会群体认知指数的计算是基于社交媒体账号社会群体认知与非社会群体认知之间的差异,包括社会群体认知表达性指数(SGCI_communion)和社会群体认知能动性指数(SGCI_agency)。
本发明的有益效果是:与现有技术相比,本发明构建了一种基于社交媒体的社会群体认知模型,通过分析社交媒体用户的推文内容,提取对于目标群体的表达性特征和能动性特征的表达频次,来分析对于目标群体的实际评价趋向,并得到关于目标群体的认知结果;本发明提出了基于社交媒体的社会群体认知指数的构建方法,通过对于非社会群体认知特征主题与社会群体认知特征的差异分析,在不同地域和不同时间内,分别获取基于社交媒体的社会群体认知表达性指数和基于社交媒体的社会群体认知能动性指数,得到可以进行不同时间、地域比较的社会群体认知指数;克服了当前常用的社会认知状态评估的“深度访谈”、“问卷测验”技术的在数据收集方面的不足,可以更方便、准确、客观地收集社会群体认知评估所需的个体数据,而且凭借社交媒体用户量迅猛增长的优势,可以在更广的范围上进行大规模的个体数据采集,实现大规模的社会群体认知评估,更好的保证了社会群体认知评估的信效度;本发明消除了个体主观因素对数据收集的影响,有助于更为精确地进行社会群体认知状况评估;在多层级水平上构建社会认知指数,有助于根据不同地域特征进行当地居民的社会群体认知数据纵向采集,实现区域社会群体认知的多维度比较评估。
附图说明
图1为本发明工艺流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面通过具体实施例并结合附图对本发明作进一步说明。
实施例1:
本实施例涉及的基于社交媒体的社会群体认知指数构建方法,包括以下步骤:
(1)目标群体选取:根据9个社会阶层分类确定11个目标群体特征词,包括领导、经理、老板、专家、教授、医生、农民、服务员、工人、白领、公务员,获取社交媒体账号所发布的推文中包含目标群体特征词的推文;
(2)数据预处理:对社交媒体账号所发布的推文做分词处理,去除无用符号,得到账号特征词;删除无文字内容推文;采用词袋模型来表征账号,词袋模型是基于自然语言处理和信息检索下被简化的一种表达模型,此模型无需考虑文法以及词的顺序;
(3)特征词选取:根据社会认知基本维度中文形容词词库的两个基本维度:能动性维度和表达性维度的特征词进行选取;按照社会认知基本维度中文形容词词库,其中表达性维度的特征词包括友好、善良、可靠、热情、和蔼、真诚,能动性维度的特征词包括有能力、自信、上进、高效、聪明、努力;
(4)特征词扩展:寻找社会认知两个基本维度特征词的近义词,对已有特征词进行扩展;利用哈工大信息检索研究室同义词词林扩展版HIT IR-Lab Tongyici Cilin(extended)进行特征词的扩展,HIT IR-Lab Tongyici Cilin(extended)按照树状的层次结构把同义词分成了大、中、小三类;
(5)数据库建立:选取目标时间区间的社交媒体推文构建数据库,包括社会群体认知两个基本维度所涉及的特征词,建立目标数据库,命名SC数据库(social cognition);随机抽样相等数量的非社会群体认知基本维度的特征词其中,表达主题包括事件和经历,生活方式,运动、社区参与和实践活动,建立控制变量数据库,命名CV数据库(controlvariable);
(6)社会群体认知模型构建:采用机器学习技术中的K近邻算法分类识别两种基本维度的特征词,基于SC和CV数据库作为二分类别框架建构模型,采用多层εtij级线性回归模型,其中基于SC数据库建立模型如下:
Level 1:Ytij=π0ij+π1ij(Time)tij+εtij
Level 2:π0ij=β00j+β01j(Communion)1ij+β02j(Agency)2ij+γ0ij
π1ij=β10j+β11j(Communion)1ij+β12j(Agency)2ij+γ1ij
Level 3:β00j=γ000+γ001Z1j+ν00j
β01j=γ010+γ011Z1j+ν01j
β02j=γ020+γ021Z1j+ν02j
β10j=γ100+γ101Z1j+ν10j
β11j=γ110+γ111Z1j+ν11j
β12j=γ120+γ121Z1j+ν12j
其中,(Time)tij表示时间,(Communion)1ij和(Agency)2ij分别表示表达性维度和能动性维度的特征变量,εtij、γ0ij、γ1ij、ν00j、ν01j、ν02j、ν10j、ν11j、ν12j均表示残差,γ010、γ020、γ100、γ110、γ120、β00j、β10j均表示模型的截距,Ytij表示社交媒体账号i在时间t上对社会群体j的认知评价,π0ij表示社交媒体账号i对社会群体j的初始认知评价,π1ij表示社交媒体账号i对于社会群体j的表达性认知评价和能动性认知评价与时间变量Time之间的变化率,β01j表示社会群体j表达性认知评价的平均初始状态,Z1j表示所在地区Z的社会群体j的类别,作为预测变量,γ000表示两种评价均为0时的初始状态总平均数,γ001表示两种评价对社会认知初始状况的影响,γ011表示表达性评价对社会认知初始状况的影响,γ021表示能动性评价对社会认知初始状况的影响,γ101表示两种评价对社会认知初始状况影响的变化情况,β11j表示社会群体j的平均表达性认知评价,β02j表示社会群体j能动性认知评价的平均初始状态,β12j表示社会群体j的平均能动性认知评价,γ111表示对于社交媒体账号i所在地区Z对于表达性社会认知评价的差异,γ121表示对于社交媒体账号i所在地区Z对于能动性社会认知评价的差异。
基于CV数据库的社会群体认知模型构建:采用K近邻算法分类识别两种基本维度的特征词,基于SC和CV数据库作为二分类别框架建构模型,采用多层级线性回归模型,其中基于CV数据库建立模型如下:
Level 1:Ntij=M0ij+M1ij(Time)tij+εtij
Level 2:M0ij=β00j+γ0ij
M1ij=β10j+γ1ij
Level 3:β00j=γ000+γ001Z1j+ν00j
β10j=γ100+γ101Z1j+ν10j
其中,εtij、γ0ij、γ1ij、ν00j、ν10j均表示残差,Ntij表示社交媒体账号i在时间t上对社会群体j的非认知评价,M0ij表示社交媒体账号i对社会群体j的初始非认知评价,M1ij表示社交媒体账号i对于社会群体j的表达性认知评价和能动性认知评价与时间变量Time之间的变化率,Z1j表示所在地区Z的社会群体j的类别,作为预测变量,β00j表示社会群体j非认知评价的平均初始状态,γ000表示没有非认知评价时的初始状态总平均数,β10j表示社会群体j的平均非认知评价,γ101表示对于社交媒体账号i所在地区Z对于非社会认知评价的差异,γ001表示对于社交媒体账号i所在地区Z对于初始非社会认知评价的影响,γ100表示非社会认知评价差异的初始值。
(7)社会群体认知指数构建:基于社会群体认知模型,确定社交媒体账号使用者社会群体认知表达与非社会群体认知表达在其推文中的频次;社会群体认知指数(SocialGroup Cognition Index,SGCI)的计算是基于社交媒体账号社会群体认知与非社会群体认知之间的差异,包括社会群体认知表达性指数(SGCI_communion)和社会群体认知能动性指数(SGCI_agency),计算公式为:
SGCI_communion(t,Z)=(Σβ00j-Σβ10j)/fσn–(Σβ01j-Σβ11j)/fσc
SGCI_agency(t,Z)=(Σβ00j-Σβ10j)/fσn–(Σβ02j-Σβ12j)/fσa
其中,Σβ00j表示社交媒体账号i所在地区Z时间t上所提取到的非社会群体认知特征词的频次,Σβ01j表示社交媒体账号所在地区Z时间t上所提取到的社会群体认知表达性特征词的频次,σc(对应着σn)社会群体认知表达性特征词频次(对应着非社会群体认知特征词频次)的标准差,Σβ11j/f(对应着Σβ10j/f)社会群体认知表达性特征词频次(对应着非社会群体认知特征词频次)的均值。
Σβ00j表示社交媒体账号所在地区Z时间t上所提取到的非社会群体认知特征词的频次,Σβ02j表示社交媒体账号所在地区Z时间t上所提取到的社会群体认知能动性特征词的频次,σa(对应着σn)社会群体认知能动性特征词频次(对应着非社会群体认知特征词频次)的标准差,Σβ12j/f(对应着Σβ10j/f)社会群体认知能动性特征词频次(对应着非社会群体认知特征词频次)的均值。
根据中国社会科学院《当代中国社会阶层研究报告》按新标准把中国社会划分为10个社会阶层,分别是:国家与社会管理者阶层、经理人员阶层、私营企业主阶层、专业技术人员阶层、办事人员阶层、个体工商户阶层、商业服务人员阶层、产业工人阶层、农业劳动者阶层和城乡无业失业半失业者阶层,基于社交媒体使用过程中的大众熟知群体和代表性群体的共同认知,本实施例的目标群体选取前9个社会阶层并分别确定相应目标群体特征词。
本实施例步骤(2)中所述的词袋模型是一种文本检索识别的建模方法,其做法是统计各个目标群体特征词在词典中出现的频率,然后利用频率直方图统计各个词在某条推文中出现的频率信息,从而表征不同文本。例如对于两条推文分别是”非常善良的老师”和“非常自信的老师”,构建相应的词典Dictionary={1:"非常",2:"善良",3:"自信",4:"的",5:"老师"},然后对词频进行统计,两条推文分别用特征向量表示。
本实施例所述的步骤(3)中能动性和表达性特质这两个基本维度分别包括6个特征词,来源于刻板印象内容模型(Fiske et al.,2002)和社会认知基本维度中文形容词词库(韩梦霏,Ybarra,毕重增,2015),即以下两篇论文:
Fiske,S.T.,Cuddy,A.J.C.,Glick,P.,&Xu,J.(2002).Amodel of(often mixed)stereotype content:Competence and warmth respectively follow from perceivedstatus and competition.Journal ofPersonality and Social Psychology;
韩梦霏,Ybarra,毕重增.(2015).社会认知基本维度中文形容词词库的建立.西南大学学报(自然科学版)。
本实施例步骤(4)中所述的哈工大信息检索研究室同义词词林扩展版,按照树状的层次结构把所有收录的词条组织到一起,把同义词分成大、中、小三类,大类有12个,中类有97个,小类有1400个。这些词根据词义的远近和相关性进一步分成了若干个段落,每个段落中的词语进一步分成了若干个行,同一行的词语要么词义相同,要么词义有很强的相关性。哈工大信息检索研究室同义词词林扩展版提供了三层编码,即大类用大写英文字母表示,中类用小写英文字母表示,小类用二位十进制整数表示。例如:“Ae 07农民牧民渔民”,“Ae 07”是编码,“农民牧民渔民”是该类的标题。标题是由一个或者多个第四层的“段首(即每个段的第一个词)”组成。根据标题词可以知道小类有分成多少个第四级类。
本实施例通过对于非社会群体认知特征主题与社会群体认知特征的差异分析,在不同地域和不同时间内,分别获取基于社交媒体的社会群体认知表达性指数和基于社交媒体的社会群体认知能动性指数,得到可以进行不同时间、地域比较的社会群体认知指数,分析对于目标群体的实际评价趋向,并得到关于目标群体的认知结果。在运用社会群体认知指数结果时,能够采用横贯面和纵贯面两个层面予以分析:横贯面分析需结合不同区域的个体/社会指标予以比较分析,例如个体指标中的当地个人平均收入水平、家庭平均收入水平、住房状况等,社会指标中的平均就业水平、教育水平、社会治安状况、物价水平、基础设施建设、环境质量等,比较分析不同社会区域个体的社会群体认知差异。纵贯面分析需要选定观测年度为基准年度,分析时间变化中的不同区域社会群体认知的变化态势,能够探索不同社会群体的认知在社会总体发展基础上的变化方向,从而进一步作出相应的预期判断。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式的产品形态和式样,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。
Claims (4)
1.一种基于社交媒体的社会群体认知指数构建方法,其特征在于:包括以下步骤:
(1)目标群体选取:根据9个社会阶层分类确定11个目标群体特征词,包括领导、经理、老板、专家、教授、医生、农民、服务员、工人、白领、公务员,获取社交媒体账号所发布的推文中包含目标群体特征词的推文;
(2)数据预处理:对社交媒体账号所发布的推文做分词处理,去除无用符号,得到账号特征词;删除无文字内容推文;采用词袋模型来表征账号,词袋模型是基于自然语言处理和信息检索下被简化的一种表达模型,此模型无需考虑文法以及词的顺序;
(3)特征词选取:根据社会认知基本维度中文形容词词库的两个基本维度:能动性维度和表达性维度的特征词进行选取;按照社会认知基本维度中文形容词词库,其中表达性维度的特征词包括友好、善良、可靠、热情、和蔼、真诚,能动性维度的特征词包括有能力、自信、上进、高效、聪明、努力;
(4)特征词扩展:寻找社会认知两个基本维度特征词的近义词,对已有特征词进行扩展;利用哈工大信息检索研究室同义词词林扩展版HIT IR-Lab Tongyici Cilin(extended)进行特征词的扩展,HIT IR-Lab Tongyici Cilin(extended)按照树状的层次结构把同义词分成了大、中、小三类;
(5)数据库建立:选取目标时间区间的社交媒体推文构建数据库,包括社会群体认知两个基本维度所涉及的特征词,建立目标数据库,命名SC数据库(social cognition);随机抽样相等数量的非社会群体认知基本维度的特征词其中,表达主题包括事件和经历,生活方式,运动、社区参与和实践活动,建立控制变量数据库,命名CV数据库(control variable);
(6)社会群体认知模型构建:采用机器学习技术中的K近邻算法分类识别两种基本维度的特征词,基于SC和CV数据库作为二分类别框架建构模型,采用多层级线性回归模型,建立SC数据库模型;基于CV数据库的社会群体认知模型构建:采用K近邻算法分类识别两种基本维度的特征词,基于SC和CV数据库作为二分类别框架建构模型,采用多层级线性回归模型,建立CV数据库模型;
(7)社会群体认知指数构建:基于社会群体认知模型,确定社交媒体账号使用者社会群体认知表达与非社会群体认知表达在其推文中的频次;构建社会群体认知指数(SocialGroup Cognition Index,SGCI),社会群体认知指数的计算是基于社交媒体账号社会群体认知与非社会群体认知之间的差异,包括社会群体认知表达性指数(SGCI_communion)和社会群体认知能动性指数(SGCI_agency)。
2.根据权利要求1所述的基于社交媒体的社会群体认知指数构建方法,其特征在于:所述的基于SC数据库的社会群体认知模型如下:
Level1:Ytij=π0ij+π1ij(Time)tij+εtij
Level2:π0ij=β00j+β01j(Communion)1ij+β02j(Agency)2ij+γ0ij
π1ij=β10j+β11j(Communion)1ij+β12j(Agency)2ij+γ1ij
Level3:β00j=γ000+γ001Z1j+ν00j
β01j=γ010+γ011Z1j+ν01j
β02j=γ020+γ021Z1j+ν02j
β10j=γ100+γ101Z1j+ν10j
β11j=γ110+γ111Z1j+ν11j
β12j=γ120+γ121Z1j+ν12j
其中,(Time)tij表示时间,(Communion)1ij和(Agency)2ij分别表示表达性维度和能动性维度的特征变量,εtij、γ0ij、γ1ij、ν00j、ν01j、ν02j、ν10j、ν11j、ν12j均表示残差,γ010、γ020、γ100、γ110、γ120、β00j、β10j均表示模型的截距,Ytij表示社交媒体账号i在时间t上对社会群体j的认知评价,π0ij表示社交媒体账号i对社会群体j的初始认知评价,π1ij表示社交媒体账号i对于社会群体j的表达性认知评价和能动性认知评价与时间变量Time之间的变化率,β01j表示社会群体j表达性认知评价的平均初始状态,Z1j表示所在地区Z的社会群体j的类别,作为预测变量,γ000表示两种评价均为0时的初始状态总平均数,γ001表示两种评价对社会认知初始状况的影响,γ011表示表达性评价对社会认知初始状况的影响,γ021表示能动性评价对社会认知初始状况的影响,γ101表示两种评价对社会认知初始状况影响的变化情况,β11j表示社会群体j的平均表达性认知评价,β02j表示社会群体j能动性认知评价的平均初始状态,β12j表示社会群体j的平均能动性认知评价,γ111表示对于社交媒体账号i所在地区Z对于表达性社会认知评价的差异,γ121表示对于社交媒体账号i所在地区Z对于能动性社会认知评价的差异。
3.根据权利要求1所述的基于社交媒体的社会群体认知指数构建方法,其特征在于:所述的基于CV数据库的社会群体认知模型如下:
Level1:Ntij=M0ij+M1ij(Time)tij+εtij
Level2:M0ij=β00j+γ0ij
M1ij=β10j+γ1ij
Level3:β00j=γ000+γ001Z1j+ν00j
β10j=γ100+γ101Z1j+ν10j
其中,εtij、γ0ij、γ1ij、ν00j、ν10j均表示残差,Ntij表示社交媒体账号i在时间t上对社会群体j的非认知评价,M0ij表示社交媒体账号i对社会群体j的初始非认知评价,M1ij表示社交媒体账号i对于社会群体j的表达性认知评价和能动性认知评价与时间变量Time之间的变化率,Z1j表示所在地区Z的社会群体j的类别,作为预测变量,β00j表示社会群体j非认知评价的平均初始状态,γ000表示没有非认知评价时的初始状态总平均数,β10j表示社会群体j的平均非认知评价,γ101表示对于社交媒体账号i所在地区Z对于非社会认知评价的差异,γ001表示对于社交媒体账号i所在地区Z对于初始非社会认知评价的影响,γ100表示非社会认知评价差异的初始值。
4.根据权利要求1所述的基于社交媒体的社会群体认知指数构建方法,其特征在于:所述的社会群体认知表达性指数和社会群体认知能动性指数的计算公式为:
SGCI_communion(t,Z)=(Σβ00j-Σβ10j)/fσn–(Σβ01j-Σβ11j)/fσc
SGCI_agency(t,Z)=(Σβ00j-Σβ10j)/fσn–(Σβ02j-Σβ12j)/fσa
其中,Σβ00j表示社交媒体账号i所在地区Z时间t上所提取到的非社会群体认知特征词的频次,Σβ01j表示社交媒体账号所在地区Z时间t上所提取到的社会群体认知表达性特征词的频次,σc(对应着σn)社会群体认知表达性特征词频次(对应着非社会群体认知特征词频次)的标准差,Σβ11j/f(对应着Σβ10j/f)社会群体认知表达性特征词频次(对应着非社会群体认知特征词频次)的均值;
Σβ00j表示社交媒体账号所在地区Z时间t上所提取到的非社会群体认知特征词的频次,Σβ02j表示社交媒体账号所在地区Z时间t上所提取到的社会群体认知能动性特征词的频次,σa(对应着σn)社会群体认知能动性特征词频次(对应着非社会群体认知特征词频次)的标准差,Σβ12j/f(对应着Σβ10j/f)社会群体认知能动性特征词频次(对应着非社会群体认知特征词频次)的均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910685348.1A CN110442865B (zh) | 2019-07-27 | 2019-07-27 | 一种基于社交媒体的社会群体认知指数构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910685348.1A CN110442865B (zh) | 2019-07-27 | 2019-07-27 | 一种基于社交媒体的社会群体认知指数构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442865A true CN110442865A (zh) | 2019-11-12 |
CN110442865B CN110442865B (zh) | 2020-12-11 |
Family
ID=68431812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910685348.1A Active CN110442865B (zh) | 2019-07-27 | 2019-07-27 | 一种基于社交媒体的社会群体认知指数构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442865B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104995650A (zh) * | 2011-12-27 | 2015-10-21 | 汤姆森路透社全球资源公司 | 用于使用源于社交媒体的数据和情绪分析来生成复合索引的方法及系统 |
CN105956197A (zh) * | 2016-06-15 | 2016-09-21 | 杭州量知数据科技有限公司 | 基于社交媒体图表示模型的社会风险事件抽取方法 |
US20160283562A1 (en) * | 2015-03-25 | 2016-09-29 | International Business Machines Corporation | Community policing via multi-platform integration |
US20170091632A1 (en) * | 2015-09-29 | 2017-03-30 | Cognitive Scale, Inc. | Cognitive Learning Lifecycle |
CN109543084A (zh) * | 2018-11-09 | 2019-03-29 | 西安交通大学 | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 |
CN109840644A (zh) * | 2017-11-24 | 2019-06-04 | 南京大学 | 一种问答社区中的感知信息质量度量方法 |
-
2019
- 2019-07-27 CN CN201910685348.1A patent/CN110442865B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104995650A (zh) * | 2011-12-27 | 2015-10-21 | 汤姆森路透社全球资源公司 | 用于使用源于社交媒体的数据和情绪分析来生成复合索引的方法及系统 |
US20160283562A1 (en) * | 2015-03-25 | 2016-09-29 | International Business Machines Corporation | Community policing via multi-platform integration |
US20170091632A1 (en) * | 2015-09-29 | 2017-03-30 | Cognitive Scale, Inc. | Cognitive Learning Lifecycle |
CN105956197A (zh) * | 2016-06-15 | 2016-09-21 | 杭州量知数据科技有限公司 | 基于社交媒体图表示模型的社会风险事件抽取方法 |
CN109840644A (zh) * | 2017-11-24 | 2019-06-04 | 南京大学 | 一种问答社区中的感知信息质量度量方法 |
CN109543084A (zh) * | 2018-11-09 | 2019-03-29 | 西安交通大学 | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 |
Non-Patent Citations (1)
Title |
---|
范莹滢: "浅析社交媒体环境下农民工群体的环境认知模式", 《新闻研究导刊》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110442865B (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Eagly et al. | Feminism and psychology: Critiques of methods and epistemology. | |
Foti et al. | Effects of leadership labels and prototypes on perceptions of political leaders. | |
Killworth et al. | Measuring patterns of acquaintanceship [and comments and reply] | |
CN105469208A (zh) | 基于模糊综合评估法的员工培训测评系统 | |
CN110197332A (zh) | 一种社会治安综合治理评价方法 | |
Keshavarz et al. | Factors affecting topic selection for theses and dissertations in library and information science: A national scale study | |
CN109243231A (zh) | 一种智能生成组织竞赛系统 | |
Milard et al. | Citations in scientific texts: do social relations matter? | |
Bhattacharyya et al. | Core attributes of pro-environmental managers and dynamics of environmental management | |
Kogovšek et al. | The quality of measurement of personal support subnetworks | |
Deng et al. | Academic capitalization and public relations communication in higher education: a diachronic genre analysis of university annual reports in Hong Kong | |
CN110442865A (zh) | 一种基于社交媒体的社会群体认知指数构建方法 | |
Burt et al. | A research agenda for survey network data | |
Kahn | The organization of attitudes toward the Negro as a function of education. | |
Strong Jr | Interests of Negroes and whites | |
Hansen et al. | Evidence of concurrent validity of SII scores for Asian American college students | |
Upadhayaya et al. | Relationship between Personality Traits and Academic achievement of school students | |
Reig-Mullor et al. | Measuring quality of life in Europe: A new fuzzy multicriteria approach | |
Bernardes de Araújo et al. | ANALYSIS OF THE EMPLOYESS SOCIALIZATION PROCESS OF A BRAZILIAN FEDERAL UNIVERSITY. | |
Shen et al. | Community Detection in a Web Discussion Forum During Social Unrest Events | |
CN110222262A (zh) | 一种利用新闻评论行为的网络用户人格自动识别方法 | |
Tan et al. | FILIPINA‐AUSTRALIAN MARRIAGES: FURTHER PERSPECTIVES ON SPOUSAL VIOLENCE | |
Marder et al. | The Role of Precision in Spatial Narratives: Using a Modified Discourse Quality Index to Measure the Quality of Deliberative Spatial Data | |
Becatti et al. | Collaboration and followership: a stochastic model for activities in bipartite social networks | |
Kidd | Tertiary course choice: interests as predictors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |