CN110287485A - 一种基于主题建模的社会群体间影响力量化方法 - Google Patents
一种基于主题建模的社会群体间影响力量化方法 Download PDFInfo
- Publication number
- CN110287485A CN110287485A CN201910500180.2A CN201910500180A CN110287485A CN 110287485 A CN110287485 A CN 110287485A CN 201910500180 A CN201910500180 A CN 201910500180A CN 110287485 A CN110287485 A CN 110287485A
- Authority
- CN
- China
- Prior art keywords
- theme
- social groups
- period
- topic
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013139 quantization Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000004821 distillation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题建模的社会群体间影响力量化方法,步骤1,对每个社交群体的文本语义提取模型;步骤2,获取每条原始数据C1、...、CN的主题分布概率,选择概率值最大的主题标号作为该原始数据所属主题的编号进行标注,对标注后的原始数据数据进行结构化处理,生成社会群体对应N个数据集;步骤3,计算社会群体Group i的主题topic‑k在t+1时段所受到的其他社会群体的影响。与现有技术相比,本发明1)创新性地将统计与语义分析相结合;2)使用户对群体间意见的相互影响的判断更符合实际。
Description
技术领域
本发明涉及社交媒体舆论分析领域,特别涉及一种社会群体间的影响力量化方法。
背景技术
如今,社交群体用户数量庞大,这些用户在事件发酵过程中产生巨大的流量。探索不同社会群体的观点变化和这些群体间的互相影响对于政府机构、新闻媒体或者大型企业管理者快速了解社会群体间的互相影响并作出舆论控制策略有着重要意义。现有的影响力量化方法大多数直接使用转发量来做影响力的衡量,这种方法忽略了在社交网络中无处不在的‘水军’。因为在真实的传播过程中,受众往往从自己原有的意见、观点和兴趣出发,有选择地接触信息,他们更倾向于接触与自己态度较为一致的信息。因此考虑信息间的语义相似度来量化影响力的方法更具有实际意义。提取文本的内容有聚类和主题建模两种方式,使用聚类算法的提取结果不能反映词汇间以及不同文本间词汇的语义信息,而主题建模方法更适合提取文本的语义信息。对于包含时间信息的时序数据,提取文本的语义内容时多使用引入时间构建的主题建模来实现。
发明内容
本发明旨在提出一种基于主题建模的社会群体间影响力量化方法,将社会群体间的影响力进行量化,使影响力更直观便于分析。
本发明的一种基于主题建模的社会群体间影响力量化方法,该方法包括如下步骤:
步骤1,对每个社交群体的文本语义,使用DTM来提取模型,该模型由预处理后的将社会群体Group1、...、Group N所对应的原始数据C1、...、CN按发布时间排序的文本的值corpus和每个时段的文本数目序列值slice_time组成,经过N次DTM主题提取,得到每个社会群体的主题模型M1、...、MN;
步骤2,获取每条原始数据C1、...、CN的主题分布概率,选择概率值最大的主题标号作为该原始数据所属主题的编号进行标注,对标注后的原始数据数据进行结构化处理,生成N个社会群体对应N个数据集corpus1、...、corpusN;
步骤3,假设对于社会群体Group i的主题topic-k来说,它在t+1时段所受到的其他社会群体的影响如公式(1)所示:
公式中的每个分项如即为Group j对在t+1时刻的Group i的主题topic-k产生的影响力,使用步骤1得到的所求社会群体的主题模型和步骤2得到的结构化数据,来判断社会群体Group j的推特在t时段里与Group i的主题topic-k相符的推特,并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量,最终使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值;的量化公式如公式(2)所示:
其中,s'表示t时段里Group j的推特总数,s表示t+1时段里Group i的主题topic-k的推特总数,用表示t时段里Group j的某一条推特m的文本内容,用模型Mi分析该文本的主题分布概率来判断该文本是否与topic-k有关,如果m的语义符合topic-k,那么的值为1,反之为0;如果符合,随后计算在t+1时段里的Group i的主题topic-k的推特中转发m的数量,使用Rt+1 i(m,k)表示。
与现有技术相比,本发明所能达成的积极技术效果如下:
1)创新性地将统计与语义分析相结合;
2)使用户对群体间意见的相互影响的判断更符合实际。
附图说明
图1为本发明的一种基于主题建模的社会群体间影响力量化方法整体流程图。
具体实施方式
下面结合附图和实施例对本发明技术方案进行详细描述。
本发明的一种基于主题建模的社会群体间影响力量化方法,首先使用主题建模算法DTM对不同社会群体的推特数据分别进行文本内容的语义提取得到对应的主题模型;然后从每个主题模型中获取对应的社会群体的每条推特的主题编号,并整理出结构化数据以待处理;最终,使用每个社会群体对应的训练好的主题模型来判断其他社会群体的推特在前一个时段里与所求群体的某个主题相符的推特,并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量,使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值,按时段依次计算即可得到全时段的影响力变化,该结果对于社会群体间影响力的判断更加贴合实际,使用该结果进行舆论分析有利于真实掌握舆情。
如图1所示,为基于主题建模算法DTM的社会群体间影响力量化方法整体流程示意图,案例中使用了某个事件的全部推特数据,并分为新闻机构、政府机构和普通大众这三个社会群体。具体包括以下步骤:
步骤1,使用DTM模型来提取每个社交群体随时间变化的文本语义,该模型需要提供以按时间排序的文本corpus,和每个时段的文本数目序列slice_time;假设有Group1、...、Group N个社会群体,分别对应的原始数据C1、...、CN:首先将每个社交群体的原始数据按发布时间排序,从中抽取‘text’字段的内容(即每条推特正文内容)按顺序保存到txt文件。使用NLTK工具对这些文本进行文本清理、词干化以及去除停用词的预处理;预处理后的文本即为参数corpus的值。然后以2小时为时间片,分别计算每2小时的数据量并保存为数组,即为参数slice_time的值。经过N次DTM主题提取,得到每个社会群体的主题模型M1、...、MN;
步骤2,根据步骤1得到的不同社会群体对应的主题模型结果M1、...、MN,和步骤1排序后的原始数据C1、...、CN;使用DTM所提供的doc_topic()函数来获取每条数据的主题分布概率,选择概率值最大的主题标号作为该数据所属主题的编号。然后对标注后的数据进行结构化处理,每行数据包括‘时间’、‘推特ID’、‘源推特ID’、‘推特内容’和‘所属主题’这几个字段,N个社会群体对应N个数据集corpus1、...、corpusN;
步骤3,根据马尔科夫可能性,当前时刻的状态仅仅取决于前一个时刻的情况。因此假设对于社会群体Group i的主题topic-k来说,它在t+1时段所受到的其他社会群体的影响可以表示为(1):
公式中的每个分项如即为Group j对在t+1时刻的Group i的主题topic-k产生的影响力。我们使用步骤1得到的所求社会群体的主题模型和步骤2得到的结构化数据,来判断社会群体Group j的推特在t时段里与Group i的主题topic-k相符的推特,并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量,最终使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值。因此,该值的量化公式为(2):
其中,s'表示t时段里Group j的推特总数,s表示t+1时段里Group i的主题topic-k的推特总数,用corpusj m表示t时段里Group j的某一条推特m的文本内容,用模型Mi分析该文本的主题分布概率来判断该文本是否与topic-k有关,如果m的语义符合topic-k,那么Mi(corpusj m)的值为1,反之为0。如果符合,随后计算在t+1时段里的Group i的主题topic-k的推特中转发m的数量,使用Rt+1 i(m,k)表示。按时间段的顺序对每个群体的每个主题分组依次计算,即可得到社会群体间随时间变化的影响力值的序列。
Claims (1)
1.一种基于主题建模的社会群体间影响力量化方法,其特征在于,该方法包括如下步骤:
步骤1,对每个社交群体的文本语义提取模型,该模型由预处理后的将社会群体Group1、...、Group N所对应的原始数据C1、...、CN按发布时间排序的文本的值corpus和每个时段的文本数目序列值slice_time组成,经过N次DTM主题提取,得到每个社会群体的主题模型M1、...、MN;
步骤2,获取每条原始数据C1、...、CN的主题分布概率,选择概率值最大的主题标号作为该原始数据所属主题的编号进行标注,对标注后的原始数据数据进行结构化处理,生成N个社会群体对应N个数据集corpus1、...、corpusN;
步骤3,计算社会群体Group i的主题topic-k在t+1时段所受到的其他社会群体的影响,如公式(1)所示:
公式中的每个分项如ft j→i,即为Groupj对在t+1时刻的Groupi的主题topic-k产生的影响力,使用步骤1得到的所求社会群体的主题模型和步骤2得到的结构化数据,来判断社会群体Groupj的推特在t时段里与Groupi的主题topic-k相符的推特,并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量,最终使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值;ft j→i的量化公式如公式(2)所示:
其中,s'表示t时段里Groupj的推特总数,s表示t+1时段里Group i的主题topic-k的推特总数,用corpusj m表示t时段里Groupj的某一条推特m的文本内容,用模型Mi分析该文本的主题分布概率来判断该文本是否与topic-k有关,如果m的语义符合topic-k,那么Mi(corpusj m)的值为1,反之为0;如果符合,随后计算在t+1时段里的Group i的主题topic-k的推特中转发m的数量,使用Rt+1 i(m,k)表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910500180.2A CN110287485B (zh) | 2019-06-11 | 2019-06-11 | 一种基于主题建模的社会群体间影响力量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910500180.2A CN110287485B (zh) | 2019-06-11 | 2019-06-11 | 一种基于主题建模的社会群体间影响力量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287485A true CN110287485A (zh) | 2019-09-27 |
CN110287485B CN110287485B (zh) | 2023-08-18 |
Family
ID=68003580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910500180.2A Active CN110287485B (zh) | 2019-06-11 | 2019-06-11 | 一种基于主题建模的社会群体间影响力量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287485B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224675A (zh) * | 2015-10-13 | 2016-01-06 | 广西师范学院 | 一种顾及时空效应的微博主题提取方法 |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
CN108776844A (zh) * | 2018-04-13 | 2018-11-09 | 中国科学院信息工程研究所 | 基于上下文感知张量分解的社交网络用户行为预测方法 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
-
2019
- 2019-06-11 CN CN201910500180.2A patent/CN110287485B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224675A (zh) * | 2015-10-13 | 2016-01-06 | 广西师范学院 | 一种顾及时空效应的微博主题提取方法 |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
CN108776844A (zh) * | 2018-04-13 | 2018-11-09 | 中国科学院信息工程研究所 | 基于上下文感知张量分解的社交网络用户行为预测方法 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
Non-Patent Citations (1)
Title |
---|
YINGCAI WU等: "OpinionFlow: Visual Analysis of Opinion Diffusion on Social Media", 《IEEE》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110287485B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A long-text classification method of Chinese news based on BERT and CNN | |
CN103745000B (zh) | 一种中文微博客的热点话题检测方法 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN109766432B (zh) | 一种基于生成对抗网络的中文摘要生成方法和装置 | |
CN103605658B (zh) | 一种基于文本情感分析的搜索引擎系统 | |
CN105389354B (zh) | 面向社交媒体文本的无监督的事件抽取和分类方法 | |
CN109101479A (zh) | 一种用于中文语句的聚类方法及装置 | |
CN105912524B (zh) | 基于低秩矩阵分解的文章话题关键词提取方法和装置 | |
CN107423282A (zh) | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 | |
CN103778200B (zh) | 一种报文信息源抽取方法及其系统 | |
CN111209386A (zh) | 一种基于深度学习的个性化文本推荐方法 | |
CN108363725A (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN103793501A (zh) | 基于社交网络的主题社团发现方法 | |
CN102411611A (zh) | 一种面向即时交互文本的事件识别与跟踪方法 | |
CN111639183A (zh) | 一种基于深度学习算法的金融同业舆情分析方法及系统 | |
CN103869999B (zh) | 对输入法所产生的候选项进行排序的方法及装置 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN113032557A (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
CN105955953A (zh) | 一种分词系统 | |
Wang et al. | Improved danmaku emotion analysis and its application based on bi-LSTM model | |
Zhang et al. | Combining explicit entity graph with implicit text information for news recommendation | |
Ali et al. | Named entity recognition using deep learning: A review | |
CN105354280A (zh) | 一种基于社会媒体平台的社会事件的跟踪和演变方法 | |
CN107992549A (zh) | 动态短文本流聚类检索方法 | |
WO2013072258A1 (en) | Unsupervised detection and categorization of word clusters in text data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |