CN116861063B - 一种发掘社媒热搜商业价值度的方法 - Google Patents
一种发掘社媒热搜商业价值度的方法 Download PDFInfo
- Publication number
- CN116861063B CN116861063B CN202310668714.9A CN202310668714A CN116861063B CN 116861063 B CN116861063 B CN 116861063B CN 202310668714 A CN202310668714 A CN 202310668714A CN 116861063 B CN116861063 B CN 116861063B
- Authority
- CN
- China
- Prior art keywords
- search
- hot
- heat
- rare
- hot search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008859 change Effects 0.000 claims abstract description 45
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 238000012300 Sequence Analysis Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 67
- 238000011156 evaluation Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 34
- 238000012706 support-vector machine Methods 0.000 claims description 31
- 238000013145 classification model Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 22
- 230000008451 emotion Effects 0.000 claims description 19
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 15
- 238000013210 evaluation model Methods 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 7
- 230000009193 crawling Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012731 temporal analysis Methods 0.000 claims description 4
- 238000000700 time series analysis Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 235000019633 pungent taste Nutrition 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 8
- 230000002860 competitive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 235000015220 hamburgers Nutrition 0.000 description 3
- 235000013372 meat Nutrition 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 206010041591 Spinal osteoarthritis Diseases 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 2
- 235000015123 black coffee Nutrition 0.000 description 2
- 208000036319 cervical spondylosis Diseases 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 235000009569 green tea Nutrition 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 208000005801 spondylosis Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000013353 coffee beverage Nutrition 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 235000005686 eating Nutrition 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种发掘社媒热搜商业价值度的方法,包括:通过大数据采集工具、社交媒体采集优化工具、热度分析工具,搜集与目标分析相关的热搜数据;根据社交媒体平台的历史数据,获取热搜内容的更新周期和热度持续时间的平均值和方差;根据热搜类型、将热搜内容进行聚类,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容;根据时间序列分析方法,预测一般热搜内容与稀有热搜内容的热度持续时间;通过对稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道,判断稀有热搜的真实性;判断真实热搜内容的可信度,剔除属于虚假热搜的内容;根据一般热搜内容与稀有热搜内容的关注度和关注群体,预测不同群体的商业机会。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种发掘社媒热搜商业价值度的方法。
背景技术
随着社交媒体的普及以及信息传播的加速,热搜已成为了人们获取信息、了解热点、表达声音的主要途径之一。然而,热搜内容的真实性和商业价值却常常难以确定,尤其是对于那些稀有的热搜主题,更是需要进行深入的分析和评估。由于稀有热搜内容的出现频率较低,其背后可能涉及的事件、人物、产品都具有较强的新奇性和话题性,因此也更容易被人为炒作,从而误导用户或企业进行不必要的行为。为了避免这种风险,需要对热搜内容进行严格的验证和可信度评估。同时,对于那些具有商业价值的热搜内容,企业可以借此了解市场趋势和用户需求,制定相应的营销策略和商业决策,从而提高市场竞争力和商业价值。因此,对于稀有热搜内容的分析与评估,成为了企业进行市场研究和商业决策的重要手段。
发明内容
本发明提供了一种发掘社媒热搜商业价值度的方法,主要包括:
通过大数据采集工具、社交媒体采集优化工具、热度分析工具,搜集与目标分析相关的热搜数据,所述通过大数据采集工具、社交媒体采集优化工具、热度分析工具,搜集与目标分析相关的热搜数据,具体包括:利用搜索量、搜索热度、用户评价,对热搜关键词的重要性进行综合评估,根据社媒热搜内容包括社会热点,新闻事件、娱乐八卦、时事热议,训练分类模型判断热搜商业价值类型;根据社交媒体平台的历史数据,获取热搜内容的更新周期和热度持续时间的平均值和方差;根据热搜类型、将热搜内容进行聚类,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容;根据时间序列分析方法,预测一般热搜内容与稀有热搜内容的热度持续时间,具体包括:基于ARIMA时间序列模型建立稀有热搜热度持续时间预测模型;判断稀有热搜是否具有商业价值,确定一般热搜和稀有热搜的商业机会点,并根据商业价值点确定市场营销策略,具体包括:基于决策树算法,构建稀有热搜商业价值判断模型;通过对稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道,判断稀有热搜的真实性,所述通过对稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道,判断稀有热搜的真实性,具体包括:基于支持向量机算法,建立稀有热搜真实性评估模型,采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型;判断真实热搜内容的可信度,剔除属于虚假热搜的内容;根据一般热搜内容与稀有热搜内容的关注度和关注群体,预测不同群体的商业机会。
进一步可选地,所述通过大数据采集工具、社交媒体采集优化工具、热度分析工具,搜集与目标分析相关的热搜数据包括:
采用大数据采集工具,通过API接口和爬虫工具,获取热搜数据的搜索量、点击量、转发量、阅读量、评论量、点赞量;获取热搜数据的来源,根据热搜数据的地域分布,确定热点话题在不同地区的关注度和讨论度;获取热搜数据中用户属性,确定目标用户的特点和偏好;确定热搜数据的热度指数,并进行趋势分析,获得热点话题的发展趋势和变化;通过对热搜数据的搜集和分析,获得公众对企业或个人的态度和观点;通过竞品热搜数据的获取和分析,获得竞品的市场占有率;包括:利用搜索量、搜索热度、用户评价,对热搜关键词的重要性进行综合评估;根据社媒热搜内容包括社会热点,新闻事件、娱乐八卦、时事热议,训练分类模型判断热搜商业价值类型;
所述利用搜索量、搜索热度、用户评价,对热搜关键词的重要性进行综合评估,具体包括:
通过爬虫工具获取搜索引擎数据,获取热搜关键词的搜索量。通过搜索引擎,获取热搜关键词的搜索热度,所述搜索热度是指用户在搜索引擎中搜索某个关键词的频率。获取用户对于热搜关键词的评价,使用词袋模型将文本数据转化为一个特征矩阵;使用支持向量机算法来训练模型,将特征矩阵作为输入数据,将用户评价值作为输出标签,使用分类模型进行训练。训练好支持向量机模型后,使用该模型来进行预测,将新的用户评价输入到模型中,得到该用户评价的用户评价值。确定自变量为搜索量、搜索热度、用户评价值,因变量为热搜关键词的重要性综合得分;使用多元线性回归模型,将自变量和因变量进行拟合,获得热搜关键词的重要性综合得分。当热搜关键词的重要性综合得分大于预设阈值时,则该热搜关键词判定为重要。
所述根据社媒热搜内容包括社会热点,新闻事件、娱乐八卦、时事热议,训练分类模型判断热搜商业价值类型,具体包括:
从各大社交媒体平台、新闻网站渠道收集热搜内容,包括社会热点、新闻事件、娱乐八卦、时事热议。对收集到的热搜内容进行数据清洗、去重、去噪处理。通过TF-IDF,提取热搜内容的关键词、通过LDA主题模型提取热搜主题、通过情感分析算法分析文本中的情感倾向。提取热搜内容的关键词、主题、情感特征。根据热搜内容的商业价值类型,将数据进行标注,分为商业机会、市场趋势、竞争动态三类。采用支持向量分类算法,训练分类模型,将提取的特征作为输入,将标注的数据作为输出。将新收集到的热搜内容输入到训练好的分类模型中,预测其商业价值类型。
进一步可选地,所述根据社交媒体平台的历史数据,获取热搜内容的更新周期和热度持续时间的平均值和方差包括:
根据社交媒体平台的历史数据,采用数据挖掘的方法获取热搜内容的热度值,并通过时间戳确定发布时间;利用时间戳计算出热搜内容的持续时间和热度变化率;使用支持向量机算法进行特征提取,将热搜内容的热度变化率作为特征,以热搜内容的热度峰值作为标签,进行二分类模型训练;使用测试数据集进行模型预测,通过统计分析热搜内容的热度峰值和持续时间,得到其平均值和方差;根据热搜内容的热度变化率,判断热搜内容的热度峰值;通过分析热搜内容的更新周期,得到其平均值和方差;根据热搜内容的发布时间和持续时间,计算出每个热搜内容的更新周期,并将这些数据进行统计分析,得到热搜内容的更新周期的平均值和方差。
进一步可选地,所述根据热搜类型、将热搜内容进行聚类,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容包括:
首先,爬取当前的热搜列表,采用TF-IDF算法提取热搜标题中的关键词;然后,根据热搜标题中的关键词,将热搜内容划分为不同的热搜类型,包括娱乐热搜、社会热搜、科技热搜和稀有热搜;其次,针对每个热搜类型,采用TF-IDF算法进行关键词提取,对热搜标题进行分析,将相似的热搜内容进行聚类;最后,通过对热搜内容的聚类,得到不同热搜类型的关注度排行榜;同时,通过比较不同热搜类型之间的关注度变化趋势,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容。
进一步可选地,所述根据时间序列分析方法,预测一般热搜内容与稀有热搜内容的热度持续时间包括:
根据时间序列分析方法,获取一般热搜内容和稀有热搜内容的历史热度数据,并将其进行可视化展示;采用ARIMA时间序列分析模型,对一般热搜内容和稀有热搜内容的热度持续时间进行预测和分析,输出预测值和分析结果;根据以上分析结果,确定一般热搜内容和稀有热搜内容的热度持续时间,并输出预测结果;包括:基于ARIMA时间序列模型建立稀有热搜热度持续时间预测模型;
所述基于ARIMA时间序列模型建立稀有热搜热度持续时间预测模型,具体包括:
通过爬取热搜榜单,获取热搜数据,所述热搜数据包括热搜内容的时间和热度值属性,筛选出稀有热搜数据。对获取的稀有热搜数据去除噪声数据、填补缺失值、归一化的操作。利用ADF检验、自相关性检验、白噪声检验的方法,对热搜数据进行时间序列分析。根据时间序列分析的结果,基于ARIMA时间序列模型,预测稀有热搜内容的热度持续时间。
进一步可选地,所述判断稀有热搜是否具有商业价值,确定一般热搜和稀有热搜的商业机会点,并根据商业价值点确定市场营销策略包括:
收集相关稀有热搜的数据,包括热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量;采用决策树算法建立稀有热搜商业价值判断模型;将建立的稀有热搜商业价值判断模型应用到实际稀有热搜数据中,判断稀有热搜是否具有商业价值;如果稀有热搜具有商业价值,则获取稀有热搜相关用户画像信息,通过对热搜相关用户的画像确定用户购买意愿和消费偏好;通过用户购买意愿和消费偏好确定一般热搜和稀有热搜的商业价值点;根据一般热搜和稀有热搜的商业价值点确定针对性的市场营销策略;包括:基于决策树算法,构建稀有热搜商业价值判断模型;
所述基于决策树算法,构建稀有热搜商业价值判断模型,具体包括:
收集相关稀有热搜的数据,包括热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量。对收集到的数据进行清洗,去除重复值、无用信息、错误数据和异常值。通过对数据集进行特征工程处理,将热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量作为特征进行提取和转换。选择决策树算法建立商业价值判断模型,并对模型进行训练和优化。将建立好的模型应用到实际场景中,对新的稀有热搜进行判断,判断其是否有商业价值。
进一步可选地,所述通过对稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道,判断稀有热搜的真实性包括:
首先,采用网络爬虫工具获取稀有热搜的相关数据;通过获取稀有热搜的阅读量、转发量、评论量,判断其热度;同时,获取稀有热搜的发布时间,以确定其持续时间;观察稀有热搜在社交媒体上的讨论频率和变化间隔,记录其变化趋势;分析稀有热搜主题的来源社交媒体渠道,确定其讨论的主要平台和用户群体;基于支持向量机算法,建立稀有热搜真实性评估模型,判断稀有热搜的真实性;采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型,判断真实稀有热搜的重要性;包括:基于支持向量机算法,建立稀有热搜真实性评估模型;采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型;
所述基于支持向量机算法,建立稀有热搜真实性评估模型,具体包括:
使用网络爬虫从各大社交平台、新闻网站、搜索引擎渠道收集稀有热搜相关数据,并标注其真实性,包括真实和虚假的稀有热搜。对收集到的数据进行清洗和预处理,包括去除重复数据、缺失数据或异常数据,并提取稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道作为特征。将数据集划分为训练集和测试集。选择支持向量机算法,并使用训练集来训练模型,得到稀有热搜真实性评估模型。将训练好的稀有热搜真实性评估模型应用到实际稀有热搜数据中,得到该热搜为真实热搜的概率,当概率大于预设阈值时,判断为真实稀有热搜。
所述采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型,具体包括:
稀有热搜真实性评估模型筛选真实稀有热搜,收集真实稀有热搜相关数据,包括热搜标题、热度值、转发数、评论数、点赞数。对收集到的数据进行清洗,去除重复数据、无效数据、异常数据;对清洗后的数据进行特征提取,包括热搜标题的关键词、情感倾向、相关度。根据提取到的特征,采用卷积神经网络算法建立真实稀有热搜重要性评估模型。使用建立好的真实稀有热搜重要性评估模型,对真实稀有热搜进行重要性评估。
进一步可选地,所述判断真实热搜内容的可信度,剔除属于虚假热搜的内容包括:
从社交媒体、新闻网站和其他网络平台中收集大量的热搜数据,包括文本内容、发布时间、点赞数、评论数;对收集的数据进行去重、过滤掉垃圾信息、剔除无关信息,保留有效信息;对文本内容、发布时间、点赞数、评论数进行特征提取,包括词频、情感分析、主题分类、时间特征;使用支持向量机算法,对热搜内容进行真假分类,建立真实稀有热搜内容可信度判别模型;使用建立的模型对热搜内容进行可信度判断,并剔除属于虚假热搜的内容。
进一步可选地,所述根据一般热搜内容与稀有热搜内容的关注度和关注群体,预测不同群体的商业机会包括:
从各大社交平台、搜索引擎以及其他数据来源获取最新的一般热搜或者稀有热搜的数据,包括关注度、关注群体分布信息;使用数据分析工具Tableau对收集到的热搜数据进行分析,获取不同关注群体对于热搜的关注度;获取热搜的关键词,并通过搜索引擎的关键词工具分析这些关键词的搜索量,找出热度大于预设阈值的关键词;通过搜索引擎、社交媒体、新闻媒体渠道对筛选出的关键词做深度挖掘,获取与其相关的热点事件,包括事件的起因、影响和关注群体;筛选出不同群体关注度最高的热点事件作为商业机会;针对筛选出的商业机会,制定针对不同目标客户群体的营销策略。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明通过使用过大数据采集工具、社交媒体采集优化工具、热度分析工具,获取与目标分析相关的热搜数据,并进行综合评估。利用多个指标,包括搜索量、搜索热度、关联词汇广泛度、用户评价,判断热搜关键词的重要性。通过训练分类模型,判断热搜商业价值类型,包括商业机会、市场趋势、竞争动态。根据社交媒体平台的历史数据,获取热搜内容的更新周期和热度持续时间的平均值和方差。通过热搜类型的聚类,判断哪些热搜内容属于一般热搜内容,哪些属于稀有的热搜主题内容。使用时间序列分析方法,预测一般热搜内容与稀有热搜内容的热度持续时间,并判断稀有热搜内容的可信度。针对一般热搜内容,进行商业机会点判断,并生成相应的市场营销策略。针对稀有热搜的背景、事件、涉及产品,判断是否具有商业价值,通过热度和持续时间等指标,确定其真实性和重要性。同时,验证稀有热搜内容的可信度,判断是否人为炒作,从而降低潜在误导风险。最后,根据一般热搜内容与稀有热搜内容的关注度和关注群体,预测出针对不同群体的商业机会,为企业提供更加精准的营销策略和商业决策,以此帮助企业更好地了解市场动态和用户需求,提高市场竞争力和商业价值。
附图说明
图1为本发明的一种发掘社媒热搜商业价值度的方法的流程图。
图2为本发明的一种发掘社媒热搜商业价值度的方法的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本实施例一种发掘社媒热搜商业价值度的方法具体可以包括:
步骤101,通过大数据采集工具、社交媒体采集优化工具、热度分析工具,搜集与目标分析相关的热搜数据。
采用大数据采集工具,通过API接口和爬虫工具,获取热搜数据的搜索量、点击量、转发量、阅读量、评论量、点赞量。获取热搜数据的来源,根据热搜数据的地域分布,确定热点话题在不同地区的关注度和讨论度。获取热搜数据中用户属性,确定目标用户的特点和偏好。确定热搜数据的热度指数,并进行趋势分析,获得热点话题的发展趋势和变化。通过对热搜数据的搜集和分析,获得公众对企业或个人的态度和观点。通过竞品热搜数据的获取和分析,获得竞品的市场占有率。例如,通过API接口和爬虫工具获取某个社交媒体平台上的热搜数据,其中有一个话题是“家庭健身热潮”,获取到该话题的搜索量为10万次,点击量为5万次,转发量为1万次,阅读量为8万次,评论量为1万次,点赞量为6万次。根据热搜数据的地域分布,发现该话题在北京、上海、广州等一线城市的关注度较高,而在西安、成都等二线城市的关注度较低。通过分析热搜数据中用户属性,发现发现大多数关注家庭健身热潮的用户是年轻人,他们更倾向于使用在线健身课程。根据热搜数据的热度指数,发现该话题的热度指数为80,说明该话题受到了公众的比较高的关注度。根据热搜数据的趋势分析,发现发现大多数公众对家庭健身持积极态度,并认为这是一个健康的生活方式。通过分析热搜数据中公众的态度和观点,发现大多数用户对该话题持支持和期待的态度。通过竞品热搜数据的获取和分析,获得竞品的市场占有率,假设通过获取和分析与“家庭健身热潮”的竞品相关的热搜数据,获得竞品的市场占有率为0.7%,相比“家庭健身热潮”较低,说明“家庭健身热潮”在市场上的表现相对较好。
利用搜索量、搜索热度、用户评价,对热搜关键词的重要性进行综合评估。
通过爬虫工具获取搜索引擎数据,获取热搜关键词的搜索量。通过搜索引擎,获取热搜关键词的搜索热度,所述搜索热度是指用户在搜索引擎中搜索某个关键词的频率。获取用户对于热搜关键词的评价,使用词袋模型将文本数据转化为一个特征矩阵;使用支持向量机算法来训练模型,将特征矩阵作为输入数据,将用户评价值作为输出标签,使用分类模型进行训练。训练好支持向量机模型后,使用该模型来进行预测,将新的用户评价输入到模型中,得到该用户评价的用户评价值。确定自变量为搜索量、搜索热度、用户评价值,因变量为热搜关键词的重要性综合得分;使用多元线性回归模型,将自变量和因变量进行拟合,获得热搜关键词的重要性综合得分。当热搜关键词的重要性综合得分大于预设阈值时,则该热搜关键词判定为重要;例如,要对某个热搜关键词进行重要性评估,通过爬虫工具获取该关键词在搜索引擎中的搜索量为10000。然后,通过搜索引擎获取该关键词的搜索热度为0.8。接着,通过对用户评价文本进行词袋模型处理,得到一个特征矩阵,该特征矩阵的用户评价值为0.7。使用支持向量机算法对该特征矩阵进行训练,得到一个分类模型。将一个新的用户评价输入到该分类模型中,得到该用户评价的用户评价值为0.6。假设得到的回归方程为:重要性综合得分=0.5*搜索量+0.8*搜索热度+0.6*用户评价值+0.2。最终,将搜索量、搜索热度、用户评价值带入该回归方程中,得到该热搜关键词的重要性综合得分为:0.5*10000+0.8*0.8+0.6*0.6+0.2=5030.2。
根据社媒热搜内容包括社会热点,新闻事件、娱乐八卦、时事热议,训练分类模型判断热搜商业价值类型。
从各大社交媒体平台、新闻网站渠道收集热搜内容,包括社会热点、新闻事件、娱乐八卦、时事热议。对收集到的热搜内容进行数据清洗、去重、去噪处理。通过TF-IDF,提取热搜内容的关键词、通过LDA主题模型提取热搜主题、通过情感分析算法分析文本中的情感倾向。提取热搜内容的关键词、主题、情感特征。根据热搜内容的商业价值类型,将数据进行标注,分为商业机会、市场趋势、竞争动态三类。采用支持向量分类算法,训练分类模型,将提取的特征作为输入,将标注的数据作为输出。将新收集到的热搜内容输入到训练好的分类模型中,预测其商业价值类型;例如,从社交媒体平台、新闻网站渠道收集了100条热搜内容,经过数据清洗、去重、去噪处理后,得到了80条有效数据。使用文本分析技术,对这80条数据进行分析,提取出关键词、主题和情感特征。接着,将这80条数据标注为商业机会、市场趋势、竞争动态三类。例如,收集到了一条热搜内容“无糖咖啡流行”,经过模型预测,得到了该内容的商业价值类型为“市场趋势”。
步骤102,根据社交媒体平台的历史数据,获取热搜内容的更新周期和热度持续时间的平均值和方差。
根据社交媒体平台的历史数据,采用数据挖掘的方法获取热搜内容的热度值,并通过时间戳确定发布时间。利用时间戳计算出热搜内容的持续时间和热度变化率。使用支持向量机算法进行特征提取,将热搜内容的热度变化率作为特征,以热搜内容的热度峰值作为标签,进行二分类模型训练。使用测试数据集进行模型预测,通过统计分析热搜内容的热度峰值和持续时间,得到其平均值和方差。根据热搜内容的热度变化率,判断热搜内容的热度峰值。通过分析热搜内容的更新周期,得到其平均值和方差。根据热搜内容的发布时间和持续时间,计算出每个热搜内容的更新周期,并将这些数据进行统计分析,得到热搜内容的更新周期的平均值和方差。例如,从社交媒体平台获取到了一条热搜内容的历史数据,数据包括了热度值和时间戳,如下所示:(时间戳,热度值),(1609459200,300),(1609462800,400),(1609466400,500),(1609470000,600),(1609473600,700),
(1609477200,800),根据以上数据,可以计算出热搜内容的持续时间为6个小时,热度变化率为100。通过支持向量机算法进行特征提取,将热度变化率作为特征,热度峰值作为标签,进行二分类模型训练,预测该热搜内容的热度峰值为900。通过统计分析该热搜内容的热度峰值和持续时间数据,得出其平均值为850,方差为100,表示该类型热搜内容通常热度峰值在850左右,波动不会太大。根据热度变化率,判断该热搜内容的热度峰值在900左右。通过分析该热搜内容的更新周期,得出其平均值为12小时,方差为2小时,说明该类型热搜内容更新周期比较稳定,一般每隔12个小时更新一次。根据该热搜内容的发布时间和持续时间,计算出其更新周期为12个小时。将所有热搜内容的更新周期进行统计分析,得到平均值为10小时,方差为3小时,说明整个热搜内容的更新周期波动比较大,但大多数热搜内容更新周期在10个小时左右。
步骤103,根据热搜类型、将热搜内容进行聚类,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容。
首先,爬取当前的热搜列表,采用TF-IDF算法提取热搜标题中的关键词。然后,根据热搜标题中的关键词,将热搜内容划分为不同的热搜类型,包括娱乐热搜、社会热搜、科技热搜和稀有热搜。其次,针对每个热搜类型,采用TF-IDF算法进行关键词提取,对热搜标题进行分析,将相似的热搜内容进行聚类。最后,通过对热搜内容的聚类,得到不同热搜类型的关注度排行榜。同时,通过比较不同热搜类型之间的关注度变化趋势,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容。例如,爬取当前热搜列表,得到热搜标题“最新健身操热门推荐”,“公园新设儿童游乐设施”,“新款电动汽车上市”,“知名歌手即将举行演唱会”;采用TF-IDF算法对这些热搜标题进行关键词提取,得到“健身操”、“儿童乐园”、“电动汽车”和“演唱会”。将相似的热搜内容进行聚类,得到不同热搜类型的关注度排行榜,例如,将所有与“健身操”有关的热搜内容进行聚类,得到“健身操”有关热搜的关注度排行榜。比较不同热搜之间的关注度变化趋势,可以发现“儿童乐园”、“电动汽车”和“儿童乐园”是一般热搜内容,而“健身操”是稀有热搜内容。
步骤104,根据时间序列分析方法,预测一般热搜内容与稀有热搜内容的热度持续时间。
根据时间序列分析方法,获取一般热搜内容和稀有热搜内容的历史热度数据,并将其进行可视化展示;采用ARIMA时间序列分析模型,对一般热搜内容和稀有热搜内容的热度持续时间进行预测和分析,输出预测值和分析结果。根据以上分析结果,确定一般热搜内容和稀有热搜内容的热度持续时间,并输出预测结果。例如,通过搜索引擎或社交媒体平台的API获取每天“天气”话题的热度指数;获取的“天气”话题的历史热度数据:(日期热度,指数),(2021/01/01,100),(2021/01/02,120),(2021/01/03,150),
(2021/01/04,180),(2021/01/05,200),(2021/01/06,220),(2021/01/07,250);根据历史热度数据可以得到ARIMA模型的参数,并对未来几天“天气”话题的热度进行预测和分析。假设要预测“天气”话题的热度在未来3天内的变化情况,可以得到以下预测结果:日期预测热度,(2021/01/15,440),(2021/01/16,470),(2021/01/17,500),根据上述预测结果,看出“天气”话题在未来3天内的热度将继续上升,并在1月17日达到最高点。最后,根据预测结果,确定“天气”话题的热度持续时间为14天,并预测未来3天的热度变化情况。
基于ARIMA时间序列模型建立稀有热搜热度持续时间预测模型。
通过爬取热搜榜单,获取热搜数据,所述热搜数据包括热搜内容的时间和热度值属性,筛选出稀有热搜数据。对获取的稀有热搜数据去除噪声数据、填补缺失值、归一化的操作。利用ADF检验、自相关性检验、白噪声检验的方法,对热搜数据进行时间序列分析。根据时间序列分析的结果,基于ARIMA时间序列模型,预测稀有热搜内容的热度持续时间。例如,稀有热搜“绿茶减肥法”其热度值属性为每小时的讨论量,记录了过去7天的数据。通过数据分析发现,该话题的热度值呈现出一定的季节性变化和趋势性变化,同时还存在一些随机波动,使用ARIMA模型进行预测。首先,对数据进行去噪、填补缺失值、归一化的预处理操作,得到稀有热搜数据的时间序列。然后,使用ADF检验、自相关性检验和白噪声检验等方法对时间序列的平稳性、自相关性和随机性进行检验,确定ARIMA模型的参数。假设最终确定的ARIMA模型为ARIMA(1,1,1),即一阶差分后的数据具有AR(1)和MA(1)的特征。利用该模型,对未来7天的热度值进行预测得到第1天热度值为1000,第2天热度值为1200,第3天热度值为1350,第4天热度值为1400,第5天热度值为1500,第6天热度值为1550,第7天热度值为1600,这意味着,绿茶减肥法这一话题将在未来7天内持续走热,热度值将逐渐上升,最高峰出现在第7天,之后可能会逐渐降温。
步骤105,判断稀有热搜是否具有商业价值,确定一般热搜和稀有热搜的商业机会点,并根据商业价值点确定市场营销策略。
收集相关稀有热搜的数据,包括热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量。采用决策树算法建立稀有热搜商业价值判断模型;将建立的稀有热搜商业价值判断模型应用到实际稀有热搜数据中,判断稀有热搜是否具有商业价值;如果稀有热搜具有商业价值,则获取稀有热搜相关用户画像信息,通过对热搜相关用户的画像确定用户购买意愿和消费偏好;通过用户购买意愿和消费偏好确定一般热搜和稀有热搜的商业价值点;根据一般热搜和稀有热搜的商业价值点确定针对性的市场营销策略。例如,收集到了一个稀有热搜,热搜标题为“家用智能锁”,发布时间为3月1日,阅读量为10万次,搜索量为5万次,转发量为2万次,评论数量为1000条。基于决策树算法建立稀有热搜商业价值判断模型,选取的特征包括发布时间、阅读量、搜索量、转发量、评论数量。通过对大量数据的分析,得出的决策树模型,根据该模型,判断该热搜的商业价值为高。通过分析该热搜的用户评论、转发数据,获取了相关的用户画像信息,发现此热搜的用户群体主要是家庭主妇和科技爱好者,这些用户更注重安全性、便利性和智能化。根据用户购买意愿和消费偏好,确定该热搜事件的商业价值点在于“高安全性”、“便利性”和“智能化”。根据商业价值点,为智能锁制造商提供了针对性的市场营销策略建议,例如,制造商可以在广告中重点宣传智能锁的高安全性、便利性和智能化特点,同时,可以针对家庭主妇和科技爱好者推出折扣促销或配套产品赠送活动。
基于决策树算法,构建稀有热搜商业价值判断模型。
收集相关稀有热搜的数据,包括热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量。对收集到的数据进行清洗,去除重复值、无用信息、错误数据和异常值。通过对数据集进行特征工程处理,将热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量作为特征进行提取和转换。选择决策树算法建立商业价值判断模型,并对模型进行训练和优化。将建立好的模型应用到实际场景中,对新的稀有热搜进行判断,判断其是否有商业价值。例如,从社交媒体和新闻网站收集了一个稀有热搜事件的标题是“新款环保杯盖上市”、发布时间是秋季、阅读量为1000、搜索量为500、转发量为200、评论数量为50,通过模型得出该热搜是否有商业价值。删除了重复的数据、去除了无用信息、修正了错误数据和删除了异常值,将热搜的标题、发布时间、阅读量、搜索量、转发量和评论数量作为特征进行提取,并将发布时间转换为离今天的天数,方便模型处理。根据决策树算法,使用已收集和处理的数据来训练商业价值判断模型。将稀有热搜事件“新款环保杯盖上市”的数据输入到模型中,模型预测这个事件具有商业价值。
步骤106,通过对稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道,判断稀有热搜的真实性。
首先,采用网络爬虫工具获取稀有热搜的相关数据。通过获取稀有热搜的阅读量、转发量、评论量,判断其热度。同时,获取稀有热搜的发布时间,以确定其持续时间;观察稀有热搜在社交媒体上的讨论频率和变化间隔,记录其变化趋势。分析稀有热搜主题的来源社交媒体渠道,确定其讨论的主要平台和用户群体。基于支持向量机算法,建立稀有热搜真实性评估模型,判断稀有热搜的真实性;采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型,判断真实稀有热搜的重要性;例如,稀有热搜“全新的植物肉汉堡推出”,通过网络爬虫工具获取其发布时间、阅读量、转发量、评论量的相关数据来判断其热度,假设该热搜的阅读量、转发量和评论量都很高,说明该热搜热度很高。通过获取发布时间数据,发现这个热搜的讨论已经持续了三个月,并且热度在逐渐上升。根据这个热搜在社交媒体上的讨论频率和变化间隔,发现讨论的频率在持续上升。通过分析这个热搜主题的来源社交媒体渠道,确定这个热搜主要在健康和环保相关的社交媒体平台上被讨论,用户群体主要是年轻人和健康饮食爱好者。通过支持向量机算法,建立稀有热搜真实性评估模型,通过对模型的训练和测试,判断这个植物肉汉堡热搜事件是真实的,同时通过卷积神经网络算法建立真实稀有热搜的重要性评估模型,通过模型的预测,判断这个植物肉汉堡热搜事件是非常重要的。
基于支持向量机算法,建立稀有热搜真实性评估模型。
使用网络爬虫从各大社交平台、新闻网站、搜索引擎渠道收集稀有热搜相关数据,并标注其真实性,包括真实和虚假的稀有热搜。对收集到的数据进行清洗和预处理,包括去除重复数据、缺失数据或异常数据,并提取稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道作为特征。将数据集划分为训练集和测试集。选择支持向量机算法,并使用训练集来训练模型,得到稀有热搜真实性评估模型。将训练好的稀有热搜真实性评估模型应用到实际稀有热搜数据中,得到该热搜为真实热搜的概率,当概率大于预设阈值时,判断为真实稀有热搜。例如,从社交平台、新闻网站和搜索引擎中收集到了100条稀有热搜相关数据,并对数据进行了清洗和预处理。选取其中80条数据作为训练集,剩下的20条数据作为测试集。将特征选为热度、持续时间、变化间隔和来源社交媒体渠道。将热度定义为该热搜在一定时间内被讨论或搜索的次数,持续时间为该热搜持续被讨论或搜索的时间长度,变化间隔为该热搜热度变化的时间间隔。使用支持向量机算法来训练模型,并在测试集上进行测试,将真实的稀有热搜标记为1,虚假的稀有热搜标记为0,对模型进行评估;将训练好的模型应用到实际稀有热搜数据中,判断稀有热搜真实性。例如,从社交平台上获取到一条新的稀有热搜数据,其热度为100,持续时间为3天,变化间隔为6小时,并且该热搜来自知名媒体CNN。根据训练好的模型预测,该热搜为真实热搜的概率为90%。假设预设阈值为85%,因此,可以判断该稀有热搜为真实热搜。
采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型。
稀有热搜真实性评估模型筛选真实稀有热搜,收集真实稀有热搜相关数据,包括热搜标题、热度值、转发数、评论数、点赞数。对收集到的数据进行清洗,去除重复数据、无效数据、异常数据;对清洗后的数据进行特征提取,包括热搜标题的关键词、情感倾向、相关度。根据提取到的特征,采用卷积神经网络算法建立真实稀有热搜重要性评估模型。使用建立好的真实稀有热搜重要性评估模型,对真实稀有热搜进行重要性评估;例如,选取了一条真实稀有热搜,标题为“抬头族增加,颈椎病趋势年轻化”,收集到的相关数据包括热度值为5000,转发数为2000,评论数为500,点赞数为1000。经过数据清洗和特征提取,获得了该热搜标题的关键词为“抬头族”和“颈椎病”,情感倾向为“对健康问题的担忧”,相关度为“健康与医疗”;基于上述特征,使用卷积神经网络算法建立真实稀有热搜重要性评估模型,得出该热搜的重要性评分为0.85。这意味着该热搜在真实稀有热搜中具有较高的重要性,值得引起大众关注和关心。
步骤107,判断真实热搜内容的可信度,剔除属于虚假热搜的内容。
从社交媒体、新闻网站和其他网络平台中收集大量的热搜数据,包括文本内容、发布时间、点赞数、评论数。对收集的数据进行去重、过滤掉垃圾信息、剔除无关信息,保留有效信息。对文本内容、发布时间、点赞数、评论数进行特征提取,包括词频、情感分析、主题分类、时间特征。使用支持向量机算法,对热搜内容进行真假分类,建立真实稀有热搜内容可信度判别模型。使用建立的模型对热搜内容进行可信度判断,并剔除属于虚假热搜的内容。例如,在微博上,收集了一条热搜“研究发现喝黑咖啡可以减肥”,其中包括文本内容、发布时间、点赞数、评论数信息。经过去重和过滤后,保留了有效信息。对文本内容、发布时间、点赞数、评论数进行特征提取,包括词频、情感分析、主题分类、时间特征,例如,提取关键词“黑咖啡”、“减肥”,通过情感分析发现评论中有大量积极评价,通过主题分类确定这是一个关于饮食习惯的话题,通过时间特征发现这是一个新发布的热搜。使用支持向量机算法,对热搜内容进行真假分类,建立真实稀有热搜内容可信度判别模型,利用支持向量机算法,对该热搜进行真假分类,得出结果为“真实稀有”,即可信度较高,因此将其保留。
步骤108,根据一般热搜内容与稀有热搜内容的关注度和关注群体,预测不同群体的商业机会。
从各大社交平台、搜索引擎以及其他数据来源获取最新的一般热搜或者稀有热搜的数据,包括关注度、关注群体分布信息。使用数据分析工具Tableau对收集到的热搜数据进行分析,获取不同关注群体对于热搜的关注度。获取热搜的关键词,并通过搜索引擎的关键词工具分析这些关键词的搜索量,找出热度大于预设阈值的关键词。通过搜索引擎、社交媒体、新闻媒体渠道对筛选出的关键词做深度挖掘,获取与其相关的热点事件,包括事件的起因、影响和关注群体;筛选出不同群体关注度最高的热点事件作为商业机会。针对筛选出的商业机会,制定针对不同目标客户群体的营销策略;例如,热搜中出现了一个关键词“超级月亮”,通过搜索引擎的关键词工具发现,这个关键词的搜索量已经超过了100万次,说明这是一个非常热门的话题。通过社交平台、搜索引擎途径获取更多关于“超级月亮”的信息,了解这个热点事件的起因和影响,以及不同群体的关注度。“超级月亮”是因为月亮距离地球最近的时刻出现,引起了很多人的关注。在不同的社交平台上,看到不同群体对这个话题的讨论,比如天文爱好者、摄影爱好者、民众群体。将“超级月亮”作为一个商业机会,制定针对不同目标客户群体的营销策略。针对摄影爱好者,推出拍摄“超级月亮”的相关产品,如三脚架、变焦镜头;针对天文爱好者,推出与“超级月亮”相关的天文望远镜和其他相关产品;针对普通民众,推出与“超级月亮”相关的宣传活动,如“赏月活动”。
以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。
Claims (7)
1.一种发掘社媒热搜商业价值度的方法,其特征在于,所述方法包括:
通过大数据采集工具、社交媒体采集优化工具、热度分析工具,搜集与目标分析相关的热搜数据,所述通过大数据采集工具、社交媒体采集优化工具、热度分析工具,搜集与目标分析相关的热搜数据,具体包括:利用搜索量、搜索热度、用户评价,对热搜关键词的重要性进行综合评估,根据社媒热搜内容包括社会热点,新闻事件、娱乐八卦、时事热议,训练分类模型判断热搜商业价值类型;根据社交媒体平台的历史数据,获取热搜内容的更新周期和热度持续时间的平均值和方差;根据热搜类型、将热搜内容进行聚类,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容;根据时间序列分析方法,预测一般热搜内容与稀有热搜内容的热度持续时间,具体包括:基于ARIMA时间序列模型建立稀有热搜热度持续时间预测模型;判断稀有热搜是否具有商业价值,确定一般热搜和稀有热搜的商业机会点,并根据商业价值点确定市场营销策略,具体包括:基于决策树算法,构建稀有热搜商业价值判断模型;通过对稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道,判断稀有热搜的真实性,所述通过对稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道,判断稀有热搜的真实性,具体包括:基于支持向量机算法,建立稀有热搜真实性评估模型,采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型;判断真实热搜内容的可信度,剔除属于虚假热搜的内容;根据一般热搜内容与稀有热搜内容的关注度和关注群体,预测不同群体的商业机会;
所述根据热搜类型、将热搜内容进行聚类,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容,包括:爬取当前的热搜列表,采用TF-IDF算法提取热搜标题中的关键词;根据热搜标题中的关键词,将热搜内容划分为不同的热搜类型,包括娱乐热搜、社会热搜、科技热搜和稀有热搜;针对每个热搜类型,采用TF-IDF算法进行关键词提取,对热搜标题进行分析,将相似的热搜内容进行聚类;通过对热搜内容的聚类,得到不同热搜类型的关注度排行榜;通过比较不同热搜类型之间的关注度变化趋势,判断哪些热搜内容属于一般热搜内容,哪些属于稀有热搜内容;
所述判断稀有热搜是否具有商业价值,确定一般热搜和稀有热搜的商业机会点,并根据商业价值点确定市场营销策略,包括:收集相关稀有热搜的数据,包括热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量;采用决策树算法建立稀有热搜商业价值判断模型;将建立的稀有热搜商业价值判断模型应用到实际稀有热搜数据中,判断稀有热搜是否具有商业价值;如果稀有热搜具有商业价值,则获取稀有热搜相关用户画像信息,通过对热搜相关用户的画像确定用户购买意愿和消费偏好;通过用户购买意愿和消费偏好确定一般热搜和稀有热搜的商业价值点;根据一般热搜和稀有热搜的商业价值点确定针对性的市场营销策略;所述基于决策树算法,构建稀有热搜商业价值判断模型,具体包括:收集相关稀有热搜的数据,包括热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量;对收集到的数据进行清洗,去除重复值、无用信息、错误数据和异常值;通过对数据集进行特征工程处理,将热搜的标题、发布时间、阅读量、搜索量、转发量、评论数量作为特征进行提取和转换;选择决策树算法建立商业价值判断模型,并对模型进行训练和优化;将建立好的模型应用到实际场景中,对新的稀有热搜进行判断,判断其是否有商业价值。
2.根据权利要求1所述的方法,其中,所述通过大数据采集工具、社交媒体采集优化工具、热度分析工具,搜集与目标分析相关的热搜数据,包括:
采用大数据采集工具,通过API接口和爬虫工具,获取热搜数据的搜索量、点击量、转发量、阅读量、评论量、点赞量;获取热搜数据的来源,根据热搜数据的地域分布,确定热点话题在不同地区的关注度和讨论度;获取热搜数据中用户属性,确定目标用户的特点和偏好;确定热搜数据的热度指数,并进行趋势分析,获得热点话题的发展趋势和变化;通过对热搜数据的搜集和分析,获得公众对企业或个人的态度和观点;通过竞品热搜数据的获取和分析,获得竞品的市场占有率;包括:利用搜索量、搜索热度、用户评价,对热搜关键词的重要性进行综合评估;根据社媒热搜内容包括社会热点,新闻事件、娱乐八卦、时事热议,训练分类模型判断热搜商业价值类型;
所述利用搜索量、搜索热度、用户评价,对热搜关键词的重要性进行综合评估,具体包括:
通过爬虫工具获取搜索引擎数据,获取热搜关键词的搜索量;通过搜索引擎,获取热搜关键词的搜索热度,所述搜索热度是指用户在搜索引擎中搜索某个关键词的频率;获取用户对于热搜关键词的评价,使用词袋模型将文本数据转化为一个特征矩阵;使用支持向量机算法来训练模型,将特征矩阵作为输入数据,将用户评价值作为输出标签,使用分类模型进行训练;训练好支持向量机模型后,使用该模型来进行预测,将新的用户评价输入到模型中,得到该用户评价的用户评价值;确定自变量为搜索量、搜索热度、用户评价值,因变量为热搜关键词的重要性综合得分;使用多元线性回归模型,将自变量和因变量进行拟合,获得热搜关键词的重要性综合得分;当热搜关键词的重要性综合得分大于预设阈值时,则该热搜关键词判定为重要;
所述根据社媒热搜内容包括社会热点,新闻事件、娱乐八卦、时事热议,训练分类模型判断热搜商业价值类型,具体包括:
从各大社交媒体平台、新闻网站渠道收集热搜内容,包括社会热点、新闻事件、娱乐八卦、时事热议;对收集到的热搜内容进行数据清洗、去重、去噪处理;通过TF-IDF,提取热搜内容的关键词、通过LDA主题模型提取热搜主题、通过情感分析算法分析文本中的情感倾向;提取热搜内容的关键词、主题、情感特征;根据热搜内容的商业价值类型,将数据进行标注,分为商业机会、市场趋势、竞争动态三类;采用支持向量分类算法,训练分类模型,将提取的特征作为输入,将标注的数据作为输出;将新收集到的热搜内容输入到训练好的分类模型中,预测其商业价值类型。
3.根据权利要求1所述的方法,其中,所述根据社交媒体平台的历史数据,获取热搜内容的更新周期和热度持续时间的平均值和方差,包括:
根据社交媒体平台的历史数据,采用数据挖掘的方法获取热搜内容的热度值,并通过时间戳确定发布时间;利用时间戳计算出热搜内容的持续时间和热度变化率;使用支持向量机算法进行特征提取,将热搜内容的热度变化率作为特征,以热搜内容的热度峰值作为标签,进行二分类模型训练;使用测试数据集进行模型预测,通过统计分析热搜内容的热度峰值和持续时间,得到其平均值和方差;根据热搜内容的热度变化率,判断热搜内容的热度峰值;通过分析热搜内容的更新周期,得到其平均值和方差;根据热搜内容的发布时间和持续时间,计算出每个热搜内容的更新周期,并将这些数据进行统计分析,得到热搜内容的更新周期的平均值和方差。
4.根据权利要求1所述的方法,其中,所述根据时间序列分析方法,预测一般热搜内容与稀有热搜内容的热度持续时间,包括:
根据时间序列分析方法,获取一般热搜内容和稀有热搜内容的历史热度数据,并将其进行可视化展示;采用ARIMA时间序列分析模型,对一般热搜内容和稀有热搜内容的热度持续时间进行预测和分析,输出预测值和分析结果;根据以上分析结果,确定一般热搜内容和稀有热搜内容的热度持续时间,并输出预测结果;包括:基于ARIMA时间序列模型建立稀有热搜热度持续时间预测模型;
所述基于ARIMA时间序列模型建立稀有热搜热度持续时间预测模型,具体包括:
通过爬取热搜榜单,获取热搜数据,所述热搜数据包括热搜内容的时间和热度值属性,筛选出稀有热搜数据;对获取的稀有热搜数据去除噪声数据、填补缺失值、归一化的操作;利用ADF检验、自相关性检验、白噪声检验的方法,对热搜数据进行时间序列分析;根据时间序列分析的结果,基于ARIMA时间序列模型,预测稀有热搜内容的热度持续时间。
5.根据权利要求1所述的方法,其中,所述通过对稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道,判断稀有热搜的真实性,包括:
首先,采用网络爬虫工具获取稀有热搜的相关数据;通过获取稀有热搜的阅读量、转发量、评论量,判断其热度;同时,获取稀有热搜的发布时间,以确定其持续时间;观察稀有热搜在社交媒体上的讨论频率和变化间隔,记录其变化趋势;分析稀有热搜主题的来源社交媒体渠道,确定其讨论的主要平台和用户群体;基于支持向量机算法,建立稀有热搜真实性评估模型,判断稀有热搜的真实性;采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型,判断真实稀有热搜的重要性;包括:基于支持向量机算法,建立稀有热搜真实性评估模型;采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型;
所述基于支持向量机算法,建立稀有热搜真实性评估模型,具体包括:
使用网络爬虫从各大社交平台、新闻网站、搜索引擎渠道收集稀有热搜相关数据,并标注其真实性,包括真实和虚假的稀有热搜;对收集到的数据进行清洗和预处理,包括去除重复数据、缺失数据或异常数据,并提取稀有热搜的热度和持续时间、变化间隔以及该热搜的来源社交媒体渠道作为特征;将数据集划分为训练集和测试集;选择支持向量机算法,并使用训练集来训练模型,得到稀有热搜真实性评估模型;将训练好的稀有热搜真实性评估模型应用到实际稀有热搜数据中,得到该热搜为真实热搜的概率,当概率大于预设阈值时,判断为真实稀有热搜;
所述采用卷积神经网络算法,建立真实稀有热搜的重要性评估模型,具体包括:
稀有热搜真实性评估模型筛选真实稀有热搜,收集真实稀有热搜相关数据,包括热搜标题、热度值、转发数、评论数、点赞数;对收集到的数据进行清洗,去除重复数据、无效数据、异常数据;对清洗后的数据进行特征提取,包括热搜标题的关键词、情感倾向、相关度;根据提取到的特征,采用卷积神经网络算法建立真实稀有热搜重要性评估模型;使用建立好的真实稀有热搜重要性评估模型,对真实稀有热搜进行重要性评估。
6.根据权利要求1所述的方法,其中,所述判断真实热搜内容的可信度,剔除属于虚假热搜的内容,包括:
从社交媒体、新闻网站和其他网络平台中收集大量的热搜数据,包括文本内容、发布时间、点赞数、评论数;对收集的数据进行去重、过滤掉垃圾信息、剔除无关信息,保留有效信息;对文本内容、发布时间、点赞数、评论数进行特征提取,包括词频、情感分析、主题分类、时间特征;使用支持向量机算法,对热搜内容进行真假分类,建立真实稀有热搜内容可信度判别模型;使用建立的模型对热搜内容进行可信度判断,并剔除属于虚假热搜的内容。
7.根据权利要求1所述的方法,其中,所述根据一般热搜内容与稀有热搜内容的关注度和关注群体,预测不同群体的商业机会,包括:
从各大社交平台、搜索引擎以及其他数据来源获取最新的一般热搜或者稀有热搜的数据,包括关注度、关注群体分布信息;使用数据分析工具Tableau对收集到的热搜数据进行分析,获取不同关注群体对于热搜的关注度;获取热搜的关键词,并通过搜索引擎的关键词工具分析这些关键词的搜索量,找出热度大于预设阈值的关键词;通过搜索引擎、社交媒体、新闻媒体渠道对筛选出的关键词做深度挖掘,获取与其相关的热点事件,包括事件的起因、影响和关注群体;筛选出不同群体关注度最高的热点事件作为商业机会;针对筛选出的商业机会,制定针对不同目标客户群体的营销策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668714.9A CN116861063B (zh) | 2023-06-07 | 2023-06-07 | 一种发掘社媒热搜商业价值度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668714.9A CN116861063B (zh) | 2023-06-07 | 2023-06-07 | 一种发掘社媒热搜商业价值度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116861063A CN116861063A (zh) | 2023-10-10 |
CN116861063B true CN116861063B (zh) | 2024-02-27 |
Family
ID=88227597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310668714.9A Active CN116861063B (zh) | 2023-06-07 | 2023-06-07 | 一种发掘社媒热搜商业价值度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861063B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117768688A (zh) * | 2023-11-13 | 2024-03-26 | 联通沃音乐文化有限公司 | 一种基于云调度与音视频大数据存储与访问模式预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
CN109446329A (zh) * | 2018-11-08 | 2019-03-08 | 大连瀚闻资讯有限公司 | 一种舆情分析的热点识别方法 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN111309864A (zh) * | 2020-02-11 | 2020-06-19 | 安徽理工大学 | 一种微博热点话题的用户群体情感倾向迁移动态分析方法 |
CN111382342A (zh) * | 2020-01-22 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种热搜词的获取方法、装置、设备及存储介质 |
CN113918799A (zh) * | 2021-10-28 | 2022-01-11 | 深圳供电局有限公司 | 基于数字历史信息系统的热搜榜排序方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI393378B (zh) * | 2009-04-07 | 2013-04-11 | Inst Information Industry | 熱點分析系統及方法,及其電腦程式產品 |
US11451930B2 (en) * | 2020-10-15 | 2022-09-20 | Conduent Business Services, Llc | Dynamic hotspot prediction method and system |
-
2023
- 2023-06-07 CN CN202310668714.9A patent/CN116861063B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109446329A (zh) * | 2018-11-08 | 2019-03-08 | 大连瀚闻资讯有限公司 | 一种舆情分析的热点识别方法 |
CN111382342A (zh) * | 2020-01-22 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种热搜词的获取方法、装置、设备及存储介质 |
CN111309864A (zh) * | 2020-02-11 | 2020-06-19 | 安徽理工大学 | 一种微博热点话题的用户群体情感倾向迁移动态分析方法 |
CN113918799A (zh) * | 2021-10-28 | 2022-01-11 | 深圳供电局有限公司 | 基于数字历史信息系统的热搜榜排序方法 |
Non-Patent Citations (2)
Title |
---|
国内微博研究热点分析及主题挖掘――以计算机和图书情报学科为研究对象;王连喜;李霞;;情报杂志(04);131-136 * |
基于短文本的热点话题识别与热度趋势预测研究;崔阳;中国优秀硕士学位论文全文数据库信息科技辑;I138-1354 * |
Also Published As
Publication number | Publication date |
---|---|
CN116861063A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Potthast et al. | Crowdsourcing a large corpus of clickbait on twitter | |
Keneshloo et al. | Predicting the popularity of news articles | |
CN106503014B (zh) | 一种实时信息的推荐方法、装置和系统 | |
US9245252B2 (en) | Method and system for determining on-line influence in social media | |
CN103559206B (zh) | 一种信息推荐方法及系统 | |
US20160239738A1 (en) | Question recommending method, apparatus and system | |
US10803245B2 (en) | Compiling documents into a timeline per event | |
CN110704674A (zh) | 一种视频播放完整度预测方法及装置 | |
CN108650532B (zh) | 有线电视点播节目推荐方法及系统 | |
CN103870454A (zh) | 数据推荐方法及系统 | |
CN116861063B (zh) | 一种发掘社媒热搜商业价值度的方法 | |
US9245035B2 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
Sharma et al. | Detecting hate speech and insults on social commentary using nlp and machine learning | |
CN110991189A (zh) | 一种根据采集模块采集的数据生成决策结果的方法及系统 | |
Chowdury et al. | A data mining based spam detection system for youtube | |
KR20190122334A (ko) | 소셜 네트워크 시스템 기반의 질의 응답 서비스 제공을 위한 전문가 추천 방법 및 전문가 추천 시스템 | |
Gramsky et al. | Seeder finder: Identifying additional needles in the Twitter haystack | |
CN113327140A (zh) | 基于大数据分析的视频广告投放效果智能分析管理系统 | |
CN113239182A (zh) | 一种文章推荐方法、装置、计算机设备及存储介质 | |
CN110958472A (zh) | 视频点击量评级预测方法、装置、电子设备及存储介质 | |
CN110990673B (zh) | 一种获取调查问卷关注点的方法及系统 | |
CN116304128B (zh) | 基于大数据的多媒体资讯推荐系统 | |
CN116610858A (zh) | 一种信息分发方法、装置、电子设备以及存储介质 | |
CN115456676A (zh) | 一种游戏广告可视化投放数据分析管理方法及系统 | |
CN115048483A (zh) | 信息管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |