CN111461553A - 景区舆情监测分析系统和方法 - Google Patents

景区舆情监测分析系统和方法 Download PDF

Info

Publication number
CN111461553A
CN111461553A CN202010253521.3A CN202010253521A CN111461553A CN 111461553 A CN111461553 A CN 111461553A CN 202010253521 A CN202010253521 A CN 202010253521A CN 111461553 A CN111461553 A CN 111461553A
Authority
CN
China
Prior art keywords
data
public opinion
analysis
scenic spot
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010253521.3A
Other languages
English (en)
Inventor
杨勇
洪学海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Original Assignee
Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao filed Critical Institute Of Big Data Cloud Computing Center Of Chinese Academy Shangrao
Priority to CN202010253521.3A priority Critical patent/CN111461553A/zh
Publication of CN111461553A publication Critical patent/CN111461553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种景区舆情监测分析系统和方法,其中系统包括:信息采集模块,用于从平台管理系统配置的网站中爬取景区评论数据,获取舆情源信息;信息存储模块,用于对采集的舆情源信息进行结构化存储管理,形成景区大数据舆情知识库;数据预处理模块,用于对景区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据;舆情分析模块,用于利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算;后台管理模块,用于管理需要展示的热点事件并进行舆情事件的展示。本系统帮助景区快速准确监测网上各类旅游负面舆情。

Description

景区舆情监测分析系统和方法
技术领域
本申请涉及人工智能技术领域,具体涉及一种景区舆情监测分析系统和方法。
背景技术
随着我国旅游产业的迅速发展,外出旅游已成为生活的常态。旅游业因其行业性质一直以来都是网络舆论关注的焦点之一,由于涉及人员面大、人员数量多且过分集中,因此一旦发生负面突发事件就极易引发大面传播发酵,形成网络舆情,甚至成为引人注目的公共事件,稍不注意也极易被推倒舆情风口浪尖。进入信息化时代,负面性的网络舆论将会对景区造成严重的影响,开展网络舆情分析,辅助企业科学决策,才能推动景区高质量发展。然而,目前国内景区舆情监测部门对信息采集的广度和深度还不够,难以满足舆情监控的需求。因此,拥有一套行之有效的舆情监测大数据分析系统,以帮助景区快速准确监测网上各类旅游负面舆情,全面了解游客关切的旅游相关问题,从而及时采用准确的应对措施,以预防、减少、消除突发旅游舆情造成的负面影响成为旅游景区品牌维护的重要工作之一。
发明内容
本申请实施例的主要目的在于提供一种景区舆情监测分析系统和方法,快速准确监测网上各类旅游负面舆情,方便及时采用准确的应对措施,以预防、减少、消除突发旅游舆情造成的负面影响。
第一方面,提供了一种景区舆情监测分析系统,包括:信息采集模块,用于利用爬虫技术从平台管理系统配置的网站中爬取景区评论数据,获取舆情源信息;信息存储模块,用于对采集的舆情源信息进行结构化存储管理,形成实时更新的景区大数据舆情知识库;数据预处理模块,用于对景区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据;舆情分析模块,用于利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算;后台管理模块,用于管理需要展示的热点事件并在景区进行舆情事件的展示。
在一些可能的实现方式中,信息采集模块中景区区域内的舆情源信息的来源包括但不限于:新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。
在一些可能的实现方式中,所述数据预处理模块中对景区大数据舆情知识库中的数据进行预处理包括:对数据的清洗、数据打标签以及文本预处理和文本向量化,对采集到的数据进行清洗、集成、变换操作,将采集到的数据转换为规范、干净的数据,同时让采集到的数据满足数据计算的要求。
在一些可能的实现方式中,所述舆情分析模块包括:声量分析单元,用于根据通过各个数据源的阅读量、转发量、评论量、点赞量、收藏数、分享数六个维度基础数据,对媒体的综合影响力进行科学定量的评估;通过预设所述六个维度的业务权重保重主观权重最优,通过声量指数模型的构建公式得出声量;舆情研判单元,用于通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判;情感判断单元,用于通过褒贬分析,对舆情研判结果进行情感判断;自动分类单元,用于遗传算法类别分析相关算法对负面判断结果进行自动分类;专题分析单元,用于对自动分类单元进行专题分析;热点聚类单元,用于通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类;扩展分析单元,用于传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析等网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。
在一些可能的实现方式中,所述情感判断单元采用
Word2vector+svm(txt-cnn)算法,通过获取到原始爬虫数据进行清洗,然后人工对这些数据打标签,之后进行去停用词,构建自定义词典,通过结巴分析对句子进行分词,采用word2vector对语料库进行训练,得到词向量,然后通过对句子矩阵求均值,求得句子特征向量,最后通过分类算法训练已经特征化的句子,最后将训练好的模型预测评论内容。
第二方面,本申请实施例提供了一种景区舆情监测分析方法,包括步骤:利用爬虫技术从平台管理系统配置的网站中爬取景区评论数据,获取舆情源信息;对采集的舆情源信息进行结构化存储管理,形成实时更新的景区大数据舆情知识库;对景区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据;利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算;管理需要展示的热点事件并在景区进行舆情事件的展示。
在一些可能的实现方式中,所述景区区域内的舆情源信息的来源包括但不限于:新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。
在一些可能的实现方式中,监测分析方法还包括对景区大数据舆情知识库中的数据进行预处理的步骤,具体包括:数据的对数据的清洗、数据打标签以及文本预处理和文本向量化,对采集到的数据进行清洗、集成、变换操作,将采集到的数据转换为规范、干净的数据,同时让采集到的数据满足数据计算的要求。
在一些可能的实现方式中,所述利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算具体包括:根据通过各个数据源的阅读量、转发量、评论量、点赞量、收藏数、分享数六个维度基础数据,对媒体的综合影响力进行科学定量的评估;通过预设所述六个维度的业务权重保重主观权重最优,通过声量指数模型的构建公式得出声量;通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判;通过褒贬分析,对舆情研判结果进行情感判断;使用遗传算法类别分析相关算法对负面判断结果进行自动分类;对自动分类单元进行专题分析;通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类;进行传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析等网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。
在一些可能的实现方式中,所述通过褒贬分析,对舆情研判结果进行情感判断具体包括:采用Word2vector+svm(txt-cnn)算法,通过获取到原始爬虫数据进行清洗,然后人工对这些数据打标签,之后进行去停用词,构建自定义词典,通过结巴分析对句子进行分词,采用word2vector对语料库进行训练,得到词向量,然后通过对句子矩阵求均值,求得句子特征向量,最后通过分类算法训练已经特征化的句子,最后将训练好的模型预测评论内容。
第三方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括在计算机可读存储介质中存储的计算机程序,并且所述计算程序通过控制器进行加载来实现上述第二方面的任意可能的实现方式的方法。
第四方面,本申请实施例提供了一种非易失性计算机可读存储介质,用于存储计算机程序,所述计算机程序通过处理器进行加载来执行上述第二方面的任意可能的实现方式的方法的指令。
第五方面,本申请提实施例供了一种芯片,所述芯片包括可编程逻辑电路和/或程序指令,当所述芯片运行时用于实现上述第二方面的任意可能的实现方式的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种景区舆情监测分析系统的原理框图;
图2本申请实施例公开的一种景区舆情监测分析系统的舆情分析模块的原理框图;
图3本申请实施例公开的一种景区舆情监测分析的方法流程图;
图4本申请实施例公开的另一种景区舆情监测分析的方法流程图;
图5本申请实施例公开的另一种景区舆情监测分析的方法流程图;
图6本申请实施例公开的一种景区舆情监测分析系统的架构框图;
图7本申请实施例公开的另一种景区舆情监测分析系统的架构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述。在本申请的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请的描述中,“多个”是指两个或两个以上。
如图1所示,一种景区舆情监测分析系统,具体包括如下模块:
信息采集模块11,用于利用爬虫技术从平台管理系统配置的网站中爬取景区评论数据,获取舆情源信息。
信息存储模块12,用于对采集的舆情源信息进行结构化存储管理,形成实时更新的景区大数据舆情知识库。
数据预处理模块13,用于对景区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据;
舆情分析模块14,用于利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算;
后台管理模块15,用于管理需要展示的热点事件并在景区进行舆情事件的展示。
其中,舆情监测系统中的事件可以是话题,热点事件主要话题检测、话题追踪和热度计算。
话题检测:帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别。话题检测原则是同一个话题的文本相似度高,不同话题相似度低。
话题跟踪:某已知话题后续产生的相关的报道,通过对该报道进行训练得到相应的话题模型,对于后续输入的新闻报道,需要找出其中与已知话题模型相似的报道,并加入到相应的话题之中。
热度计算:主要根据牛顿冷却定理得到某一个事件的热度。
其中,信息采集模块11中景区区域内的舆情源信息的来源包括但不限于:新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序。采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。
数据预处理模块13中对景区大数据舆情知识库中的数据进行预处理具体包括:对数据的清洗、数据打标签以及文本预处理和文本向量化,对采集到的数据进行清洗、集成、变换操作,将采集到的数据转换为规范、干净的数据,同时让采集到的数据满足数据计算的要求。
如图2所示,其中,舆情分析模块14具体包括:
声量分析单元141,用于根据通过各个数据源的阅读量、转发量、评论量、点赞量、收藏数、分享数六个维度基础数据,对媒体的综合影响力进行科学定量的评估;通过预设所述六个维度的业务权重保重主观权重最优,通过声量指数模型的构建公式得出声量;
舆情研判单元142,用于通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判;
情感判断单元143,用于通过褒贬分析,对舆情研判结果进行情感判断;
自动分类单元144,用于遗传算法类别分析相关算法对负面判断结果进行自动分类;
专题分析单元145,用于对自动分类单元进行专题分析;
热点聚类单元146,用于通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类;
扩展分析单元147,用于传播走势分析、倾向性分析、媒体分布/重要性分析景区分布分析等网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。
其中,情感判断单元143可以采用Word2vector+svm(txt-cnn)算法,通过获取到原始爬虫数据进行清洗,然后人工对这些数据打标签,之后进行去停用词,构建自定义词典,通过结巴(jieba,一种Python中文分词组件)分析对句子进行分词,采用word2vector对语料库进行训练,得到词向量,然后通过对句子矩阵求均值,求得句子特征向量,最后通过分类算法训练已经特征化的句子,最后将训练好的模型预测评论内容。
第二方面,本申请实施例提供了一种景区舆情监测分析方法,如图3所示,包括如下步骤:
S201:利用爬虫技术从平台管理系统配置的网站中爬取景区评论数据,获取舆情源信息。
S202:对采集的舆情源信息进行结构化存储管理,形成实时更新的景区大数据舆情知识库。
S203:对景区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据。
S204:利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算。
舆情监测系统中的事件可以是话题,热点事件主要话题检测、话题追踪和热度计算。
话题检测:帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别。话题检测原则是同一个话题的文本相似度高,不同话题相似度低。
话题跟踪:某已知话题后续产生的相关的报道,通过对该报道进行训练得到相应的话题模型,对于后续输入的新闻报道,需要找出其中与已知话题模型相似的报道,并加入到相应的话题之中。
热度计算:主要根据牛顿冷却定理得到某一个事件的热度。
S205:管理需要展示的热点事件并在景区进行舆情事件的展示。
其中,上述步骤S201中景区区域内的舆情源信息的来源包括但不限于:新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。
如图4所示,在一些可能的实现方式中,步骤S203具体包括:
S2031:对数据的清洗、数据打标签以及文本预处理和文本向量化。
S2032:对采集到的数据进行清洗、集成、变换操作。
S2033:将采集到的数据转换为规范、干净的数据,同时让采集到的数据满足数据计算的要求。
如图5所示,在一些可能的实现方式中,步骤S204具体包括:
S2041:根据通过各个数据源的阅读量、转发量、评论量、点赞量、收藏数、分享数六个维度基础数据,对媒体的综合影响力进行科学定量的评估。
S2042:通过预设所述六个维度的业务权重保重主观权重最优,通过声量指数模型的构建公式得出声量。
S2043:通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判。
S2044:通过褒贬分析,对舆情研判结果进行情感判断。
S2045:使用遗传算法类别分析相关算法对负面判断结果进行自动分类。
S2046:对自动分类单元进行专题分析。
S2047:通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类。
S2048:进行传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析等网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。
在一些可能的实现方式中,步骤S2044具体包括:采用Word2vector+svm(txt-cnn)算法,通过获取到原始爬虫数据进行清洗,然后人工对这些数据打标签,之后进行去停用词,构建自定义词典,通过jieba分析对句子进行分词,采用word2vector对语料库进行训练,得到词向量,然后通过对句子矩阵求均值,求得句子特征向量,最后通过分类算法训练已经特征化的句子,最后将训练好的模型预测评论内容。
舆情监测系统中的事件可以是话题,热点事件主要话题检测、话题追踪和热度计算。
话题检测:帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别。话题检测原则是同一个话题的文本相似度高,不同话题相似度低。
话题跟踪:某已知话题后续产生的相关的报道,通过对该报道进行训练得到相应的话题模型,对于后续输入的新闻报道,需要找出其中与已知话题模型相似的报道,并加入到相应的话题之中。
热度计算:主要根据牛顿冷却定理得到某一个事件的热度。
本申请将大数据、云计算、人工智能等技术运用于景区舆情监测,使得系统支持大数据存储与计算,并具备事件影响力、情绪分析、热点事件等功能,以帮助景区快速准确监测网上各类旅游负面舆情,全面了解游客关切的旅游相关问题。
如图6和图7所示,作为一种实际中可能采用的应用方式,景区舆情监测分析系统架构自底向上依次为:云支撑平台层、数据存储层、数据采集层、数据预处理层、数据计算层及应用层。
台层在底层基础设施上进行虚拟化,使用应用容器引擎(Docker)和Kubernetes(Google开源的一个容器编排引擎)技术搭建轻量级高可用的云支撑平台,将应用程序容器化,将应用程序打包为容器镜像,并以容器为单位进行部署,轻松实现物理资源的弹性伸缩、按需分配。
数据存储层用于存储后台管理系统产生的结构化数据、业务数据、缓存及图片、文件、视频等非结构化数据,其中结构化数据均存储在Docker容器向外挂载的文件目录下,非结构化数据存储在hdfs(Hadoop Distributed File System,Hadoop分布式文件系统)支撑的文件系统中。后台管理系统产生的数据存储在MySQL(关系型数据库管理系统)中,缓存采用Redis(Remote Dictionary Server,远程字典服务),图片数据主要存储在FastDFS(FastDistributed File System,分布式文件系统)中,其他的一些非机构化数据存储在hive(基于Hadoop的一个数据仓库工具)中。
数据采集层主要利用Python爬虫等技术从平台管理系统配置的网站中爬取景区评论数据,主要来源一些OTA渠道,新闻资讯以及自媒体网站等。数据采集层采集的数据为后续的数据分析提供数据支撑。
数据预处理层主要包括数据的对数据的清洗,数据打标签以及文本预处理,文本向量化等操作等,对采集到的数据进行清洗、集成、变换等一系列ETL操作,将采集到的数据转换为规范、干净的数据,同时让采集到的数据满足数据计算的要求。
数据计算层利用声量、情感分析、热度计算等模型算法,实现评论的声量计算、评论情绪分析、热点事件检测,追踪及热点事件的热度计算等功能。
应用层主要包括平台后台管理系统,景区后台管理系统以及大屏展示等应用,平台后台用于配置爬虫的渠道及来源,景区后台用于管理需要展示的热点事件,大屏展示系统主要在景区进行舆情事件的展示。
景区舆情监测大数据分析系统主要包括平台后台管理系统,景区后台管理系统以及大屏展示系统。
平台后台管理系统中的平台管理员可以配置景区评论数据采集的渠道及采集的内容等用于抓取网络上对某一个景区的评论数据。
景区后台管理系统中的景区管理员主要管理舆情信息及热点事件。对于爬取到的数据,经过数据的清洗,预处理,采用人工智能算法,得到舆情信息及热点事件。景区管理员可以根据需要发布舆情信息和当前的热点事件。
大屏展示系统主要是根据景区管理员发布的舆情信息和热点事件,展示在景区的大屏中,游客在游览景点的时候可以在大屏上看到舆情信息及热点事件。
数据分析包括如下几个维度:
通过各个数据源的阅读量(reading)、转发量(forward)、评论量(comment)、点赞量(support)、收藏数(collection)、分享数(share)等六个维度基础数据,对媒体的综合影响力进行科学定量的评估。所有的客观权重都是根据大规模的数据计算所得。该方法除了客观上保证数学上的最优外,还通过预设六个维度的业务权重保重主观权重最优,通过声量指数模型的构建公式得出声量;
情感分析采用Word2vector+svm(txt-cnn)算法,通过获取到原始爬虫数据进行清洗,然后人工对这些数据打标签,之后进行去停用词,构建自定义词典,通过jieba分析对句子进行分词,采用word2vector对语料库进行训练,得到词向量,然后通过对句子矩阵求均值,求得句子特征向量,最后通过分类算法训练已经特征化的句子,最后将训练好的模型预测评论内容。
舆情监测系统中的事件可以是话题,热点事件主要话题检测、话题追踪和热度计算。
其中,话题检测:帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别。话题检测原则是同一个话题的文本相似度高,不同话题相似度低。
其中,话题跟踪:某已知话题后续产生的相关的报道,通过对该报道进行训练得到相应的话题模型,对于后续输入的新闻报道,需要找出其中与已知话题模型相似的报道,并加入到相应的话题之中。
其中,热度计算:主要根据牛顿冷却定理得到某一个事件的热度。
第三方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括在计算机可读存储介质中存储的计算机程序,并且所述计算程序通过控制器进行加载来实现前述图3至图5的任意可能的实现方式的方法。
第四方面,本申请实施例提供了一种非易失性计算机可读存储介质,用于存储计算机程序,所述计算机程序通过处理器进行加载来执行前述图3至图5的任意可能的实现方式的方法的指令。
第五方面,本申请提实施例供了一种芯片,所述芯片包括可编程逻辑电路和/或程序指令,当所述芯片运行时用于实现前述图3至图5的任意可能的实现方式的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种景区舆情监测分析系统,其特征在于,包括:
信息采集模块,用于利用爬虫技术从平台管理系统配置的网站中爬取景区评论数据,获取舆情源信息;
信息存储模块,用于对采集的舆情源信息进行结构化存储管理,形成实时更新的景区大数据舆情知识库;
数据预处理模块,用于对景区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据;
舆情分析模块,用于利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算;
后台管理模块,用于管理需要展示的热点事件并在景区进行舆情事件的展示。
2.根据权利要求1所述的景区舆情监测分析系统,其特征在于,信息采集模块中景区区域内的舆情源信息的来源包括但不限于:新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。
3.根据权利要求1所述的景区舆情监测分析系统,其特征在于,所述数据预处理模块中对景区大数据舆情知识库中的数据进行预处理包括:对数据的清洗、数据打标签以及文本预处理和文本向量化,对采集到的数据进行清洗、集成、变换操作,将采集到的数据转换为规范、干净的数据,同时让采集到的数据满足数据计算的要求。
4.根据权利要求1-3任一项所述的景区舆情监测分析系统,其特征在于,所述舆情分析模块包括:
声量分析单元,用于根据通过各个数据源的阅读量、转发量、评论量、点赞量、收藏数、分享数六个维度基础数据,对媒体的综合影响力进行科学定量的评估;通过预设所述六个维度的业务权重保重主观权重最优,通过声量指数模型的构建公式得出声量;
舆情研判单元,用于通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判;
情感判断单元,用于通过褒贬分析,对舆情研判结果进行情感判断;
自动分类单元,用于遗传算法类别分析相关算法对负面判断结果进行自动分类;
专题分析单元,用于对自动分类单元进行专题分析;
热点聚类单元,用于通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类;
扩展分析单元,用于传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析等网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。
5.根据权利要求4所述的景区舆情监测分析系统,其特征在于,所述情感判断单元采用Word2vector+svm(txt-cnn)算法,通过获取到原始爬虫数据进行清洗,然后人工对这些数据打标签,之后进行去停用词,构建自定义词典,通过结巴分析对句子进行分词,采用word2vector对语料库进行训练,得到词向量,然后通过对句子矩阵求均值,求得句子特征向量,最后通过分类算法训练已经特征化的句子,最后将训练好的模型预测评论内容。
6.一种景区舆情监测分析方法,其特征在于,包括:
利用爬虫技术从平台管理系统配置的网站中爬取景区评论数据,获取舆情源信息;
对采集的舆情源信息进行结构化存储管理,形成实时更新的景区大数据舆情知识库;
对景区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据;
利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算;
管理需要展示的热点事件并在景区进行舆情事件的展示。
7.根据权利要求6所述的方法,其特征在于,所述景区区域内的舆情源信息的来源包括但不限于:新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。
8.根据权利要求6所述的方法,其特征在于,还包括对景区大数据舆情知识库中的数据进行预处理的步骤,具体包括:数据的对数据的清洗、数据打标签以及文本预处理和文本向量化,对采集到的数据进行清洗、集成、变换操作,将采集到的数据转换为规范、干净的数据,同时让采集到的数据满足数据计算的要求。
9.根据权利要求6-8任一项所述的方法,其特征在于,所述利用声量、情感分析、热度计算模型算法,实现评论的声量计算、评论情绪分析、热点事件检测、追踪及热点事件的热度计算具体包括:
根据通过各个数据源的阅读量、转发量、评论量、点赞量、收藏数、分享数六个维度基础数据,对媒体的综合影响力进行科学定量的评估;通过预设所述六个维度的业务权重保重主观权重最优,通过声量指数模型的构建公式得出声量;
通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判;
通过褒贬分析,对舆情研判结果进行情感判断;
使用遗传算法类别分析相关算法对负面判断结果进行自动分类;
对自动分类单元进行专题分析;
通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类;
进行传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析等网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。
10.根据权利要求9所述的方法,其特征在于,所述通过褒贬分析,对舆情研判结果进行情感判断具体包括:采用Word2vector+svm(txt-cnn)算法,通过获取到原始爬虫数据进行清洗,然后人工对这些数据打标签,之后进行去停用词,构建自定义词典,通过结巴分析对句子进行分词,采用word2vector对语料库进行训练,得到词向量,然后通过对句子矩阵求均值,求得句子特征向量,最后通过分类算法训练已经特征化的句子,最后将训练好的模型预测评论内容。
CN202010253521.3A 2020-04-02 2020-04-02 景区舆情监测分析系统和方法 Pending CN111461553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010253521.3A CN111461553A (zh) 2020-04-02 2020-04-02 景区舆情监测分析系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010253521.3A CN111461553A (zh) 2020-04-02 2020-04-02 景区舆情监测分析系统和方法

Publications (1)

Publication Number Publication Date
CN111461553A true CN111461553A (zh) 2020-07-28

Family

ID=71681575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010253521.3A Pending CN111461553A (zh) 2020-04-02 2020-04-02 景区舆情监测分析系统和方法

Country Status (1)

Country Link
CN (1) CN111461553A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000889A (zh) * 2020-08-31 2020-11-27 上海微趣网络科技有限公司 一种信息汇聚呈现系统
CN112199585A (zh) * 2020-09-29 2021-01-08 黑龙江省网络空间研究中心 一种基于数据挖掘技术的网络舆情突发热点事件发现方法
CN112256946A (zh) * 2020-11-09 2021-01-22 广州瀚信通信科技股份有限公司 基于互联网大数据的全域旅游與情监测分析方法及系统
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN112732781A (zh) * 2020-12-30 2021-04-30 深圳市网联安瑞网络科技有限公司 融合数据质量多维度评估的网情态势动态绘制系统及方法
CN112966500A (zh) * 2021-02-15 2021-06-15 珠海市鸿瑞信息技术股份有限公司 基于人工智能组态的网络数据链安全监测平台
CN113282841A (zh) * 2021-07-19 2021-08-20 中国传媒大学 基于建模的公众话题传播评估方法及系统
CN113378023A (zh) * 2021-05-24 2021-09-10 华北科技学院(中国煤矿安全技术培训中心) 民生舆情及新闻信息挖掘比对可视化系统
CN113704636A (zh) * 2021-08-23 2021-11-26 福建亿榕信息技术有限公司 一种基于信息传播的融媒体舆情分析方法
CN113946736A (zh) * 2021-10-18 2022-01-18 北京清博智能科技有限公司 一种计算事件热度系统及方法
CN116306622A (zh) * 2023-05-25 2023-06-23 环球数科集团有限公司 一种用于改善舆论氛围的aigc评论系统
CN116821502A (zh) * 2023-06-30 2023-09-29 武汉大学 一种基于舆情热点的数据管理方法和系统
CN117076751A (zh) * 2023-10-10 2023-11-17 西安康奈网络科技有限公司 一种基于多维特征分析的舆情事件发展趋势判断系统
CN117093762A (zh) * 2023-07-18 2023-11-21 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法
CN117354065A (zh) * 2023-12-05 2024-01-05 国网四川省电力公司电力科学研究院 一种基于大数据的工控网络威胁情报分析方法及系统
WO2024099098A1 (zh) * 2022-11-07 2024-05-16 中电科大数据研究院有限公司 一种基于群体情绪预测模型的预警方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933093A (zh) * 2015-05-19 2015-09-23 武汉泰迪智慧科技有限公司 基于大数据的地区舆情监控及决策辅助系统和方法
CN108492009A (zh) * 2018-03-06 2018-09-04 宁波中青华云新媒体科技有限公司 影响力评价系统构建方法及系统、影响力评价方法
CN109657962A (zh) * 2018-12-13 2019-04-19 洛阳博得天策网络科技有限公司 一种品牌的声量资产的评估方法及系统
CN110717668A (zh) * 2019-09-30 2020-01-21 上饶市中科院云计算中心大数据研究院 一种旅游景区互联网影响力评估及景区自动管理调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933093A (zh) * 2015-05-19 2015-09-23 武汉泰迪智慧科技有限公司 基于大数据的地区舆情监控及决策辅助系统和方法
CN108492009A (zh) * 2018-03-06 2018-09-04 宁波中青华云新媒体科技有限公司 影响力评价系统构建方法及系统、影响力评价方法
CN109657962A (zh) * 2018-12-13 2019-04-19 洛阳博得天策网络科技有限公司 一种品牌的声量资产的评估方法及系统
CN110717668A (zh) * 2019-09-30 2020-01-21 上饶市中科院云计算中心大数据研究院 一种旅游景区互联网影响力评估及景区自动管理调度方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000889A (zh) * 2020-08-31 2020-11-27 上海微趣网络科技有限公司 一种信息汇聚呈现系统
CN112199585A (zh) * 2020-09-29 2021-01-08 黑龙江省网络空间研究中心 一种基于数据挖掘技术的网络舆情突发热点事件发现方法
CN112256946A (zh) * 2020-11-09 2021-01-22 广州瀚信通信科技股份有限公司 基于互联网大数据的全域旅游與情监测分析方法及系统
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN112732781A (zh) * 2020-12-30 2021-04-30 深圳市网联安瑞网络科技有限公司 融合数据质量多维度评估的网情态势动态绘制系统及方法
CN112966500A (zh) * 2021-02-15 2021-06-15 珠海市鸿瑞信息技术股份有限公司 基于人工智能组态的网络数据链安全监测平台
CN113378023B (zh) * 2021-05-24 2023-05-23 华北科技学院(中国煤矿安全技术培训中心) 民生舆情及新闻信息挖掘比对可视化系统
CN113378023A (zh) * 2021-05-24 2021-09-10 华北科技学院(中国煤矿安全技术培训中心) 民生舆情及新闻信息挖掘比对可视化系统
CN113282841A (zh) * 2021-07-19 2021-08-20 中国传媒大学 基于建模的公众话题传播评估方法及系统
CN113704636A (zh) * 2021-08-23 2021-11-26 福建亿榕信息技术有限公司 一种基于信息传播的融媒体舆情分析方法
CN113946736A (zh) * 2021-10-18 2022-01-18 北京清博智能科技有限公司 一种计算事件热度系统及方法
WO2024099098A1 (zh) * 2022-11-07 2024-05-16 中电科大数据研究院有限公司 一种基于群体情绪预测模型的预警方法、装置及存储介质
CN116306622A (zh) * 2023-05-25 2023-06-23 环球数科集团有限公司 一种用于改善舆论氛围的aigc评论系统
CN116821502A (zh) * 2023-06-30 2023-09-29 武汉大学 一种基于舆情热点的数据管理方法和系统
CN116821502B (zh) * 2023-06-30 2024-03-08 武汉大学 一种基于舆情热点的数据管理方法和系统
CN117093762B (zh) * 2023-07-18 2024-02-13 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法
CN117093762A (zh) * 2023-07-18 2023-11-21 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法
CN117076751A (zh) * 2023-10-10 2023-11-17 西安康奈网络科技有限公司 一种基于多维特征分析的舆情事件发展趋势判断系统
CN117076751B (zh) * 2023-10-10 2024-01-16 西安康奈网络科技有限公司 一种基于多维特征分析的舆情事件发展趋势判断系统
CN117354065A (zh) * 2023-12-05 2024-01-05 国网四川省电力公司电力科学研究院 一种基于大数据的工控网络威胁情报分析方法及系统

Similar Documents

Publication Publication Date Title
CN111461553A (zh) 景区舆情监测分析系统和方法
Chen et al. Using social media images as data in social science research
Gandomi et al. Beyond the hype: Big data concepts, methods, and analytics
US9767166B2 (en) System and method for predicting user behaviors based on phrase connections
CN106383887B (zh) 一种环保新闻数据采集和推荐展示的方法及系统
Tanwar et al. Unravelling unstructured data: A wealth of information in big data
CN104182389A (zh) 一种基于语义的大数据分析商业智能服务系统
Das et al. A CV parser model using entity extraction process and big data tools
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
Ghadery et al. LICD: A language-independent approach for aspect category detection
Hou et al. Understanding social media beyond text: a reliable practice on Twitter
Trana et al. Fighting cyberbullying: An analysis of algorithms used to detect harassing text found on YouTube
Chen et al. Big data applications
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
Gupta et al. Research and implementation of event extraction from twitter using LDA and scoring function
Mehmood et al. A study of sentiment and trend analysis techniques for social media content
Oliveira-Barra et al. Leveraging activity indexing for egocentric image retrieval
Subramani et al. Text mining and real-time analytics of twitter data: A case study of australian hay fever prediction
Afyouni et al. E-ware: a big data system for the incremental discovery of spatio-temporal events from microblogs
Dugane et al. A survey on Big Data in real-time
Musto et al. Developing smart cities services through semantic analysis of social streams
Volkova et al. Contrasting public opinion dynamics and emotional response during crisis
Jung Discovering social bursts by using link analytics on large-scale social networks
Shah et al. Multimodal semantics and affective computing from multimedia content
Liu et al. Urbanity: A system for interactive exploration of urban dynamics from streaming human sensing data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200728