CN111783456A

CN111783456A - 一种利用语义分析技术的舆情分析方法

Info

Publication number: CN111783456A
Application number: CN202010673453.6A
Authority: CN
Inventors: 张志刚
Original assignee: Beijing Bole Internet Technology Development Co ltd
Current assignee: Beijing Bole Internet Technology Development Co ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-16

Abstract

本发明涉及舆情分析技术领域，具体是一种利用语义分析技术的舆情分析方法，包括步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息，同时根据舆情数据的指数进行舆情预警；步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势，对于突发舆情事件进行回溯事件的演变历史，宏观观察整体的走势和演变历程；步骤3。本发明设计新颖，方法简单有效，在采集舆情时，通过最大匹配分词方法和全切分分词算法，充分展现中文分词的技术，能将准确率达到99％，根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类，以便于客户更好的监测自己品牌舆情信息，帮助客户规避风险和预判，提升了用户的使用体验。

Description

一种利用语义分析技术的舆情分析方法

技术领域

本发明涉及舆情分析技术领域，具体是一种利用语义分析技术的舆情分析方法。

背景技术

舆情是舆论情况的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度，它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和，随着社会的发展，网络传播速度的高速发展，进而成为舆情的重要载体，加速了舆情的传播率。

但是现有的舆情分析方法过于简单，在针对文本词识别方便存有一定的弱项，因此导致舆情采集、分析不是很精确，严重影响了客户对舆情的监测。因此，本领域技术人员提供了一种利用语义分析技术的舆情分析方法，以解决上述背景技术中提出的问题。

发明内容

本发明的目的在于提供一种利用语义分析技术的舆情分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种利用语义分析技术的舆情分析方法，包括以下方法：

步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息，同时根据舆情数据的指数进行舆情预警；

步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势，对于突发舆情事件进行回溯事件的演变历史，宏观观察整体的走势和演变历程；

步骤3、根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类，归类后存储至本地文档中。

本发明更进一步的方案：所述采集模板包含分词模块和词典库，分词模块采用最大匹配分词方法和全切分分词算法，词典库中存储有所有可能出现的词语。

本发明更进一步的方案：所述最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法：

正向最大匹配算法：从当前位置开始，向右截取最大长度(可自行设定)，组成当前词，并和词典库中的词进行逐一匹配；

匹配成功后，则进行下一次匹配，下次匹配的当前位置则为上个当前词后面那个字；

若未能成功匹配，就缩短长度(长度每次递减一)重新截取后再次进行匹配，直至当前词与词典库中的词匹配或者当前词为单字。

例如：我是中国人；

词典库中的词则包括中国和中国人；

设最大词长为3；

S1、“我是中”为截取的词，在与词典库中词比对时未匹配成功；

S2、缩短一个长度后“我是”为截取的词，在与词典库中词比对时未匹配成功；

S3、缩短一个长度后“我”为截取词，在与词典库中词比对时匹配成功；

S4、从前一个当前词的后一个字开始重新截取，“是中国”为新的截取词，在与词典库中词比对时未匹配成功；

S5、缩短一个长度后“是中”为截取的词，在与词典库中词比对时未匹配成功；

S6、缩短一个长度后“是”为截取词，在与词典库中词比对时匹配成功；

S7、从前一个当前词的后一个字开始重新截取，“中国人”为新的截取词，在与词典库中词比对时匹配成功，完成分词；

逆向最大匹配算法与正向最大匹配算法相反。

本发明更进一步的方案：所述全切分分词算法包括以下步骤：

A1、选择一段文本，将文本中的文字视为字符串；

A2、选择切分点切分字串符，并与词典库中的词进行匹配，如匹配成功，保留切分结果，如匹配失败，则不保留切分结果，继续进行下一轮切分，直至所有字符串切分成功。

本发明更进一步的方案：所述舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。

本发明更进一步的方案：所述本地存储库中包含清理模块和查询模块，清理模块对连续多次未被访问的舆情信息进行定时清理。

本发明更进一步的方案：查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。

与现有技术相比，本发明的有益效果是：本发明设计新颖，方法简单有效，在采集舆情时，通过最大匹配分词方法和全切分分词算法，充分展现中文分词的技术，能将准确率达到99％，根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类，以便于客户更好的监测自己品牌舆情信息，帮助客户规避风险和预判，提升了用户的使用体验。

附图说明

图1为一种利用语义分析技术的舆情分析方法的步骤图；

具体实施方式

请参阅图1，本发明实施例中，一种利用语义分析技术的舆情分析方法，包括以下方法：

进一步的，采集模板包含分词模块和词典库，分词模块采用最大匹配分词方法和全切分分词算法，词典库中存储有所有可能出现的词语。

进一步的，最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法：

例如：我是中国人；

词典库中的词则包括中国和中国人；

设最大词长为3；

逆向最大匹配算法与正向最大匹配算法相反。

进一步的，全切分分词算法包括以下步骤：

A1、选择一段文本，将文本中的文字视为字符串；

进一步的，舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。

进一步的，本地存储库中包含清理模块和查询模块，清理模块对连续多次未被访问的舆情信息进行定时清理。

进一步的，查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。

对比例

设置关键字分别采用本实施例的采集模板和传统舆情采集的爬虫进行分词，得出以下识别数据；

关键字1：她打扮漂漂亮亮的出现在我的面前；

关键字2：他是研究生物化学的；

综上所述：本发明设计新颖，方法简单有效，在采集舆情时，通过最大匹配分词方法和全切分分词算法，充分展现中文分词的技术，能将准确率达到99％，根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类，以便于客户更好的监测自己品牌舆情信息，帮助客户规避风险和预判，提升了用户的使用体验。

以上所述的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种利用语义分析技术的舆情分析方法，其特征在于，包括以下方法：

2.根据权利要求1所述的一种利用语义分析技术的舆情分析方法，其特征在于，所述采集模板包含分词模块和词典库，分词模块采用最大匹配分词方法和全切分分词算法，词典库中存储有所有可能出现的词语。

3.根据权利要求2所述的一种利用语义分析技术的舆情分析方法，其特征在于，所述最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法：

例如：我是中国人；

词典库中的词则包括中国和中国人；

设最大词长为3；

逆向最大匹配算法与正向最大匹配算法相反。

4.根据权利要求2所述的一种利用语义分析技术的舆情分析方法，其特征在于，所述全切分分词算法包括以下步骤：

A1、选择一段文本，将文本中的文字视为字符串；

5.根据权利要求1所述的一种利用语义分析技术的舆情分析方法，其特征在于，所述舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。

6.根据权利要求1所述的一种利用语义分析技术的舆情分析方法，其特征在于，所述本地存储库中包含清理模块和查询模块，清理模块对连续多次未被访问的舆情信息进行定时清理。

7.根据权利要求6所述的一种利用语义分析技术的舆情分析方法，其特征在于，查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。