CN111783456A - 一种利用语义分析技术的舆情分析方法 - Google Patents
一种利用语义分析技术的舆情分析方法 Download PDFInfo
- Publication number
- CN111783456A CN111783456A CN202010673453.6A CN202010673453A CN111783456A CN 111783456 A CN111783456 A CN 111783456A CN 202010673453 A CN202010673453 A CN 202010673453A CN 111783456 A CN111783456 A CN 111783456A
- Authority
- CN
- China
- Prior art keywords
- word
- matching
- public
- segmentation
- public opinion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000011161 development Methods 0.000 claims abstract description 7
- 230000018109 developmental process Effects 0.000 claims abstract description 7
- 230000008451 emotion Effects 0.000 claims abstract description 6
- 238000004904 shortening Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 3
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明涉及舆情分析技术领域,具体是一种利用语义分析技术的舆情分析方法,包括步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息,同时根据舆情数据的指数进行舆情预警;步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势,对于突发舆情事件进行回溯事件的演变历史,宏观观察整体的走势和演变历程;步骤3。本发明设计新颖,方法简单有效,在采集舆情时,通过最大匹配分词方法和全切分分词算法,充分展现中文分词的技术,能将准确率达到99%,根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,以便于客户更好的监测自己品牌舆情信息,帮助客户规避风险和预判,提升了用户的使用体验。
Description
技术领域
本发明涉及舆情分析技术领域,具体是一种利用语义分析技术的舆情分析方法。
背景技术
舆情是舆论情况的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度,它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和,随着社会的发展,网络传播速度的高速发展,进而成为舆情的重要载体,加速了舆情的传播率。
但是现有的舆情分析方法过于简单,在针对文本词识别方便存有一定的弱项,因此导致舆情采集、分析不是很精确,严重影响了客户对舆情的监测。因此,本领域技术人员提供了一种利用语义分析技术的舆情分析方法,以解决上述背景技术中提出的问题。
发明内容
本发明的目的在于提供一种利用语义分析技术的舆情分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种利用语义分析技术的舆情分析方法,包括以下方法:
步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息,同时根据舆情数据的指数进行舆情预警;
步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势,对于突发舆情事件进行回溯事件的演变历史,宏观观察整体的走势和演变历程;
步骤3、根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,归类后存储至本地文档中。
本发明更进一步的方案:所述采集模板包含分词模块和词典库,分词模块采用最大匹配分词方法和全切分分词算法,词典库中存储有所有可能出现的词语。
本发明更进一步的方案:所述最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法:
正向最大匹配算法:从当前位置开始,向右截取最大长度(可自行设定),组成当前词,并和词典库中的词进行逐一匹配;
匹配成功后,则进行下一次匹配,下次匹配的当前位置则为上个当前词后面那个字;
若未能成功匹配,就缩短长度(长度每次递减一)重新截取后再次进行匹配,直至当前词与词典库中的词匹配或者当前词为单字。
例如:我是中国人;
词典库中的词则包括中国和中国人;
设最大词长为3;
S1、“我是中”为截取的词,在与词典库中词比对时未匹配成功;
S2、缩短一个长度后“我是”为截取的词,在与词典库中词比对时未匹配成功;
S3、缩短一个长度后“我”为截取词,在与词典库中词比对时匹配成功;
S4、从前一个当前词的后一个字开始重新截取,“是中国”为新的截取词,在与词典库中词比对时未匹配成功;
S5、缩短一个长度后“是中”为截取的词,在与词典库中词比对时未匹配成功;
S6、缩短一个长度后“是”为截取词,在与词典库中词比对时匹配成功;
S7、从前一个当前词的后一个字开始重新截取,“中国人”为新的截取词,在与词典库中词比对时匹配成功,完成分词;
逆向最大匹配算法与正向最大匹配算法相反。
本发明更进一步的方案:所述全切分分词算法包括以下步骤:
A1、选择一段文本,将文本中的文字视为字符串;
A2、选择切分点切分字串符,并与词典库中的词进行匹配,如匹配成功,保留切分结果,如匹配失败,则不保留切分结果,继续进行下一轮切分,直至所有字符串切分成功。
本发明更进一步的方案:所述舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。
本发明更进一步的方案:所述本地存储库中包含清理模块和查询模块,清理模块对连续多次未被访问的舆情信息进行定时清理。
本发明更进一步的方案:查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。
与现有技术相比,本发明的有益效果是:本发明设计新颖,方法简单有效,在采集舆情时,通过最大匹配分词方法和全切分分词算法,充分展现中文分词的技术,能将准确率达到99%,根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,以便于客户更好的监测自己品牌舆情信息,帮助客户规避风险和预判,提升了用户的使用体验。
附图说明
图1为一种利用语义分析技术的舆情分析方法的步骤图;
具体实施方式
请参阅图1,本发明实施例中,一种利用语义分析技术的舆情分析方法,包括以下方法:
步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息,同时根据舆情数据的指数进行舆情预警;
步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势,对于突发舆情事件进行回溯事件的演变历史,宏观观察整体的走势和演变历程;
步骤3、根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,归类后存储至本地文档中。
进一步的,采集模板包含分词模块和词典库,分词模块采用最大匹配分词方法和全切分分词算法,词典库中存储有所有可能出现的词语。
进一步的,最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法:
正向最大匹配算法:从当前位置开始,向右截取最大长度(可自行设定),组成当前词,并和词典库中的词进行逐一匹配;
匹配成功后,则进行下一次匹配,下次匹配的当前位置则为上个当前词后面那个字;
若未能成功匹配,就缩短长度(长度每次递减一)重新截取后再次进行匹配,直至当前词与词典库中的词匹配或者当前词为单字。
例如:我是中国人;
词典库中的词则包括中国和中国人;
设最大词长为3;
S1、“我是中”为截取的词,在与词典库中词比对时未匹配成功;
S2、缩短一个长度后“我是”为截取的词,在与词典库中词比对时未匹配成功;
S3、缩短一个长度后“我”为截取词,在与词典库中词比对时匹配成功;
S4、从前一个当前词的后一个字开始重新截取,“是中国”为新的截取词,在与词典库中词比对时未匹配成功;
S5、缩短一个长度后“是中”为截取的词,在与词典库中词比对时未匹配成功;
S6、缩短一个长度后“是”为截取词,在与词典库中词比对时匹配成功;
S7、从前一个当前词的后一个字开始重新截取,“中国人”为新的截取词,在与词典库中词比对时匹配成功,完成分词;
逆向最大匹配算法与正向最大匹配算法相反。
进一步的,全切分分词算法包括以下步骤:
A1、选择一段文本,将文本中的文字视为字符串;
A2、选择切分点切分字串符,并与词典库中的词进行匹配,如匹配成功,保留切分结果,如匹配失败,则不保留切分结果,继续进行下一轮切分,直至所有字符串切分成功。
进一步的,舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。
进一步的,本地存储库中包含清理模块和查询模块,清理模块对连续多次未被访问的舆情信息进行定时清理。
进一步的,查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。
对比例
设置关键字分别采用本实施例的采集模板和传统舆情采集的爬虫进行分词,得出以下识别数据;
关键字1:她打扮漂漂亮亮的出现在我的面前;
关键字2:他是研究生物化学的;
综上所述:本发明设计新颖,方法简单有效,在采集舆情时,通过最大匹配分词方法和全切分分词算法,充分展现中文分词的技术,能将准确率达到99%,根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,以便于客户更好的监测自己品牌舆情信息,帮助客户规避风险和预判,提升了用户的使用体验。
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种利用语义分析技术的舆情分析方法,其特征在于,包括以下方法:
步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息,同时根据舆情数据的指数进行舆情预警;
步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势,对于突发舆情事件进行回溯事件的演变历史,宏观观察整体的走势和演变历程;
步骤3、根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,归类后存储至本地文档中。
2.根据权利要求1所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述采集模板包含分词模块和词典库,分词模块采用最大匹配分词方法和全切分分词算法,词典库中存储有所有可能出现的词语。
3.根据权利要求2所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法:
正向最大匹配算法:从当前位置开始,向右截取最大长度(可自行设定),组成当前词,并和词典库中的词进行逐一匹配;
匹配成功后,则进行下一次匹配,下次匹配的当前位置则为上个当前词后面那个字;
若未能成功匹配,就缩短长度(长度每次递减一)重新截取后再次进行匹配,直至当前词与词典库中的词匹配或者当前词为单字。
例如:我是中国人;
词典库中的词则包括中国和中国人;
设最大词长为3;
S1、“我是中”为截取的词,在与词典库中词比对时未匹配成功;
S2、缩短一个长度后“我是”为截取的词,在与词典库中词比对时未匹配成功;
S3、缩短一个长度后“我”为截取词,在与词典库中词比对时匹配成功;
S4、从前一个当前词的后一个字开始重新截取,“是中国”为新的截取词,在与词典库中词比对时未匹配成功;
S5、缩短一个长度后“是中”为截取的词,在与词典库中词比对时未匹配成功;
S6、缩短一个长度后“是”为截取词,在与词典库中词比对时匹配成功;
S7、从前一个当前词的后一个字开始重新截取,“中国人”为新的截取词,在与词典库中词比对时匹配成功,完成分词;
逆向最大匹配算法与正向最大匹配算法相反。
4.根据权利要求2所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述全切分分词算法包括以下步骤:
A1、选择一段文本,将文本中的文字视为字符串;
A2、选择切分点切分字串符,并与词典库中的词进行匹配,如匹配成功,保留切分结果,如匹配失败,则不保留切分结果,继续进行下一轮切分,直至所有字符串切分成功。
5.根据权利要求1所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。
6.根据权利要求1所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述本地存储库中包含清理模块和查询模块,清理模块对连续多次未被访问的舆情信息进行定时清理。
7.根据权利要求6所述的一种利用语义分析技术的舆情分析方法,其特征在于,查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010673453.6A CN111783456A (zh) | 2020-07-14 | 2020-07-14 | 一种利用语义分析技术的舆情分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010673453.6A CN111783456A (zh) | 2020-07-14 | 2020-07-14 | 一种利用语义分析技术的舆情分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111783456A true CN111783456A (zh) | 2020-10-16 |
Family
ID=72768631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010673453.6A Pending CN111783456A (zh) | 2020-07-14 | 2020-07-14 | 一种利用语义分析技术的舆情分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783456A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065975A (zh) * | 2021-03-23 | 2021-07-02 | 深圳市网联安瑞网络科技有限公司 | 网络舆情话题聚焦程度与演变关系计算方法、系统、终端 |
CN113626718A (zh) * | 2021-09-18 | 2021-11-09 | 广东电网有限责任公司广州供电局 | 一种企业管理系统人机交互事件处理方法及系统 |
CN114661974A (zh) * | 2022-03-21 | 2022-06-24 | 重庆市规划和自然资源信息中心 | 利用自然语言语义分析的政务网站舆情分析与预警的方法 |
-
2020
- 2020-07-14 CN CN202010673453.6A patent/CN111783456A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065975A (zh) * | 2021-03-23 | 2021-07-02 | 深圳市网联安瑞网络科技有限公司 | 网络舆情话题聚焦程度与演变关系计算方法、系统、终端 |
CN113626718A (zh) * | 2021-09-18 | 2021-11-09 | 广东电网有限责任公司广州供电局 | 一种企业管理系统人机交互事件处理方法及系统 |
CN114661974A (zh) * | 2022-03-21 | 2022-06-24 | 重庆市规划和自然资源信息中心 | 利用自然语言语义分析的政务网站舆情分析与预警的方法 |
CN114661974B (zh) * | 2022-03-21 | 2024-03-08 | 重庆市规划和自然资源信息中心 | 利用自然语言语义分析的政务网站舆情分析与预警的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210209109A1 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
EP2159715B1 (en) | System and method for providing a topic-directed search | |
JP5332477B2 (ja) | ターム階層の自動生成 | |
WO2020108430A1 (zh) | 一种微博情感分析方法及系统 | |
AU2017200585A1 (en) | System and engine for seeded clustering of news events | |
CN111783456A (zh) | 一种利用语义分析技术的舆情分析方法 | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
CN104965931A (zh) | 一种基于大数据的舆情分析方法 | |
CN105138577A (zh) | 一种基于大数据的事件演化分析方法 | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN111859065A (zh) | 一种基于大数据的舆情聆听系统 | |
CN104965930A (zh) | 一种基于大数据的突发事件演化分析方法 | |
CN114881041A (zh) | 微博大数据热点话题多维度智能提取系统 | |
Zhang | The influence of ideological and political education on employment quality of college students based on association rule analysis | |
CN110990530A (zh) | 一种基于深度学习的微博博主性格分析方法 | |
KR101351555B1 (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 | |
US20150169583A1 (en) | Trending analysis for streams of documents | |
Terko et al. | Neurips conference papers classification based on topic modeling | |
CN113254623A (zh) | 数据处理方法、装置、服务器、介质及产品 | |
JP2020113267A (ja) | リーディングリストを生成するシステム及び方法 | |
Gorvankolla et al. | Application of Text Mining in Effective Document Analysis: Advantages, Challenges, Techniques and Tools | |
Shankar et al. | An approach for extracting tweets from social media factors | |
Ponmuthuramalingam et al. | Effective dimension reduction techniques for text documents | |
Liu et al. | A Financial Advertisement Recognition Algorithm Model Based on Text | |
Kaushal et al. | Hybrid Model for Sentiment Analysis of Whatsapp Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201016 |