CN111783456A - 一种利用语义分析技术的舆情分析方法 - Google Patents

一种利用语义分析技术的舆情分析方法 Download PDF

Info

Publication number
CN111783456A
CN111783456A CN202010673453.6A CN202010673453A CN111783456A CN 111783456 A CN111783456 A CN 111783456A CN 202010673453 A CN202010673453 A CN 202010673453A CN 111783456 A CN111783456 A CN 111783456A
Authority
CN
China
Prior art keywords
word
matching
public
segmentation
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010673453.6A
Other languages
English (en)
Inventor
张志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bole Internet Technology Development Co ltd
Original Assignee
Beijing Bole Internet Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bole Internet Technology Development Co ltd filed Critical Beijing Bole Internet Technology Development Co ltd
Priority to CN202010673453.6A priority Critical patent/CN111783456A/zh
Publication of CN111783456A publication Critical patent/CN111783456A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及舆情分析技术领域,具体是一种利用语义分析技术的舆情分析方法,包括步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息,同时根据舆情数据的指数进行舆情预警;步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势,对于突发舆情事件进行回溯事件的演变历史,宏观观察整体的走势和演变历程;步骤3。本发明设计新颖,方法简单有效,在采集舆情时,通过最大匹配分词方法和全切分分词算法,充分展现中文分词的技术,能将准确率达到99%,根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,以便于客户更好的监测自己品牌舆情信息,帮助客户规避风险和预判,提升了用户的使用体验。

Description

一种利用语义分析技术的舆情分析方法
技术领域
本发明涉及舆情分析技术领域,具体是一种利用语义分析技术的舆情分析方法。
背景技术
舆情是舆论情况的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度,它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和,随着社会的发展,网络传播速度的高速发展,进而成为舆情的重要载体,加速了舆情的传播率。
但是现有的舆情分析方法过于简单,在针对文本词识别方便存有一定的弱项,因此导致舆情采集、分析不是很精确,严重影响了客户对舆情的监测。因此,本领域技术人员提供了一种利用语义分析技术的舆情分析方法,以解决上述背景技术中提出的问题。
发明内容
本发明的目的在于提供一种利用语义分析技术的舆情分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种利用语义分析技术的舆情分析方法,包括以下方法:
步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息,同时根据舆情数据的指数进行舆情预警;
步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势,对于突发舆情事件进行回溯事件的演变历史,宏观观察整体的走势和演变历程;
步骤3、根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,归类后存储至本地文档中。
本发明更进一步的方案:所述采集模板包含分词模块和词典库,分词模块采用最大匹配分词方法和全切分分词算法,词典库中存储有所有可能出现的词语。
本发明更进一步的方案:所述最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法:
正向最大匹配算法:从当前位置开始,向右截取最大长度(可自行设定),组成当前词,并和词典库中的词进行逐一匹配;
匹配成功后,则进行下一次匹配,下次匹配的当前位置则为上个当前词后面那个字;
若未能成功匹配,就缩短长度(长度每次递减一)重新截取后再次进行匹配,直至当前词与词典库中的词匹配或者当前词为单字。
例如:我是中国人;
词典库中的词则包括中国和中国人;
设最大词长为3;
S1、“我是中”为截取的词,在与词典库中词比对时未匹配成功;
S2、缩短一个长度后“我是”为截取的词,在与词典库中词比对时未匹配成功;
S3、缩短一个长度后“我”为截取词,在与词典库中词比对时匹配成功;
S4、从前一个当前词的后一个字开始重新截取,“是中国”为新的截取词,在与词典库中词比对时未匹配成功;
S5、缩短一个长度后“是中”为截取的词,在与词典库中词比对时未匹配成功;
S6、缩短一个长度后“是”为截取词,在与词典库中词比对时匹配成功;
S7、从前一个当前词的后一个字开始重新截取,“中国人”为新的截取词,在与词典库中词比对时匹配成功,完成分词;
逆向最大匹配算法与正向最大匹配算法相反。
本发明更进一步的方案:所述全切分分词算法包括以下步骤:
A1、选择一段文本,将文本中的文字视为字符串;
A2、选择切分点切分字串符,并与词典库中的词进行匹配,如匹配成功,保留切分结果,如匹配失败,则不保留切分结果,继续进行下一轮切分,直至所有字符串切分成功。
本发明更进一步的方案:所述舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。
本发明更进一步的方案:所述本地存储库中包含清理模块和查询模块,清理模块对连续多次未被访问的舆情信息进行定时清理。
本发明更进一步的方案:查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。
与现有技术相比,本发明的有益效果是:本发明设计新颖,方法简单有效,在采集舆情时,通过最大匹配分词方法和全切分分词算法,充分展现中文分词的技术,能将准确率达到99%,根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,以便于客户更好的监测自己品牌舆情信息,帮助客户规避风险和预判,提升了用户的使用体验。
附图说明
图1为一种利用语义分析技术的舆情分析方法的步骤图;
具体实施方式
请参阅图1,本发明实施例中,一种利用语义分析技术的舆情分析方法,包括以下方法:
步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息,同时根据舆情数据的指数进行舆情预警;
步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势,对于突发舆情事件进行回溯事件的演变历史,宏观观察整体的走势和演变历程;
步骤3、根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,归类后存储至本地文档中。
进一步的,采集模板包含分词模块和词典库,分词模块采用最大匹配分词方法和全切分分词算法,词典库中存储有所有可能出现的词语。
进一步的,最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法:
正向最大匹配算法:从当前位置开始,向右截取最大长度(可自行设定),组成当前词,并和词典库中的词进行逐一匹配;
匹配成功后,则进行下一次匹配,下次匹配的当前位置则为上个当前词后面那个字;
若未能成功匹配,就缩短长度(长度每次递减一)重新截取后再次进行匹配,直至当前词与词典库中的词匹配或者当前词为单字。
例如:我是中国人;
词典库中的词则包括中国和中国人;
设最大词长为3;
S1、“我是中”为截取的词,在与词典库中词比对时未匹配成功;
S2、缩短一个长度后“我是”为截取的词,在与词典库中词比对时未匹配成功;
S3、缩短一个长度后“我”为截取词,在与词典库中词比对时匹配成功;
S4、从前一个当前词的后一个字开始重新截取,“是中国”为新的截取词,在与词典库中词比对时未匹配成功;
S5、缩短一个长度后“是中”为截取的词,在与词典库中词比对时未匹配成功;
S6、缩短一个长度后“是”为截取词,在与词典库中词比对时匹配成功;
S7、从前一个当前词的后一个字开始重新截取,“中国人”为新的截取词,在与词典库中词比对时匹配成功,完成分词;
逆向最大匹配算法与正向最大匹配算法相反。
进一步的,全切分分词算法包括以下步骤:
A1、选择一段文本,将文本中的文字视为字符串;
A2、选择切分点切分字串符,并与词典库中的词进行匹配,如匹配成功,保留切分结果,如匹配失败,则不保留切分结果,继续进行下一轮切分,直至所有字符串切分成功。
进一步的,舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。
进一步的,本地存储库中包含清理模块和查询模块,清理模块对连续多次未被访问的舆情信息进行定时清理。
进一步的,查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。
对比例
设置关键字分别采用本实施例的采集模板和传统舆情采集的爬虫进行分词,得出以下识别数据;
关键字1:她打扮漂漂亮亮的出现在我的面前;
关键字2:他是研究生物化学的;
Figure BSA0000213318320000051
综上所述:本发明设计新颖,方法简单有效,在采集舆情时,通过最大匹配分词方法和全切分分词算法,充分展现中文分词的技术,能将准确率达到99%,根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,以便于客户更好的监测自己品牌舆情信息,帮助客户规避风险和预判,提升了用户的使用体验。
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种利用语义分析技术的舆情分析方法,其特征在于,包括以下方法:
步骤1、通过采集模板根据关键词去全网采集与该关键词相关的舆情信息,同时根据舆情数据的指数进行舆情预警;
步骤2、对采集后的舆情进行预测事件的发展和演变判断未来的舆情走势,对于突发舆情事件进行回溯事件的演变历史,宏观观察整体的走势和演变历程;
步骤3、根据词的褒贬定义以及舆情文本内容的情感值进行正负面归类,归类后存储至本地文档中。
2.根据权利要求1所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述采集模板包含分词模块和词典库,分词模块采用最大匹配分词方法和全切分分词算法,词典库中存储有所有可能出现的词语。
3.根据权利要求2所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述最大匹配分词方法还包括正向最大匹配算法和逆向最大匹配算法:
正向最大匹配算法:从当前位置开始,向右截取最大长度(可自行设定),组成当前词,并和词典库中的词进行逐一匹配;
匹配成功后,则进行下一次匹配,下次匹配的当前位置则为上个当前词后面那个字;
若未能成功匹配,就缩短长度(长度每次递减一)重新截取后再次进行匹配,直至当前词与词典库中的词匹配或者当前词为单字。
例如:我是中国人;
词典库中的词则包括中国和中国人;
设最大词长为3;
S1、“我是中”为截取的词,在与词典库中词比对时未匹配成功;
S2、缩短一个长度后“我是”为截取的词,在与词典库中词比对时未匹配成功;
S3、缩短一个长度后“我”为截取词,在与词典库中词比对时匹配成功;
S4、从前一个当前词的后一个字开始重新截取,“是中国”为新的截取词,在与词典库中词比对时未匹配成功;
S5、缩短一个长度后“是中”为截取的词,在与词典库中词比对时未匹配成功;
S6、缩短一个长度后“是”为截取词,在与词典库中词比对时匹配成功;
S7、从前一个当前词的后一个字开始重新截取,“中国人”为新的截取词,在与词典库中词比对时匹配成功,完成分词;
逆向最大匹配算法与正向最大匹配算法相反。
4.根据权利要求2所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述全切分分词算法包括以下步骤:
A1、选择一段文本,将文本中的文字视为字符串;
A2、选择切分点切分字串符,并与词典库中的词进行匹配,如匹配成功,保留切分结果,如匹配失败,则不保留切分结果,继续进行下一轮切分,直至所有字符串切分成功。
5.根据权利要求1所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述舆情数据指数包括网站传播量、覆盖率、关注度以及综合评价。
6.根据权利要求1所述的一种利用语义分析技术的舆情分析方法,其特征在于,所述本地存储库中包含清理模块和查询模块,清理模块对连续多次未被访问的舆情信息进行定时清理。
7.根据权利要求6所述的一种利用语义分析技术的舆情分析方法,其特征在于,查询模块可以通过搜索关键词、地区、日期、标题进行筛选查找。
CN202010673453.6A 2020-07-14 2020-07-14 一种利用语义分析技术的舆情分析方法 Pending CN111783456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010673453.6A CN111783456A (zh) 2020-07-14 2020-07-14 一种利用语义分析技术的舆情分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010673453.6A CN111783456A (zh) 2020-07-14 2020-07-14 一种利用语义分析技术的舆情分析方法

Publications (1)

Publication Number Publication Date
CN111783456A true CN111783456A (zh) 2020-10-16

Family

ID=72768631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010673453.6A Pending CN111783456A (zh) 2020-07-14 2020-07-14 一种利用语义分析技术的舆情分析方法

Country Status (1)

Country Link
CN (1) CN111783456A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065975A (zh) * 2021-03-23 2021-07-02 深圳市网联安瑞网络科技有限公司 网络舆情话题聚焦程度与演变关系计算方法、系统、终端
CN113626718A (zh) * 2021-09-18 2021-11-09 广东电网有限责任公司广州供电局 一种企业管理系统人机交互事件处理方法及系统
CN114661974A (zh) * 2022-03-21 2022-06-24 重庆市规划和自然资源信息中心 利用自然语言语义分析的政务网站舆情分析与预警的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065975A (zh) * 2021-03-23 2021-07-02 深圳市网联安瑞网络科技有限公司 网络舆情话题聚焦程度与演变关系计算方法、系统、终端
CN113626718A (zh) * 2021-09-18 2021-11-09 广东电网有限责任公司广州供电局 一种企业管理系统人机交互事件处理方法及系统
CN114661974A (zh) * 2022-03-21 2022-06-24 重庆市规划和自然资源信息中心 利用自然语言语义分析的政务网站舆情分析与预警的方法
CN114661974B (zh) * 2022-03-21 2024-03-08 重庆市规划和自然资源信息中心 利用自然语言语义分析的政务网站舆情分析与预警的方法

Similar Documents

Publication Publication Date Title
US20210209109A1 (en) Method, apparatus, device, and storage medium for intention recommendation
EP2159715B1 (en) System and method for providing a topic-directed search
JP5332477B2 (ja) ターム階層の自動生成
WO2020108430A1 (zh) 一种微博情感分析方法及系统
AU2017200585A1 (en) System and engine for seeded clustering of news events
CN111783456A (zh) 一种利用语义分析技术的舆情分析方法
CN107918644B (zh) 声誉管理框架内的新闻议题分析方法和实施系统
CN104965931A (zh) 一种基于大数据的舆情分析方法
CN105138577A (zh) 一种基于大数据的事件演化分析方法
CA2956627A1 (en) System and engine for seeded clustering of news events
CN111859065A (zh) 一种基于大数据的舆情聆听系统
CN104965930A (zh) 一种基于大数据的突发事件演化分析方法
CN114881041A (zh) 微博大数据热点话题多维度智能提取系统
Zhang The influence of ideological and political education on employment quality of college students based on association rule analysis
CN110990530A (zh) 一种基于深度学习的微博博主性格分析方法
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
US20150169583A1 (en) Trending analysis for streams of documents
Terko et al. Neurips conference papers classification based on topic modeling
CN113254623A (zh) 数据处理方法、装置、服务器、介质及产品
JP2020113267A (ja) リーディングリストを生成するシステム及び方法
Gorvankolla et al. Application of Text Mining in Effective Document Analysis: Advantages, Challenges, Techniques and Tools
Shankar et al. An approach for extracting tweets from social media factors
Ponmuthuramalingam et al. Effective dimension reduction techniques for text documents
Liu et al. A Financial Advertisement Recognition Algorithm Model Based on Text
Kaushal et al. Hybrid Model for Sentiment Analysis of Whatsapp Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201016