CN109582801A - 一种基于情感分析在线热点事件跟踪及分析的方法 - Google Patents
一种基于情感分析在线热点事件跟踪及分析的方法 Download PDFInfo
- Publication number
- CN109582801A CN109582801A CN201811454028.7A CN201811454028A CN109582801A CN 109582801 A CN109582801 A CN 109582801A CN 201811454028 A CN201811454028 A CN 201811454028A CN 109582801 A CN109582801 A CN 109582801A
- Authority
- CN
- China
- Prior art keywords
- module
- analysis
- term vector
- focus incident
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于情感分析在线热点事件跟踪及分析的方法,具体包括以下步骤:S1、首先人们可通过用户操作模块将需要分析的热点事件相关关键词的原始文本输入到整个分析系统内,然后通过原始文本分词处理模块对原始文本数据进行分词处理得到分词文本,本发明涉及信息处理技术领域。该基于情感分析在线热点事件跟踪及分析的方法,可很好的解决现有的关键词识别和检索太过于局限的问题,大大提高识别和检索的准确度,实现了对人们输入关键词文本进行情感化智能识别,很好的达到了通过识别关键词文本中情感文本,来准确的理解关键词词义的目的,从而大大方便了相关人员的信息检索、跟踪和分析工作。
Description
技术领域
本发明涉及信息处理技术领域,具体为一种基于情感分析在线热点事件跟踪及分析的方法。
背景技术
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分,大数据必然无法用单台的计算机进行处理,必须采用分布式架构,它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,随着云时代的来临,大数据也吸引了越来越多的关注,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱,大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据,大数据已经在人们日常生活中应用十分广泛,例如实时新闻、电影、音乐和社交网络等,都有十分广泛的应用,而对于一些热点事件进行检索个跟踪分析时,大多需要人们在大数据端口输入热点事件的关键词进行检索。
目前在根据人们输入的热点事件关键词文本进行检索时,大多只能识别人们输入关键词文本的数据类型进行检索,然而,这样的关键词识别和检索太过于局限,识别和检索的准确度较低,不能实现对人们输入关键词文本进行情感化智能识别,无法达到通过识别关键词文本中情感文本,来准确的理解关键词词义的目的,不能实现对热点事件进行快速的锁定、跟踪和分析,从而给相关人员的信息检索、跟踪和分析工作带来了极大的不便。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于情感分析在线热点事件跟踪及分析的方法,解决了现有的关键词识别和检索太过于局限,识别和检索的准确度较低,不能实现对人们输入关键词文本进行情感化智能识别,无法达到通过识别关键词文本中情感文本,来准确的理解关键词词义的目的,不能实现对热点事件进行快速的锁定、跟踪和分析的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于情感分析在线热点事件跟踪及分析的方法,具体包括以下步骤:
S1、首先人们可通过用户操作模块将需要分析的热点事件相关关键词的原始文本输入到整个分析系统内,然后通过原始文本分词处理模块对原始文本数据进行分词处理得到分词文本,之后利用特征向量构建和训练系统内的语义词向量训练模块和情感词向量训练模块分别对分词文本进行语义词向量和情感喜怒哀乐词向量训练,再利用特征向量构建和训练系统内的词典词向量构建模块和已有的情感词典大数据库进行词典词向量构建;
S2、然后系统处理模块可控制情感词向量处理系统内的初始输入词向量矩阵生成模块分别生成语义词向量、情感词向量和词典词向量的分词文本,从而得到三种类型初始输入词向量矩阵,再利用LSTM记忆网络处理单元捕获三种类型初始输入词向量矩阵中每一单词的上下文语义,融入上下文信息,然后通过输出词向量矩阵生成模块处理后得到三种类型输出词向量矩阵,输出词向量矩阵能够消除单词歧义;
S3、利用CNN卷积神经网络提取单元并结合不同滤波长度的卷积核提取S2得到的三种类型输出词向量矩阵的局部特征,之后系统处理模块可控制注意力机制提取系统内的长短时记忆网络注意力机制模块、注意力采样模块和注意力向量提取模块分别提取输出语义词向量矩阵和输出词向量矩阵的全局特征;
S4、利用目标函数参数训练模块分别将局部特征和全局特征对多模一致回归目标函数进行参数训练,求得多模一致回归最佳参数,从而完成根据文本进行情感识别;
S5、之后系统处理模块会控制注意力机制提取系统根据S4提取的全局特征和局部特征向联网信息数据库内检索与提取的全局特征相关的热点事件数据信息;
S6、之后系统处理模块可控制热点事件实时跟踪模块对S5检索到的热点事件相关的数据信息进行实时跟踪,同时系统处理模块可控制热点事件分析单元对跟踪的热点事件相关的数据信息进行分析,并将分析结果通过分析结果打印单元打印出分析报告表,来供人们进行查阅和分析。
优选的,所述系统处理模块与特征向量构建和训练系统实现双向连接,且特征向量构建和训练系统包括语义词向量训练模块、情感词向量训练模块和词典词向量构建模块。
优选的,所述系统处理模块分别与情感词向量处理系统、CNN卷积神经网络提取单元和注意力机制提取系统实现双向连接。
优选的,所述情感词向量处理系统包括初始输入词向量矩阵生成模块、LSTM记忆网络处理模块和输出词向量矩阵生成模块,所述初始输入词向量矩阵生成模块的输出端与LSTM记忆网络处理模块的输入端连接,且LSTM记忆网络处理模块的输出端与输出词向量矩阵生成模块的输入端连接。
优选的,所述注意力机制提取系统包括长短时记忆网络注意力机制模块、注意力采样模块和注意力向量提取模块,所述长短时记忆网络注意力机制模块的输出端与注意力采集模块的输入端连接,且注意力采样模块的输出端与注意力向量提取模块的输入端连接。
优选的,所述系统处理模块分贝与原始文本分词处理模块、热点事件实时跟踪模块和热点事件分析单元实现双向连接,且系统处理模块的输出端与分析结果打印单元的输入端连接。
(三)有益效果
本发明提供了一种基于情感分析在线热点事件跟踪及分析的方法。与现有技术相比具备以下有益效果:该基于情感分析在线热点事件跟踪及分析的方法,通过在具体包括以下步骤:S1、首先人们可通过用户操作模块将需要分析的热点事件相关关键词的原始文本输入到整个分析系统内,然后通过原始文本分词处理模块对原始文本数据进行分词处理得到分词文本,S2、然后系统处理模块可控制情感词向量处理系统内的初始输入词向量矩阵生成模块分别生成语义词向量、情感词向量和词典词向量的分词文本,从而得到三种类型初始输入词向量矩阵,S3、利用CNN卷积神经网络提取单元并结合不同滤波长度的卷积核提取S2得到的三种类型输出词向量矩阵的局部特征,之后系统处理模块可控制注意力机制提取系统内的长短时记忆网络注意力机制模块、注意力采样模块和注意力向量提取模块分别提取输出语义词向量矩阵和输出词向量矩阵的全局特征,S4、利用目标函数参数训练模块分别将局部特征和全局特征对多模一致回归目标函数进行参数训练,求得多模一致回归最佳参数,从而完成根据文本进行情感识别,S5、之后系统处理模块会控制注意力机制提取系统根据S4提取的全局特征和局部特征向联网信息数据库内检索与提取的全局特征相关的热点事件数据信息,S6、之后系统处理模块可控制热点事件实时跟踪模块对S5检索到的热点事件相关的数据信息进行实时跟踪,同时系统处理模块可控制热点事件分析单元对跟踪的热点事件相关的数据信息进行分析,并将分析结果通过分析结果打印单元打印出分析报告表,来供人们进行查阅和分析,可很好的解决现有的关键词识别和检索太过于局限的问题,大大提高识别和检索的准确度,实现了对人们输入关键词文本进行情感化智能识别,很好的达到了通过识别关键词文本中情感文本,来准确的理解关键词词义的目的,实现对热点事件进行快速的锁定、跟踪和分析,从而大大方便了相关人员的信息检索、跟踪和分析工作。
附图说明
图1为本发明系统的结构原理框图;
图2为本发明情感词向量处理系统的结构原理框图;
图3为本发明注意力机制提取系统的结构原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明实施例提供一种技术方案:一种基于情感分析在线热点事件跟踪及分析的方法,具体包括以下步骤:
S1、首先人们可通过用户操作模块将需要分析的热点事件相关关键词的原始文本输入到整个分析系统内,然后通过原始文本分词处理模块对原始文本数据进行分词处理得到分词文本,之后利用特征向量构建和训练系统内的语义词向量训练模块和情感词向量训练模块分别对分词文本进行语义词向量和情感喜怒哀乐词向量训练,再利用特征向量构建和训练系统内的词典词向量构建模块和已有的情感词典大数据库进行词典词向量构建;
S2、然后系统处理模块可控制情感词向量处理系统内的初始输入词向量矩阵生成模块分别生成语义词向量、情感词向量和词典词向量的分词文本,从而得到三种类型初始输入词向量矩阵,再利用LSTM记忆网络处理单元捕获三种类型初始输入词向量矩阵中每一单词的上下文语义,融入上下文信息,然后通过输出词向量矩阵生成模块处理后得到三种类型输出词向量矩阵,输出词向量矩阵能够消除单词歧义;
S3、利用CNN卷积神经网络提取单元并结合不同滤波长度的卷积核提取S2得到的三种类型输出词向量矩阵的局部特征,之后系统处理模块可控制注意力机制提取系统内的长短时记忆网络注意力机制模块、注意力采样模块和注意力向量提取模块分别提取输出语义词向量矩阵和输出词向量矩阵的全局特征;
S4、利用目标函数参数训练模块分别将局部特征和全局特征对多模一致回归目标函数进行参数训练,求得多模一致回归最佳参数,从而完成根据文本进行情感识别;
S5、之后系统处理模块会控制注意力机制提取系统根据S4提取的全局特征和局部特征向联网信息数据库内检索与提取的全局特征相关的热点事件数据信息;
S6、之后系统处理模块可控制热点事件实时跟踪模块对S5检索到的热点事件相关的数据信息进行实时跟踪,同时系统处理模块可控制热点事件分析单元对跟踪的热点事件相关的数据信息进行分析,并将分析结果通过分析结果打印单元打印出分析报告表,来供人们进行查阅和分析。
本发明中,系统处理模块与特征向量构建和训练系统实现双向连接,且特征向量构建和训练系统包括语义词向量训练模块、情感词向量训练模块和词典词向量构建模块。
本发明中,系统处理模块分别与情感词向量处理系统、CNN卷积神经网络提取单元和注意力机制提取系统实现双向连接。
本发明中,情感词向量处理系统包括初始输入词向量矩阵生成模块、LSTM记忆网络处理模块和输出词向量矩阵生成模块,所述初始输入词向量矩阵生成模块的输出端与LSTM记忆网络处理模块的输入端连接,且LSTM记忆网络处理模块的输出端与输出词向量矩阵生成模块的输入端连接。
本发明中,注意力机制提取系统包括长短时记忆网络注意力机制模块、注意力采样模块和注意力向量提取模块,所述长短时记忆网络注意力机制模块的输出端与注意力采集模块的输入端连接,且注意力采样模块的输出端与注意力向量提取模块的输入端连接。
本发明中,系统处理模块分贝与原始文本分词处理模块、热点事件实时跟踪模块和热点事件分析单元实现双向连接,且系统处理模块的输出端与分析结果打印单元的输入端连接。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于情感分析在线热点事件跟踪及分析的方法,其特征在于:具体包括以下步骤:
S1、首先人们可通过用户操作模块将需要分析的热点事件相关关键词的原始文本输入到整个分析系统内,然后通过原始文本分词处理模块对原始文本数据进行分词处理得到分词文本,之后利用特征向量构建和训练系统内的语义词向量训练模块和情感词向量训练模块分别对分词文本进行语义词向量和情感喜怒哀乐词向量训练,再利用特征向量构建和训练系统内的词典词向量构建模块和已有的情感词典大数据库进行词典词向量构建;
S2、然后系统处理模块可控制情感词向量处理系统内的初始输入词向量矩阵生成模块分别生成语义词向量、情感词向量和词典词向量的分词文本,从而得到三种类型初始输入词向量矩阵,再利用LSTM记忆网络处理单元捕获三种类型初始输入词向量矩阵中每一单词的上下文语义,融入上下文信息,然后通过输出词向量矩阵生成模块处理后得到三种类型输出词向量矩阵,输出词向量矩阵能够消除单词歧义;
S3、利用CNN卷积神经网络提取单元并结合不同滤波长度的卷积核提取S2得到的三种类型输出词向量矩阵的局部特征,之后系统处理模块可控制注意力机制提取系统内的长短时记忆网络注意力机制模块、注意力采样模块和注意力向量提取模块分别提取输出语义词向量矩阵和输出词向量矩阵的全局特征;
S4、利用目标函数参数训练模块分别将局部特征和全局特征对多模一致回归目标函数进行参数训练,求得多模一致回归最佳参数,从而完成根据文本进行情感识别;
S5、之后系统处理模块会控制注意力机制提取系统根据S4提取的全局特征和局部特征向联网信息数据库内检索与提取的全局特征相关的热点事件数据信息;
S6、之后系统处理模块可控制热点事件实时跟踪模块对S5检索到的热点事件相关的数据信息进行实时跟踪,同时系统处理模块可控制热点事件分析单元对跟踪的热点事件相关的数据信息进行分析,并将分析结果通过分析结果打印单元打印出分析报告表,来供人们进行查阅和分析。
2.根据权利要求1所述的一种基于情感分析在线热点事件跟踪及分析的方法,其特征在于:所述系统处理模块与特征向量构建和训练系统实现双向连接,且特征向量构建和训练系统包括语义词向量训练模块、情感词向量训练模块和词典词向量构建模块。
3.根据权利要求1所述的一种基于情感分析在线热点事件跟踪及分析的方法,其特征在于:所述系统处理模块分别与情感词向量处理系统、CNN卷积神经网络提取单元和注意力机制提取系统实现双向连接。
4.根据权利要求1所述的一种基于情感分析在线热点事件跟踪及分析的方法,其特征在于:所述情感词向量处理系统包括初始输入词向量矩阵生成模块、LSTM记忆网络处理模块和输出词向量矩阵生成模块,所述初始输入词向量矩阵生成模块的输出端与LSTM记忆网络处理模块的输入端连接,且LSTM记忆网络处理模块的输出端与输出词向量矩阵生成模块的输入端连接。
5.根据权利要求1所述的一种基于情感分析在线热点事件跟踪及分析的方法,其特征在于:所述注意力机制提取系统包括长短时记忆网络注意力机制模块、注意力采样模块和注意力向量提取模块,所述长短时记忆网络注意力机制模块的输出端与注意力采集模块的输入端连接,且注意力采样模块的输出端与注意力向量提取模块的输入端连接。
6.根据权利要求1所述的一种基于情感分析在线热点事件跟踪及分析的方法,其特征在于:所述系统处理模块分贝与原始文本分词处理模块、热点事件实时跟踪模块和热点事件分析单元实现双向连接,且系统处理模块的输出端与分析结果打印单元的输入端连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811454028.7A CN109582801A (zh) | 2018-11-30 | 2018-11-30 | 一种基于情感分析在线热点事件跟踪及分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811454028.7A CN109582801A (zh) | 2018-11-30 | 2018-11-30 | 一种基于情感分析在线热点事件跟踪及分析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109582801A true CN109582801A (zh) | 2019-04-05 |
Family
ID=65925864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811454028.7A Pending CN109582801A (zh) | 2018-11-30 | 2018-11-30 | 一种基于情感分析在线热点事件跟踪及分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582801A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792210A (zh) * | 2021-08-19 | 2021-12-14 | 广州云硕科技发展有限公司 | 一种基于语义实时分析的热控方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902619A (zh) * | 2012-12-28 | 2014-07-02 | 中国移动通信集团公司 | 一种网络舆情监控方法及系统 |
CN104484343A (zh) * | 2014-11-26 | 2015-04-01 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种对微博进行主题发现与追踪的方法 |
CN106484707A (zh) * | 2015-08-26 | 2017-03-08 | 重庆西线科技有限公司 | 一种基于微信平台的信息推送方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
-
2018
- 2018-11-30 CN CN201811454028.7A patent/CN109582801A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902619A (zh) * | 2012-12-28 | 2014-07-02 | 中国移动通信集团公司 | 一种网络舆情监控方法及系统 |
CN104484343A (zh) * | 2014-11-26 | 2015-04-01 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种对微博进行主题发现与追踪的方法 |
CN106484707A (zh) * | 2015-08-26 | 2017-03-08 | 重庆西线科技有限公司 | 一种基于微信平台的信息推送方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792210A (zh) * | 2021-08-19 | 2021-12-14 | 广州云硕科技发展有限公司 | 一种基于语义实时分析的热控方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN104951539A (zh) | 互联网数据中心有害信息监测系统 | |
CN109033387A (zh) | 一种融合多源数据的物联网搜索系统、方法及存储介质 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN105160038A (zh) | 一种基于审计知识库的数据分析方法及系统 | |
CN110162632B (zh) | 一种新闻专题事件发现的方法 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
CN104899324A (zh) | 一种基于idc有害信息监测系统的样本训练系统 | |
CN109460922A (zh) | 一种具有电力行业特征的网络舆情分析与辅助决策系统 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN104391852B (zh) | 一种建立关键词词库的方法和装置 | |
CN106649498A (zh) | 一种基于爬虫和文本聚类分析的网络舆情分析系统 | |
CN110968571A (zh) | 面向金融信息服务的大数据分析与处理平台 | |
CN110019713A (zh) | 基于意图理解的数据检索方法和装置、设备及存储介质 | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
CN107527289B (zh) | 一种投资组合行业配置方法、装置、服务器和存储介质 | |
CN104834739A (zh) | 互联网信息存储系统 | |
CN111522950A (zh) | 一种针对非结构化海量文本敏感数据的快速识别系统 | |
CN1367446A (zh) | 汉语个人简历信息处理系统和方法 | |
US20190384812A1 (en) | Portfolio-based text analytics tool | |
CN107480270A (zh) | 一种基于用户反馈数据流的实时个性化推荐方法及系统 | |
CN109582801A (zh) | 一种基于情感分析在线热点事件跟踪及分析的方法 | |
CN109902230A (zh) | 一种新闻数据的处理方法及装置 | |
CN109710730B (zh) | 一种基于自然语言分析处理的巡视信息系统及分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190405 |