CN108959383A - 网络舆情的分析方法、装置及计算机可读存储介质 - Google Patents
网络舆情的分析方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108959383A CN108959383A CN201810544762.6A CN201810544762A CN108959383A CN 108959383 A CN108959383 A CN 108959383A CN 201810544762 A CN201810544762 A CN 201810544762A CN 108959383 A CN108959383 A CN 108959383A
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- public sentiment
- public
- lexical set
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
本发明公开了一种网络舆情的分析方法,该方法包括:确定舆情事件,采集与舆情事件相关的舆情文章;对采集的舆情文章进行预处理,获取舆情文章中的词汇集合以表征舆情文章;采用聚类算法对词汇集合进行聚类分析,生成舆情事件的多个观点,计算观点的词向量;从观点包含的词汇集合中提取核心话题;通过情感评分模型计算观点的情感得分,并计算观点的热度;根据情感得分和热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据异常观点及其核心话题生成预警信息并输出。本发明还提出一种网络舆情的分析装置以及一种计算机可读存储介质。本发明提高了对舆情的监控和预警能力。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种网络舆情的分析方法、装置及计算机可读存储介质。
背景技术
网络舆情是指在网络上流行的对社会事件不同看法的网络舆论,是社会舆论的一种表现形式。主要是以网络为载体,以事件为核心,公众对该事件的情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。
通过网络传播公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。网络舆情的表现方式多种多样,例如:新闻评论、论坛帖子、微博博文、微信文章等。近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。
同时,网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定构成威胁。因此,对于网络舆情状态的监测就变得较为重要,需要对网络舆情的情感倾向以及观点等进行分析和预警。目前的主流舆情系统主要有人员参与在内,比如业内中有舆情分析师筛选舆情,然后对系统进行跟踪,从而对事件在影响力上对其舆情状态有一个大致的判断,但是这种方案存在监测媒体源不够全面的缺陷,以及缺乏一个自动化的舆情指数计算方案,导致现有的舆情系统不能准确的获取事件的具体舆情指数,而无法准确地进行预警。
发明内容
本发明提供一种网络舆情的分析方法、装置及计算机可读存储介质,其主要目的在于提高对舆情的监控和预警能力。
为实现上述目的,本发明还提供一种网络舆情的分析方法,该方法包括:
确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与所述舆情事件相关的舆情文章;
对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章;
采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量;
从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;
将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;
根据所述情感得分和所述热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据所述异常观点和该异常观点的核心话题生成预警信息并输出。
可选地,所述对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章的步骤包括:
提取舆情文章的正文数据,通过正则表达式去除正文数据中的非中文字符;
通过分词工具对去除非中文字符后的正文数据进行分词处理,将正文数据转换为以空格分割的词汇集合;
对所述词汇集合进行去停用词处理,得到所述词汇集合。
可选地,所述采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量的步骤包括:
获取中文维基百科语料库,基于所述语料库,根据词频-逆文本频率指数TF-IDF算法选择词汇集合中的多个词汇作为关键词;
基于所述语料库生成中文语料的词向量模型,通过所述词向量模型计算关键词的词向量,根据关键词的词向量计算词汇集合的词向量;
根据词汇集合的词向量和Kmeans算法对所述舆情事件的所有词汇集合进行聚类,以将所述舆情事件的词汇集合分为多个类型的观点;
对观点包含的词汇集合的关键词进行汇总,根据汇总的关键词的词向量计算观点的词向量。
可选地,所述从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题的步骤包括:
根据观点的词向量和该观点包含的词汇集合的词向量,计算词汇集合与其对应的观点之间的相似度;
将相似度大于预设阈值的一个或者多个词汇集合表征的舆情文章,作为观点的核心话题。
可选地,所述情感评分模型的训练步骤包括:
获取添加有标签数据的舆情文本数据,构成样本库;
结合TF-IDF算法提取样本库中的舆情文本数据的关键词,并通过训练好的词向量模型计算关键词的词向量;
将样本库中的舆情文本数据的词向量和标签数据作为训练样本,输入到预设的深度神经网络模型中进行训练,以确定模型参数,并将确定了模型参数的深度神经网络模型作为所述情感评分模型。
此外,为实现上述目的,本发明还提供一种网络舆情的分析装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的舆情分析程序,所述舆情分析程序被所述处理器执行时实现如下步骤:
确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与所述舆情事件相关的舆情文章;
对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章;
采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量;
从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;
将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;
根据所述情感得分和所述热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据所述异常观点和该异常观点的核心话题生成预警信息并输出。
可选地,所述对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章的步骤包括:
提取舆情文章的正文数据,通过正则表达式去除正文数据中的非中文字符;
通过分词工具对去除非中文字符后的正文数据进行分词处理,将正文数据转换为以空格分割的词汇集合;
对所述词汇集合进行去停用词处理,得到所述词汇集合。
可选地,所述采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量的步骤包括:
获取中文维基百科语料库,基于所述语料库,根据词频-逆文本频率指数TF-IDF算法选择词汇集合中的多个词汇作为关键词;
基于所述语料库生成中文语料的词向量模型,通过所述词向量模型计算关键词的词向量,根据关键词的词向量计算词汇集合的词向量;
根据词汇集合的词向量和Kmeans算法对所述舆情事件的所有词汇集合进行聚类,以将所述舆情事件的词汇集合分为多个类型的观点;
对观点包含的词汇集合的关键词进行汇总,根据汇总的关键词的词向量计算观点的词向量。
可选地,所述从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题的步骤包括:
根据观点的词向量和该观点包含的词汇集合的词向量,计算词汇集合与其对应的观点之间的相似度;
将相似度大于预设阈值的一个或者多个词汇集合表征的舆情文章,作为观点的核心话题。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有舆情分析程序,所述舆情分析程序可被一个或者多个处理器执行,以实现如上所述的网络舆情的分析方法的步骤。
本发明提出的网络舆情的分析方法、装置及计算机可读存储介质,确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与舆情事件相关的舆情文章;对舆情文章进行分词处理,获取舆情文章中的词汇集合以表征舆情文章;采用聚类算法对词汇集合进行聚类分析,生成舆情事件的多个观点,根据观点包含的词汇集合的词向量计算观点的词向量;从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;根据情感得分和热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据异常观点和该异常观点的核心话题生成预警信息并输出,本发明通过对收集的文章进行聚类分析,构建舆情事件的多个类型的观点,实现了对事件的高度概括,并集合情感评分模型对概括得到的观点的情感得分进行计算,实现对舆情事件的各个观点的影响的判断,进而进行预警,提高了对舆情的监控和预警能力。
附图说明
图1为本发明一实施例提供的网络舆情的分析方法的流程示意图;
图2为本发明一实施例提供的网络舆情的分析装置的内部结构示意图;
图3为本发明一实施例提供的网络舆情的分析装置中舆情分析程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种网络舆情的分析方法。参照图1所示,为本发明一实施例提供的网络舆情的分析方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,网络舆情的分析方法包括:
步骤S10,确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与所述舆情事件相关的舆情文章。
本发明实施例中的舆情事件一般是当下发生的某个事件,用户可以设置一个或者多个关键词来表示该舆情事件。通过分布式网络爬虫从预设的数据渠道采集与该舆情事件相关的舆情文章,分别按照对应的数据渠道存储获取的舆情文章。具体地,预先设置待爬取的URL(Uniform Resource Locator,统一资源定位符)列表,定时地使用网络爬虫根据上述列表中的URL地址,根据预先设置的能够体现该舆情事件的关键字抓取相关的舆情文章添加至语料库中,数据渠道包括但不限于微博、微信、新闻门户、论坛等,从上述数据渠道获取到的舆情文章主要包括新闻评论、论坛帖子、微博博文、微信文章等。
步骤S20,对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章。
具体地,该步骤包括如下细化步骤:提取舆情文章的正文数据,去除HTML(HyperText Markup Language,超级文本标记语言)标签数据、图像标记等无关数据,然后通过正则表达式去除正文数据中的非中文字符。对保留的正文数据通过分词工具进行分词,将中文段落生成以空格分隔的词汇集合。按照预设的停用词词表对词汇集合进行去停用词处理,将剩余的词汇集合用于表征该舆情文章,即以空格分隔的词汇集合作为特征用来表征舆情文章。
步骤S30,采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量。
步骤S40,从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题。
在获取到各个舆情文章的词汇集合之后,对以空格分隔的词汇集合表征的舆情文章进行聚类。由于大众对于一个事件的看法可能是多种多样的,不同的人有不同的观点,因此通过对采集到的所有舆情事件的聚类分析,实现对舆情文章的高度概括,获取到多各观点类别,具体地,该步骤可以包括如下细化步骤:
获取中文维基百科语料库,基于语料库,根据词频-逆文本频率指数TF-IDF算法选择词汇集合中的多个词汇作为关键词;基于语料库生成中文语料的词向量模型,通过词向量模型计算关键词的词向量,根据关键词的词向量计算词汇集合的词向量;根据词汇集合的词向量和Kmeans算法(K均值算法)对舆情事件的所有词汇集合进行聚类,以将舆情事件的词汇集合分为多个类型的观点,由于词汇集合表征舆情文章,对词汇集合的聚类实际上就是对舆情文章的聚类;对观点包含的词汇集合的关键词进行汇总,根据汇总的关键词的词向量计算观点的词向量。
获取中文维基百科语料库,基于该语料库,根据TF-IDF算法计算每个词汇集合的词汇集合中各个词的重要程度,针对每个词汇集合选择重要程度最高的前N个词汇作为该文章的关键词。基于中文维基百科语料库生成中文语料的Word2vec模型,针对每个词汇集合,通过该Word2vec模型计算选择出的N个关键词的词向量,通过关键词的词向量计算词汇集合的词向量。按照这种方式计算得到舆情事件的所有词汇集合的词向量。由于词汇集合表征舆情文章,提取词汇集合的关键词实际上就是提取舆情文章的关键词。
在计算得到各词汇集合的词向量后,根据Kmeans算法对语料库中所有与舆情事件相关的(以词汇集合表征的)舆情文章进行聚类分析,分成为多个类型的观点。Kmeans算法的K值的初始值随机设置,K值为分类的类群的数量,根据对分类结果的评估调整K值,直至分类结果的准确度达到设定的阈值。
将每个观点中的所有词汇集合的关键词汇总,计算每个关键词的词频,词频体现了该关键词的权重。通过Word2vec模型计算观点中汇总的各个关键词的词向量,根据关键词的词向量和词频计算观点的词向量。根据计算得到的观点的词向量以及该观点下的词汇集合的词向量,计算词汇集合与观点的相似度,其中,可以通过余弦相似度计算向量之间的相似度,选择相似度最高的一个或者多个词汇集合表征的舆情文章作为观点的核心话题。
步骤S50,将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度。
预先根据构建的样本库训练预设深度神经网络模型,确定模型参数,将确定模型参数的深度神经网络模型作为情感评分模型。具体地,该步骤包括以下细化步骤:获取添加有标签数据的舆情文本数据,构成样本库,其中,标签数据为根据评论的正面、负面、中立倾向对文本数据标注的情感分数,例如正面评论为1、负面评论为-1、中立评论为0;通过维基百科语料库,结合TF-IDF算法提取样本库中的舆情文本数据的关键词,并通过训练好的词向量模型计算关键词的词向量;将样本库中的舆情文本数据的词向量和标签数据作为训练样本,输入到预设的深度神经网络模型中进行训练,以确定模型参数,并将确定了模型参数的深度神经网络模型作为所述情感评分模型。此外,为了防止过拟合,采取交叉验证的方式训练模型。
使用上述训练好的情感评分模型计算各个观点的情感得分,其中,情感得分的取值区间为[-1,1],若观点的情感得分为负数,则说明该观点偏向于负面评论;若观点的情感得分为正数,则说明该观点偏向于正面评论;若观点的情感得分在0附近,则说明该观点可能倾向于中立评论。
分析各个观点的词汇集合表征的舆情文章在各个数据渠道上的统计数据,包括微博、微信、新闻门户、论坛等。例如,对于微信文章,统计数据主要包括单个微信文章的阅读数、评论数和转发数等,对于微博博文,统计数据主要包括博文的转发数、评论数和点赞数等。评估观点在各个渠道上的热度,根据观点在各个数据渠道上的热度和各个数据渠道的预设权重计算观点的热度。可以理解的是,通过上述方法也可以计算各个舆情文章的热度。
步骤S60,根据所述情感得分和所述热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据所述异常观点和该异常观点的核心话题生成预警信息并输出。
在计算得到各个观点的热度和情感评分后,计算其舆情指数,其中,舆情指数=热度*情感评分,舆情指数的大小体现出该观点对于舆论的影响力,舆情指数的绝对值越接近于1,则说明该观点对于舆论的影响力越大,当计算得到的舆情指数达到预设阈值时,判定该观点为异常观点。例如,预设阈值为0.8,计算得到的某观点的舆情指数为-0.9,则其绝对值为0.9,该数值大于预设阈值,并且该舆情指数偏向负面评价,此时就可以输出预警信息,并且预警信息中包含有该观点的核心话题。
本实施例提出的网络舆情的分析方法,确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与舆情事件相关的舆情文章;对舆情文章进行分词处理,获取舆情文章中的词汇集合以表征舆情文章;采用聚类算法对词汇集合进行聚类分析,生成舆情事件的多个观点,根据观点包含的词汇集合的词向量计算观点的词向量;从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;根据情感得分和热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据异常观点和该异常观点的核心话题生成预警信息并输出,本发明通过对收集的文章进行聚类分析,构建舆情事件的多个观点,实现了对事件的高度概括,并集合情感评分模型对概括得到的观点的情感得分进行计算,实现对舆情事件的各个观点的影响的判断,进而进行预警,提高了对舆情的监控和预警能力。
本发明还提供一种网络舆情的分析装置。参照图2所示,为本发明一实施例提供的网络舆情的分析装置的内部结构示意图。
在本实施例中,网络舆情的分析装置1可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该网络舆情的分析装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是网络舆情的分析装置1的内部存储单元,例如该网络舆情的分析装置1的硬盘。存储器11在另一些实施例中也可以是网络舆情的分析装置1的外部存储设备,例如网络舆情的分析装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括网络舆情的分析装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于网络舆情的分析装置1的应用软件及各类数据,例如舆情分析程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行舆情分析程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在网络舆情的分析装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及舆情分析程序01的网络舆情的分析装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对网络舆情的分析装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有舆情分析程序01;处理器12执行存储器11中存储的舆情分析程序01时实现如下步骤:
确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与所述舆情事件相关的舆情文章。
本发明实施例中的舆情事件一般是当下发生的某个事件,用户可以设置一个或者多个关键词来表示该舆情事件。通过分布式网络爬虫从预设的数据渠道采集与该舆情事件相关的舆情文章,分别按照对应的数据渠道存储获取的舆情文章。具体地,预先设置待爬取的URL列表,定时地使用网络爬虫根据上述列表中的URL地址,根据预先设置的能够体现该舆情事件的关键字抓取相关的舆情文章添加至语料库中,数据渠道包括但不限于微博、微信、新闻门户、论坛等,从上述数据渠道获取到的舆情文章主要包括新闻评论、论坛帖子、微博博文、微信文章等。
对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章。
具体地,该步骤包括如下细化步骤:提取舆情文章的正文数据,去除HTML标签数据、图像标记等无关数据,然后通过正则表达式去除正文数据中的非中文字符。对保留的正文数据通过分词工具进行分词,将中文段落生成以空格分隔的词汇集合。按照预设的停用词词表对词汇集合进行去停用词处理,将剩余的词汇集合用于表征该舆情文章,即以空格分隔的词汇集合作为特征用来表征舆情文章。
采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量。
从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题。
在获取到各个舆情文章的词汇集合之后,对以空格分隔的词汇集合表征的舆情文章进行聚类。由于大众对于一个事件的看法可能是多种多样的,不同的人有不同的观点,因此通过对采集到的所有舆情事件的聚类分析,实现对舆情文章的高度概括,获取到多各观点类别,具体地,该步骤可以包括如下细化步骤:
获取中文维基百科语料库,基于语料库,根据词频-逆文本频率指数TF-IDF算法选择词汇集合中的多个词汇作为关键词;基于语料库生成中文语料的词向量模型,通过词向量模型计算关键词的词向量,根据关键词的词向量计算词汇集合的词向量;根据词汇集合的词向量和Kmeans算法(K均值算法)对舆情事件的所有词汇集合进行聚类,以将舆情事件的词汇集合分为多个类型的观点,由于词汇集合表征舆情文章,对词汇集合的聚类实际上就是对舆情文章的聚类;对观点包含的词汇集合的关键词进行汇总,根据汇总的关键词的词向量计算观点的词向量。
获取中文维基百科语料库,基于该语料库,根据TF-IDF算法计算每个词汇集合的词汇集合中各个词的重要程度,针对每个词汇集合选择重要程度最高的前N个词汇作为该文章的关键词。基于中文维基百科语料库生成中文语料的Word2vec模型,针对每个词汇集合,通过该Word2vec模型计算选择出的N个关键词的词向量,通过关键词的词向量计算词汇集合的词向量。按照这种方式计算得到舆情事件的所有词汇集合的词向量。由于词汇集合表征舆情文章,提取词汇集合的关键词实际上就是提取舆情文章的关键词。
在计算得到各词汇集合的词向量后,根据Kmeans算法对语料库中所有与舆情事件相关的(以词汇集合表征的)舆情文章进行聚类分析,分成为多个类型的观点。Kmeans算法的K值的初始值随机设置,K值为分类的类群的数量,根据对分类结果的评估调整K值,直至分类结果的准确度达到设定的阈值。
将每个观点中的所有词汇集合表征的舆情文章的关键词汇总,计算每个关键词的词频,词频体现了该关键词的权重。通过Word2vec模型计算观点中汇总的各个关键词的词向量,根据关键词的词向量和词频计算观点的词向量。根据计算得到的观点的词向量以及该观点下的词汇集合的词向量,计算词汇集合与观点的相似度,其中,可以通过余弦相似度计算向量之间的相似度,选择相似度最高的一个或者多个词汇集合表征的舆情文章作为观点的核心话题。
将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度。
预先根据构建的样本库训练预设深度神经网络模型,确定模型参数,将确定模型参数的深度神经网络模型作为情感评分模型。具体地,该步骤包括以下细化步骤:获取添加有标签数据的舆情文本数据,构成样本库,其中,标签数据为根据评论的正面、负面、中立倾向对文本数据标注的情感分数,例如正面评论为1、负面评论为-1、中立评论为0;通过维基百科语料库,结合TF-IDF算法提取样本库中的舆情文本数据的关键词,并通过训练好的词向量模型计算关键词的词向量;将样本库中的舆情文本数据的词向量和标签数据作为训练样本,输入到预设的深度神经网络模型中进行训练,以确定模型参数,并将确定了模型参数的深度神经网络模型作为所述情感评分模型。此外,为了防止过拟合,采取交叉验证的方式训练模型。
使用上述训练好的情感评分模型计算各个观点的情感得分,其中,情感得分的取值区间为[-1,1],若观点的情感得分为负数,则说明该观点偏向于负面评论;若观点的情感得分为正数,则说明该观点偏向于正面评论;若观点的情感得分在0附近,则说明该观点可能倾向于中立评论。
分析各个观点的词汇集合表征的舆情文章在各个数据渠道上的统计数据,包括微博、微信、新闻门户、论坛等。例如,对于微信文章,统计数据主要包括单个微信文章的阅读数、评论数和转发数等,对于微博博文,统计数据主要包括博文的转发数、评论数和点赞数等。评估观点在各个渠道上的热度,根据观点在各个数据渠道上的热度和各个数据渠道的预设权重计算观点的热度。可以理解的是,通过上述方法也可以计算各个舆情文章的热度。
根据所述情感得分和所述热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据所述异常观点和该异常观点的核心话题生成预警信息并输出。
在计算得到各个观点的热度和情感评分后,计算其舆情指数,其中,舆情指数=热度*情感评分,舆情指数的大小体现出该观点对于舆论的影响力,舆情指数的绝对值越接近于1,则说明该观点对于舆论的影响力越大,当计算得到的舆情指数达到预设阈值时,判定该观点为异常观点。例如,预设阈值为0.8,计算得到的某观点的舆情指数为-0.9,则其绝对值为0.9,该数值大于预设阈值,并且该舆情指数偏向负面评价,此时就可以输出预警信息,并且预警信息中包含有该观点的核心话题。
本实施例提出的网络舆情的分析装置,该装置先确定舆情事件,然后通过分布式网络爬虫从预设的数据渠道采集与舆情事件相关的舆情文章;对舆情文章进行分词处理,获取舆情文章中的词汇集合以表征舆情文章;采用聚类算法对词汇集合进行聚类分析,生成舆情事件的多个观点,根据观点包含的词汇集合的词向量计算观点的词向量;从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;根据情感得分和热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据异常观点和该异常观点的核心话题生成预警信息并输出,本发明通过对收集的文章进行聚类分析,构建舆情事件的多个观点,实现了对事件的高度概括,并集合情感评分模型对概括得到的观点的情感得分进行计算,实现对舆情事件的各个观点的影响的判断,进而进行预警,提高了对舆情的监控和预警能力。
可选地,在其他的实施例中,舆情分析程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述舆情分析程序在网络舆情的分析装置中的执行过程。
例如,参照图3所示,为本发明网络舆情的分析装置一实施例中的舆情分析程序的程序模块示意图,该实施例中,舆情分析程序可以被分割为数据采集模块10、文章分词模块20、文章聚类模块30、话题提取模块40、评分计算模块50和指数计算模块60,示例性地:
数据采集模块10用于:确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与所述舆情事件相关的舆情文章;
文章分词模块20用于:对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章;
文章聚类模块30用于:采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量;
话题提取模块40用于:从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;
评分计算模块50用于:将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;
指数计算模块60用于:根据所述情感得分和所述热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据所述异常观点和该异常观点的核心话题生成预警信息并输出。
上述数据采集模块10、文章分词模块20、文章聚类模块30、话题提取模块40、评分计算模块50和指数计算模块60等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有舆情分析程序,所述舆情分析程序可被一个或多个处理器执行,以实现如下操作:
确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与所述舆情事件相关的舆情文章;
对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章;
采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量;
从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;
将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;
根据所述情感得分和所述热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据所述异常观点和该异常观点的核心话题生成预警信息并输出。
本发明计算机可读存储介质具体实施方式与上述网络舆情的分析装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种网络舆情的分析方法,其特征在于,所述方法包括:
确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与所述舆情事件相关的舆情文章;
对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章;
采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量;
从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;
将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;
根据所述情感得分和所述热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据所述异常观点和该异常观点的核心话题生成预警信息并输出。
2.如权利要求1所述的网络舆情的分析方法,其特征在于,所述对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章的步骤包括:
提取舆情文章的正文数据,通过正则表达式去除正文数据中的非中文字符;
通过分词工具对去除非中文字符后的正文数据进行分词处理,将正文数据转换为以空格分割的词汇集合;
对所述词汇集合进行去停用词处理,得到所述词汇集合。
3.如权利要求1所述的网络舆情的分析方法,其特征在于,所述采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量的步骤包括:
获取中文维基百科语料库,基于所述语料库,根据词频-逆文本频率指数TF-IDF算法选择词汇集合中的多个词汇作为关键词;
基于所述语料库生成中文语料的词向量模型,通过所述词向量模型计算关键词的词向量,根据关键词的词向量计算词汇集合的词向量;
根据词汇集合的词向量和Kmeans算法对所述舆情事件的所有词汇集合进行聚类,以将所述舆情事件的词汇集合分为多个类型的观点;
对观点包含的词汇集合的关键词进行汇总,根据汇总的关键词的词向量计算观点的词向量。
4.如权利要求3所述的网络舆情的分析方法,其特征在于,所述从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题的步骤包括:
根据观点的词向量和该观点包含的词汇集合的词向量,计算词汇集合与其对应的观点之间的相似度;
将相似度大于预设阈值的一个或者多个词汇集合表征的舆情文章,作为观点的核心话题。
5.如权利要求1至4中任一项所述的网络舆情的分析方法,其特征在于,所述情感评分模型的训练步骤包括:
获取添加有标签数据的舆情文本数据,构成样本库;
结合TF-IDF算法提取样本库中的舆情文本数据的关键词,并通过训练好的词向量模型计算关键词的词向量;
将样本库中的舆情文本数据的词向量和标签数据作为训练样本,输入到预设的深度神经网络模型中进行训练,以确定模型参数,并将确定了模型参数的深度神经网络模型作为所述情感评分模型。
6.一种网络舆情的分析装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的舆情分析程序,所述舆情分析程序被所述处理器执行时实现如下步骤:
确定舆情事件,通过分布式网络爬虫从预设的数据渠道采集与所述舆情事件相关的舆情文章;
对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章;
采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量;
从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题;
将观点的词向量输入到预先训练好的情感评分模型中,输出观点的情感得分,并根据观点包含的词汇集合对应的舆情文章在各数据渠道的热度和各数据渠道的预设权重计算观点的热度;
根据所述情感得分和所述热度计算观点的舆情指数,并判定舆情指数的绝对值大于预设阈值的观点为异常观点,根据所述异常观点和该异常观点的核心话题生成预警信息并输出。
7.如权利要求6所述的网络舆情的分析装置,其特征在于,所述对所述舆情文章进行分词处理,获取所述舆情文章中的词汇集合以表征舆情文章的步骤包括:
提取舆情文章的正文数据,通过正则表达式去除正文数据中的非中文字符;
通过分词工具对去除非中文字符后的正文数据进行分词处理,将正文数据转换为以空格分割的词汇集合;
对所述词汇集合进行去停用词处理,得到所述词汇集合。
8.如权利要求6所述的网络舆情的分析装置,其特征在于,所述采用聚类算法词汇集合进行聚类分析,生成舆情事件的多个类型的观点,并根据所述观点包含的词汇集合计算该观点的词向量的步骤包括:
获取中文维基百科语料库,基于所述语料库,根据词频-逆文本频率指数TF-IDF算法选择词汇集合中的多个词汇作为关键词;
基于所述语料库生成中文语料的词向量模型,通过所述词向量模型计算关键词的词向量,根据关键词的词向量计算词汇集合的词向量;
根据词汇集合的词向量和Kmeans算法对所述舆情事件的所有词汇集合进行聚类,以将所述舆情事件的词汇集合分为多个类型的观点;
对观点包含的词汇集合的关键词进行汇总,根据汇总的关键词的词向量计算观点的词向量。
9.如权利要求8所述的网络舆情的分析装置,其特征在于,所述从观点包含的词汇集合中提取一个或者多个词汇集合,将提取的词汇集合表征的舆情文章作为该观点的核心话题的步骤包括:
根据观点的词向量和该观点包含的词汇集合的词向量,计算词汇集合与其对应的观点之间的相似度;
将相似度大于预设阈值的一个或者多个词汇集合表征的舆情文章,作为观点的核心话题。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有舆情分析程序,所述舆情分析程序可被一个或者多个处理器执行,以实现如权利要求6至9中任一项所述的网络舆情的分析方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810544762.6A CN108959383A (zh) | 2018-05-31 | 2018-05-31 | 网络舆情的分析方法、装置及计算机可读存储介质 |
PCT/CN2018/102116 WO2019227710A1 (zh) | 2018-05-31 | 2018-08-24 | 网络舆情的分析方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810544762.6A CN108959383A (zh) | 2018-05-31 | 2018-05-31 | 网络舆情的分析方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959383A true CN108959383A (zh) | 2018-12-07 |
Family
ID=64492765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810544762.6A Withdrawn CN108959383A (zh) | 2018-05-31 | 2018-05-31 | 网络舆情的分析方法、装置及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108959383A (zh) |
WO (1) | WO2019227710A1 (zh) |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740146A (zh) * | 2018-12-10 | 2019-05-10 | 厦门市美亚柏科信息股份有限公司 | 一种舆情监测方法、终端及存储介质 |
CN109800302A (zh) * | 2018-12-14 | 2019-05-24 | 深圳壹账通智能科技有限公司 | 基于循环神经网络算法的舆情预警方法、装置、终端及介质 |
CN109800307A (zh) * | 2019-01-18 | 2019-05-24 | 深圳壹账通智能科技有限公司 | 产品评价的分析方法、装置、计算机设备及存储介质 |
CN109933709A (zh) * | 2019-01-31 | 2019-06-25 | 平安科技(深圳)有限公司 | 视频文本组合数据的舆情跟踪方法、装置和计算机设备 |
CN109948161A (zh) * | 2019-03-20 | 2019-06-28 | 北京深海巨鲸信息科技有限公司 | 用于中文舆情的数据处理方法及装置 |
CN110009128A (zh) * | 2019-01-28 | 2019-07-12 | 平安科技(深圳)有限公司 | 行业舆情指数预测方法、装置、计算机设备及存储介质 |
CN110096652A (zh) * | 2019-05-06 | 2019-08-06 | 上海汽车集团股份有限公司 | 舆情风向标指数计算方法及装置、可读存储介质 |
CN110196979A (zh) * | 2019-06-05 | 2019-09-03 | 深圳市思迪信息技术股份有限公司 | 基于分布式系统的意图识别方法及装置 |
CN110222513A (zh) * | 2019-05-21 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种线上活动的异常监测方法、装置及存储介质 |
CN110263238A (zh) * | 2019-06-21 | 2019-09-20 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的舆情聆听系统 |
CN110297986A (zh) * | 2019-06-21 | 2019-10-01 | 山东科技大学 | 一种微博热点话题的情感倾向分析方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
CN110555092A (zh) * | 2019-09-10 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 舆情处理方法、装置及计算机可读存储介质 |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
CN110852090A (zh) * | 2019-11-07 | 2020-02-28 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN111160019A (zh) * | 2019-12-30 | 2020-05-15 | 中国联合网络通信集团有限公司 | 一种舆情监测的方法、装置及系统 |
CN111241077A (zh) * | 2020-01-03 | 2020-06-05 | 四川新网银行股份有限公司 | 基于互联网数据的金融欺诈行为的识别方法 |
CN111309903A (zh) * | 2020-01-20 | 2020-06-19 | 北京大米未来科技有限公司 | 一种数据处理方法、装置、存储介质和电子设备 |
CN111400437A (zh) * | 2020-02-19 | 2020-07-10 | 北京三快在线科技有限公司 | 互联网信息响应方法、装置、电子设备和计算机可读介质 |
CN111414455A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 舆情分析方法、装置、电子设备及可读存储介质 |
CN111428146A (zh) * | 2020-03-24 | 2020-07-17 | 上海智臻智能网络科技股份有限公司 | 网络信息处理方法及系统、设备、存储介质 |
CN111680226A (zh) * | 2020-06-16 | 2020-09-18 | 杭州安恒信息技术股份有限公司 | 网络舆情分析方法、装置、系统、设备及可读存储介质 |
CN111753172A (zh) * | 2020-06-04 | 2020-10-09 | 南京晓庄学院 | 一种互联网舆情信息采集和处理方法 |
CN112101002A (zh) * | 2020-09-15 | 2020-12-18 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112100367A (zh) * | 2019-05-28 | 2020-12-18 | 贵阳海信网络科技有限公司 | 一种景区舆情预警方法及装置 |
CN112434226A (zh) * | 2020-12-15 | 2021-03-02 | 易研信息科技有限公司 | 一种网络舆情监测预警方法 |
CN112463963A (zh) * | 2020-11-30 | 2021-03-09 | 深圳前海微众银行股份有限公司 | 识别目标舆情的方法、模型训练方法及装置 |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
CN112749269A (zh) * | 2019-10-31 | 2021-05-04 | 北京国双科技有限公司 | 实体舆情计算方法及系统 |
CN112948677A (zh) * | 2021-02-26 | 2021-06-11 | 上海携旅信息技术有限公司 | 基于点评美感度的推荐理由确定方法、系统、设备及介质 |
CN112966500A (zh) * | 2021-02-15 | 2021-06-15 | 珠海市鸿瑞信息技术股份有限公司 | 基于人工智能组态的网络数据链安全监测平台 |
CN113254746A (zh) * | 2021-05-24 | 2021-08-13 | 华北科技学院(中国煤矿安全技术培训中心) | 一种基于树莓派的网络舆情展现系统 |
CN113360710A (zh) * | 2021-05-27 | 2021-09-07 | 北京奇艺世纪科技有限公司 | 对象间组合度的确定方法、装置、计算机设备及存储介质 |
CN113392195A (zh) * | 2021-02-25 | 2021-09-14 | 中国人民解放军战略支援部队信息工程大学 | 舆情监测方法及装置、电子设备及存储介质 |
CN113505581A (zh) * | 2021-07-27 | 2021-10-15 | 北京工商大学 | 基于apso-lstm网络的教育大数据文本分析方法 |
CN113536805A (zh) * | 2021-07-09 | 2021-10-22 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN114036221A (zh) * | 2021-09-24 | 2022-02-11 | 国务院国有资产监督管理委员会研究中心 | 一种专题事件分析方法 |
CN114969334A (zh) * | 2022-05-20 | 2022-08-30 | 北京九章云极科技有限公司 | 异常日志检测方法、装置、电子设备及可读存储介质 |
CN115409018A (zh) * | 2022-09-20 | 2022-11-29 | 浙江书香荷马文化有限公司 | 基于大数据的公司舆情监测系统及其方法 |
CN115827989A (zh) * | 2023-02-16 | 2023-03-21 | 杭州金诚信息安全科技有限公司 | 大数据环境下网络舆情人工智能预警系统及方法 |
CN116108851A (zh) * | 2023-03-13 | 2023-05-12 | 北京国研数通软件技术有限公司 | 基于ner的群体性诉求识别方法和系统 |
CN116362589A (zh) * | 2023-02-23 | 2023-06-30 | 中国标准化研究院 | 一种质量工作考核评价方法 |
CN116522013A (zh) * | 2023-06-29 | 2023-08-01 | 乐麦信息技术(杭州)有限公司 | 基于社交网络平台的舆情分析方法及系统 |
CN117093762A (zh) * | 2023-07-18 | 2023-11-21 | 南京特尔顿信息科技有限公司 | 一种舆情数据评估分析系统及方法 |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339385A (zh) * | 2020-02-26 | 2020-06-26 | 山东爱城市网信息技术有限公司 | 基于cart的舆情类型识别方法及系统、存储介质、电子设备 |
CN111931022A (zh) * | 2020-06-10 | 2020-11-13 | 北京雅邦网络技术发展有限公司 | Ai热点内容智能编辑系统 |
CN111738596B (zh) * | 2020-06-22 | 2024-03-22 | 中国银行股份有限公司 | 工单派发方法及装置 |
CN112541358A (zh) * | 2020-06-24 | 2021-03-23 | 深圳证券交易所 | 舆情风险预警方法、装置及计算机存储介质 |
CN111832815B (zh) * | 2020-07-02 | 2023-12-05 | 国网山东省电力公司电力科学研究院 | 科研热点预测方法及系统 |
CN111784492A (zh) * | 2020-07-10 | 2020-10-16 | 讯飞智元信息科技有限公司 | 舆情分析和财务预警方法、装置、电子设备和存储介质 |
CN111966920B (zh) * | 2020-07-13 | 2023-09-12 | 江汉大学 | 舆情传播的稳定条件的预测方法、装置及设备 |
CN111831824B (zh) * | 2020-07-16 | 2024-02-09 | 民生科技有限责任公司 | 一种舆情正负面分类方法 |
CN111950273B (zh) * | 2020-07-31 | 2023-09-01 | 南京莱斯网信技术研究院有限公司 | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 |
CN112035658B (zh) * | 2020-08-05 | 2024-04-30 | 海纳致远数字科技(上海)有限公司 | 基于深度学习的企业舆情监测方法 |
CN112000813A (zh) * | 2020-09-14 | 2020-11-27 | 支付宝(杭州)信息技术有限公司 | 知识库构建方法及装置 |
CN112101008A (zh) * | 2020-09-27 | 2020-12-18 | 北京百度网讯科技有限公司 | 一种文本热度确定方法、装置、电子设备和存储介质 |
CN112270183B (zh) * | 2020-10-21 | 2024-03-19 | 北京钛氪新媒体科技有限公司 | 一种基于文本的新闻传播效果监测系统 |
CN112269852A (zh) * | 2020-10-23 | 2021-01-26 | 深圳中泓在线股份有限公司 | 生成舆情专题方法、系统及存储介质 |
CN112347230B (zh) * | 2020-11-16 | 2024-04-19 | 上海品见智能科技有限公司 | 一种基于Word2Vec的企业舆情数据分析方法 |
CN112329462B (zh) * | 2020-11-26 | 2024-02-20 | 北京五八信息技术有限公司 | 一种数据排序方法、装置、电子设备及存储介质 |
CN112434163A (zh) * | 2020-11-30 | 2021-03-02 | 北京沃东天骏信息技术有限公司 | 风险识别方法及模型构建方法、装置、电子设备和介质 |
CN112527956A (zh) * | 2020-12-08 | 2021-03-19 | 北京工商大学 | 一种基于深度学习的食品安全舆情事件提取方法 |
CN112711651A (zh) * | 2020-12-30 | 2021-04-27 | 上海金仕达软件科技有限公司 | 一种舆情监测方法及系统 |
CN112711691B (zh) * | 2021-01-08 | 2024-04-30 | 深圳市网联安瑞网络科技有限公司 | 网络舆情引导效果数据信息处理方法、系统、终端及介质 |
CN113239685B (zh) * | 2021-01-13 | 2023-10-31 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN112862305A (zh) * | 2021-02-03 | 2021-05-28 | 北京百度网讯科技有限公司 | 确定对象风险状态的方法、装置、设备和存储介质 |
CN113268976B (zh) * | 2021-02-20 | 2023-09-12 | 北京交通大学 | 一种面向微博的话题影响力评估方法 |
CN113094703A (zh) * | 2021-03-11 | 2021-07-09 | 北京六方云信息技术有限公司 | 针对web入侵检测的输出内容过滤方法及系统 |
CN113051455B (zh) * | 2021-03-31 | 2022-04-26 | 合肥供水集团有限公司 | 一种基于网络文本数据的水务舆情识别方法 |
CN113032653A (zh) * | 2021-04-02 | 2021-06-25 | 盐城师范学院 | 一种基于大数据的舆情监测平台 |
CN113010764B (zh) * | 2021-04-15 | 2023-08-22 | 德观智能控制设备涿州有限公司 | 一种舆情监测系统、方法、计算机设备及存储介质 |
CN113239687B (zh) * | 2021-05-08 | 2024-03-22 | 北京天空卫士网络安全技术有限公司 | 一种数据处理方法和装置 |
CN113590914B (zh) * | 2021-06-23 | 2024-02-20 | 北京百度网讯科技有限公司 | 信息处理方法、装置、电子设备和存储介质 |
CN113569118B (zh) * | 2021-06-30 | 2023-12-22 | 深圳市东信时代信息技术有限公司 | 自媒体推送方法、装置、计算机设备及存储介质 |
CN113468868A (zh) * | 2021-07-07 | 2021-10-01 | 西北大学 | 一种基于nlp的实时网络热点内容分析方法 |
CN113536133B (zh) * | 2021-07-30 | 2023-04-11 | 西安康奈网络科技有限公司 | 基于单一舆情事件的互联网数据处理方法 |
CN113610427B (zh) * | 2021-08-19 | 2023-08-18 | 深圳市德信软件有限公司 | 事件预警指标获得方法、装置、终端设备以及存储介质 |
CN113672792A (zh) * | 2021-08-20 | 2021-11-19 | 广州畅驿智能科技有限公司 | 一种网络舆情数据处理方法及系统 |
CN113946680B (zh) * | 2021-10-20 | 2024-04-16 | 河南师范大学 | 一种基于图嵌入及信息流分析的线上网络谣言鉴别方法 |
CN113822498B (zh) * | 2021-10-29 | 2023-07-18 | 南京视察者智能科技有限公司 | 一种基于大数据的社会矛盾指数预测方法 |
CN114611011B (zh) * | 2022-03-09 | 2024-03-29 | 之江实验室 | 一种考虑动态舆情主题的高影响力用户发现方法 |
CN114661974B (zh) * | 2022-03-21 | 2024-03-08 | 重庆市规划和自然资源信息中心 | 利用自然语言语义分析的政务网站舆情分析与预警的方法 |
CN114861027A (zh) * | 2022-04-29 | 2022-08-05 | 深圳市东晟数据有限公司 | 一种基于大数据及自然语言处理的多维度舆情推荐方法 |
CN116017070B (zh) * | 2022-12-01 | 2024-04-12 | 四川长虹电器股份有限公司 | 基于运营策略提升电视主页点击率的方法 |
CN116069832B (zh) * | 2023-04-07 | 2023-06-06 | 微网优联科技(成都)有限公司 | 数据挖掘方法、装置及电子设备 |
CN116861063B (zh) * | 2023-06-07 | 2024-02-27 | 广州数说故事信息科技有限公司 | 一种发掘社媒热搜商业价值度的方法 |
CN116527697B (zh) * | 2023-06-30 | 2023-09-08 | 杭州城市大脑有限公司 | 应用于一网统管的区块链和ipfs舆情共享方法及系统 |
CN116542238B (zh) * | 2023-07-07 | 2024-03-15 | 和元达信息科技有限公司 | 一种基于小程序的事件热度趋势确定方法及系统 |
CN116701729B (zh) * | 2023-08-01 | 2023-10-31 | 贵州融云信息技术有限公司 | 一种网络舆情检测系统及检测方法 |
CN116881504B (zh) * | 2023-09-06 | 2023-11-24 | 北京橙色风暴数字技术有限公司 | 一种基于人工智能的图像信息数字化管理系统及方法 |
CN116910231B (zh) * | 2023-09-11 | 2023-11-17 | 社治无忧(成都)智慧科技有限公司 | 一种基于自然语言处理的微信群舆情预警方法和系统 |
CN117390184A (zh) * | 2023-10-08 | 2024-01-12 | 南京特尔顿信息科技有限公司 | 一种基于大数据技术的网络舆情预警方法及系统 |
CN117217218B (zh) * | 2023-11-08 | 2024-01-23 | 中国科学技术信息研究所 | 科技风险事件相关舆情的情感词典构建方法及装置 |
CN117575171B (zh) * | 2024-01-09 | 2024-04-05 | 湖南工商大学 | 一种基于数据分析的粮食形势智能评估系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793503B (zh) * | 2014-01-24 | 2017-02-08 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN104537097B (zh) * | 2015-01-09 | 2017-08-11 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
CN107085608A (zh) * | 2017-04-21 | 2017-08-22 | 上海喆之信息科技有限公司 | 一种有效的网络热点监测系统 |
CN107045497A (zh) * | 2017-05-04 | 2017-08-15 | 成都华栖云科技有限公司 | 一种快速的新闻文本内容情感分析系统及方法 |
-
2018
- 2018-05-31 CN CN201810544762.6A patent/CN108959383A/zh not_active Withdrawn
- 2018-08-24 WO PCT/CN2018/102116 patent/WO2019227710A1/zh active Application Filing
Cited By (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740146B (zh) * | 2018-12-10 | 2023-02-03 | 厦门市美亚柏科信息股份有限公司 | 一种舆情监测方法、终端及存储介质 |
CN109740146A (zh) * | 2018-12-10 | 2019-05-10 | 厦门市美亚柏科信息股份有限公司 | 一种舆情监测方法、终端及存储介质 |
CN109800302A (zh) * | 2018-12-14 | 2019-05-24 | 深圳壹账通智能科技有限公司 | 基于循环神经网络算法的舆情预警方法、装置、终端及介质 |
WO2020119533A1 (zh) * | 2018-12-14 | 2020-06-18 | 深圳壹账通智能科技有限公司 | 基于循环神经网络算法的舆情预警方法、装置、终端及介质 |
CN109800307B (zh) * | 2019-01-18 | 2022-08-02 | 深圳壹账通智能科技有限公司 | 产品评价的分析方法、装置、计算机设备及存储介质 |
CN109800307A (zh) * | 2019-01-18 | 2019-05-24 | 深圳壹账通智能科技有限公司 | 产品评价的分析方法、装置、计算机设备及存储介质 |
CN110009128A (zh) * | 2019-01-28 | 2019-07-12 | 平安科技(深圳)有限公司 | 行业舆情指数预测方法、装置、计算机设备及存储介质 |
CN109933709A (zh) * | 2019-01-31 | 2019-06-25 | 平安科技(深圳)有限公司 | 视频文本组合数据的舆情跟踪方法、装置和计算机设备 |
CN109933709B (zh) * | 2019-01-31 | 2023-09-26 | 平安科技(深圳)有限公司 | 视频文本组合数据的舆情跟踪方法、装置和计算机设备 |
CN109948161A (zh) * | 2019-03-20 | 2019-06-28 | 北京深海巨鲸信息科技有限公司 | 用于中文舆情的数据处理方法及装置 |
CN110096652A (zh) * | 2019-05-06 | 2019-08-06 | 上海汽车集团股份有限公司 | 舆情风向标指数计算方法及装置、可读存储介质 |
CN110222513A (zh) * | 2019-05-21 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种线上活动的异常监测方法、装置及存储介质 |
CN110222513B (zh) * | 2019-05-21 | 2023-06-23 | 平安科技(深圳)有限公司 | 一种线上活动的异常监测方法、装置及存储介质 |
CN112100367A (zh) * | 2019-05-28 | 2020-12-18 | 贵阳海信网络科技有限公司 | 一种景区舆情预警方法及装置 |
CN110196979A (zh) * | 2019-06-05 | 2019-09-03 | 深圳市思迪信息技术股份有限公司 | 基于分布式系统的意图识别方法及装置 |
CN110196979B (zh) * | 2019-06-05 | 2023-07-25 | 深圳市思迪信息技术股份有限公司 | 基于分布式系统的意图识别方法及装置 |
CN110263238B (zh) * | 2019-06-21 | 2021-10-15 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的舆情聆听系统 |
CN110297986A (zh) * | 2019-06-21 | 2019-10-01 | 山东科技大学 | 一种微博热点话题的情感倾向分析方法 |
CN110263238A (zh) * | 2019-06-21 | 2019-09-20 | 浙江华坤道威数据科技有限公司 | 一种基于大数据的舆情聆听系统 |
CN110516067B (zh) * | 2019-08-23 | 2022-02-11 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
CN110555092B (zh) * | 2019-09-10 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 舆情处理方法、装置及计算机可读存储介质 |
CN110555092A (zh) * | 2019-09-10 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 舆情处理方法、装置及计算机可读存储介质 |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
CN112749269A (zh) * | 2019-10-31 | 2021-05-04 | 北京国双科技有限公司 | 实体舆情计算方法及系统 |
CN110852090B (zh) * | 2019-11-07 | 2024-03-19 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN110852090A (zh) * | 2019-11-07 | 2020-02-28 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN111160019B (zh) * | 2019-12-30 | 2023-08-15 | 中国联合网络通信集团有限公司 | 一种舆情监测的方法、装置及系统 |
CN111160019A (zh) * | 2019-12-30 | 2020-05-15 | 中国联合网络通信集团有限公司 | 一种舆情监测的方法、装置及系统 |
CN111241077A (zh) * | 2020-01-03 | 2020-06-05 | 四川新网银行股份有限公司 | 基于互联网数据的金融欺诈行为的识别方法 |
CN111241077B (zh) * | 2020-01-03 | 2023-06-09 | 四川新网银行股份有限公司 | 基于互联网数据的金融欺诈行为的识别方法 |
CN111309903A (zh) * | 2020-01-20 | 2020-06-19 | 北京大米未来科技有限公司 | 一种数据处理方法、装置、存储介质和电子设备 |
CN111400437A (zh) * | 2020-02-19 | 2020-07-10 | 北京三快在线科技有限公司 | 互联网信息响应方法、装置、电子设备和计算机可读介质 |
CN111414455B (zh) * | 2020-03-20 | 2024-03-01 | 北京百度网讯科技有限公司 | 舆情分析方法、装置、电子设备及可读存储介质 |
CN111414455A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 舆情分析方法、装置、电子设备及可读存储介质 |
CN111428146A (zh) * | 2020-03-24 | 2020-07-17 | 上海智臻智能网络科技股份有限公司 | 网络信息处理方法及系统、设备、存储介质 |
CN111753172A (zh) * | 2020-06-04 | 2020-10-09 | 南京晓庄学院 | 一种互联网舆情信息采集和处理方法 |
CN111680226A (zh) * | 2020-06-16 | 2020-09-18 | 杭州安恒信息技术股份有限公司 | 网络舆情分析方法、装置、系统、设备及可读存储介质 |
CN112101002A (zh) * | 2020-09-15 | 2020-12-18 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112101002B (zh) * | 2020-09-15 | 2021-04-02 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112463963A (zh) * | 2020-11-30 | 2021-03-09 | 深圳前海微众银行股份有限公司 | 识别目标舆情的方法、模型训练方法及装置 |
CN112434226A (zh) * | 2020-12-15 | 2021-03-02 | 易研信息科技有限公司 | 一种网络舆情监测预警方法 |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
CN112966500A (zh) * | 2021-02-15 | 2021-06-15 | 珠海市鸿瑞信息技术股份有限公司 | 基于人工智能组态的网络数据链安全监测平台 |
CN113392195B (zh) * | 2021-02-25 | 2023-07-28 | 中国人民解放军战略支援部队信息工程大学 | 舆情监测方法及装置、电子设备及存储介质 |
CN113392195A (zh) * | 2021-02-25 | 2021-09-14 | 中国人民解放军战略支援部队信息工程大学 | 舆情监测方法及装置、电子设备及存储介质 |
CN112948677B (zh) * | 2021-02-26 | 2023-11-03 | 上海携旅信息技术有限公司 | 基于点评美感度的推荐理由确定方法、系统、设备及介质 |
CN112948677A (zh) * | 2021-02-26 | 2021-06-11 | 上海携旅信息技术有限公司 | 基于点评美感度的推荐理由确定方法、系统、设备及介质 |
CN113254746A (zh) * | 2021-05-24 | 2021-08-13 | 华北科技学院(中国煤矿安全技术培训中心) | 一种基于树莓派的网络舆情展现系统 |
CN113254746B (zh) * | 2021-05-24 | 2023-07-18 | 华北科技学院(中国煤矿安全技术培训中心) | 一种基于树莓派的网络舆情展现系统 |
CN113360710A (zh) * | 2021-05-27 | 2021-09-07 | 北京奇艺世纪科技有限公司 | 对象间组合度的确定方法、装置、计算机设备及存储介质 |
CN113360710B (zh) * | 2021-05-27 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 对象间组合度的确定方法、装置、计算机设备及存储介质 |
CN113536805A (zh) * | 2021-07-09 | 2021-10-22 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN113536805B (zh) * | 2021-07-09 | 2023-07-14 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN113505581A (zh) * | 2021-07-27 | 2021-10-15 | 北京工商大学 | 基于apso-lstm网络的教育大数据文本分析方法 |
CN114036221A (zh) * | 2021-09-24 | 2022-02-11 | 国务院国有资产监督管理委员会研究中心 | 一种专题事件分析方法 |
CN114969334A (zh) * | 2022-05-20 | 2022-08-30 | 北京九章云极科技有限公司 | 异常日志检测方法、装置、电子设备及可读存储介质 |
CN115409018A (zh) * | 2022-09-20 | 2022-11-29 | 浙江书香荷马文化有限公司 | 基于大数据的公司舆情监测系统及其方法 |
CN115409018B (zh) * | 2022-09-20 | 2023-05-02 | 浙江书香荷马文化有限公司 | 基于大数据的公司舆情监测系统及其方法 |
CN115827989A (zh) * | 2023-02-16 | 2023-03-21 | 杭州金诚信息安全科技有限公司 | 大数据环境下网络舆情人工智能预警系统及方法 |
CN116362589B (zh) * | 2023-02-23 | 2023-08-25 | 中国标准化研究院 | 一种质量工作考核评价方法 |
CN116362589A (zh) * | 2023-02-23 | 2023-06-30 | 中国标准化研究院 | 一种质量工作考核评价方法 |
CN116108851B (zh) * | 2023-03-13 | 2023-08-11 | 北京国研数通软件技术有限公司 | 基于ner的群体性诉求识别方法和系统 |
CN116108851A (zh) * | 2023-03-13 | 2023-05-12 | 北京国研数通软件技术有限公司 | 基于ner的群体性诉求识别方法和系统 |
CN116522013B (zh) * | 2023-06-29 | 2023-09-05 | 乐麦信息技术(杭州)有限公司 | 基于社交网络平台的舆情分析方法及系统 |
CN116522013A (zh) * | 2023-06-29 | 2023-08-01 | 乐麦信息技术(杭州)有限公司 | 基于社交网络平台的舆情分析方法及系统 |
CN117093762A (zh) * | 2023-07-18 | 2023-11-21 | 南京特尔顿信息科技有限公司 | 一种舆情数据评估分析系统及方法 |
CN117093762B (zh) * | 2023-07-18 | 2024-02-13 | 南京特尔顿信息科技有限公司 | 一种舆情数据评估分析系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019227710A1 (zh) | 2019-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959383A (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
CN109325165A (zh) | 网络舆情分析方法、装置及存储介质 | |
CN109145215B (zh) | 网络舆情分析方法、装置及存储介质 | |
CN108629043B (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
EP3477495A1 (en) | Apparatus and method for extracting user keyword, and computer-readable storage medium | |
WO2019153604A1 (zh) | 人机识别模型的建立装置、方法及计算机可读存储介质 | |
CN109271512A (zh) | 舆情评论信息的情感分析方法、装置及存储介质 | |
CN107862022B (zh) | 文化资源推荐系统 | |
WO2020164276A1 (zh) | 网页数据爬取方法、装置、系统及计算机可读存储介质 | |
CN105653562B (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN102446255B (zh) | 一种检测页面篡改的方法及装置 | |
CN109062972A (zh) | 网页分类方法、装置及计算机可读存储介质 | |
CN112270196A (zh) | 实体关系的识别方法、装置及电子设备 | |
CN110321553A (zh) | 短文本主题识别方法、装置及计算机可读存储介质 | |
CN105528422A (zh) | 一种主题爬虫处理方法及装置 | |
CN104899324A (zh) | 一种基于idc有害信息监测系统的样本训练系统 | |
CN110889045B (zh) | 标签分析方法、装置及计算机可读存储介质 | |
CN112650910A (zh) | 确定网站更新信息的方法、装置、设备和存储介质 | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN104036190A (zh) | 一种检测页面篡改的方法及装置 | |
JP2023544925A (ja) | データ評価方法、トレーニング方法および装置、電子機器、記憶媒体、コンピュータプログラム | |
CN111369148A (zh) | 对象指标的监测方法、电子装置及存储介质 | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181207 |
|
WW01 | Invention patent application withdrawn after publication |