CN109684460A - 一种基于深度学习的负面网络舆情指数的计算方法及系统 - Google Patents

一种基于深度学习的负面网络舆情指数的计算方法及系统 Download PDF

Info

Publication number
CN109684460A
CN109684460A CN201811628758.4A CN201811628758A CN109684460A CN 109684460 A CN109684460 A CN 109684460A CN 201811628758 A CN201811628758 A CN 201811628758A CN 109684460 A CN109684460 A CN 109684460A
Authority
CN
China
Prior art keywords
article
negative
public sentiment
public
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811628758.4A
Other languages
English (en)
Inventor
张友书
朱玲
陈思成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN201811628758.4A priority Critical patent/CN109684460A/zh
Publication of CN109684460A publication Critical patent/CN109684460A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的负面网络舆情指数的计算方法及系统,属于文本分析和自然语言处理技术领域,解决现有技术中,采用有监督的机器学习技术,需要大量的人工标注数据指导模型训练的问题。本发明获取包含关键字的舆情文章;获取大量文章并进行处理,得到训练集,将训练集用于训练MLSTM模型,得到负面舆情识别模型;基于负面舆情识别模型,对少量文章进行标注,同时基于负面舆情识别模型得到每篇文章的特征向量后,训练逻辑回归分类器得到绝对值最大的权重|W|对应的维度k;基于负面舆情识别模型计算包含关键字舆情文章的负面舆情分,再根据维度k所对应的负面舆情分得到关键字的最终负面舆情指数。以及方法所对应的系统,本发明用于计算负面网络舆情指数。

Description

一种基于深度学习的负面网络舆情指数的计算方法及系统
技术领域
一种基于深度学习的负面网络舆情指数的计算方法及系统,用于计算负面网络舆情指数,属于文本分析和自然语言处理技术领域。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其它信息的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映。传统的社会舆情存在于民间,存在于大众的思想观念和日常的街头巷尾的议论之中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意调查等方式进行,获取效率低下,样本少而且容易流于偏颇,耗费巨大。而随着互联网的发展,大众往往以信息化的方式发表各自看法,网络舆情可以采用网络自动抓取等技术手段方便获取,效率高而且信息保真(没有人为加工),覆盖面全。
负面网络舆情指数是对负面网络舆情的量化指标。
专利号为:ZL201510355005.0的一种负面舆情指数的计算方法及系统,,包括步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Model模型的SVM分类,分别得到分类结果1和分类结果2;步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。本发明计算出的负面舆情指数准确率高,计算语料范围广且能够实时计算。但存在以下不足之处采用有监督的机器学习技术,需要大量的人工标注数据指导模型训练后,识别负面舆情后计算负面指数。大量的人工标注数据,费时费力成本高。并且有监督的负面预期模型不能通用,如金融领域的模型,不能直接用于其它领域,需要重新标注和重新训练,不仅金融领域如此,其它领域之间也不能通用。
发明内容
针对上述研究的问题,本发明的目的在于提供一种基于深度学习的负面网络舆情指数的计算方法及系统,解决现有技术中,采用有监督的机器学习技术,需要大量的人工标注数据指导模型训练,且不通用的问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于深度学习的负面网络舆情指数的计算方法,其特征在于,如下步骤:
步骤1、获取包含关键字的舆情文章;
步骤2、获取大量文章并进行处理,得到训练集,将训练集用于训练MLSTM模型,得到负面舆情识别模型;
步骤3、对少量文章进行标注,同时基于负面舆情识别模型得到每篇文章的特征向量后,训练逻辑回归分类器得到绝对值最大的权重|W|对应的维度k;
步骤4、基于负面舆情识别模型计算舆情文章的特征向量,再根据特征向量的维度k所对应的负面舆情分值得到关键字的最终负面舆情指数。
进一步,所述步骤1的具体步骤为:
步骤1.1、给出要计算负面舆情指数的关键字;
步骤1.2、通过网络爬虫,抓取网站的文章标题和正文;
步骤1.3、从已抓取文章标题和正文,过滤出包含关键字的文章,作为包含关键字的舆情文章。
进一步,所述步骤2的具体步骤为:
步骤2.1、获取大量文章,过滤其标点符号和特殊字符后,作为训练集,其中,文章为含关键字的文章或/和不含关键字的文章;
步骤2.2、对训练集中的所有字符进行one-hot编码后,构建映射字典;
步骤2.3、根据映射字典,将训练集的每篇文章中的字符替换为one-hot编码,作为MLSTM模型输入,训练MLSTM模型,得到训练好的MLSTM模型,训练好的MLSTM模型即为负面舆情识别模型。
进一步,所述步骤3的具体步骤为:
步骤3.1、从步骤2所获取的文章中抽取少量文章,对于每篇文章,根据映射字典,将文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到每篇文章的特征向量X[1…n],同时标注文章正面或负面,以y表示,将X,y作为正负面分类器的训练集;
步骤3.2、基于步骤3.1得到的训练集训练逻辑回归分类器,得到逻辑回归分类器参数,即特征向量X[1…n]对应的权重W[1…n];
步骤3.3、遍历步骤3.1抽取的所有文章的权重W[1…n],找到绝对值最大的权重|W|对应的维度k,则文章的负面舆情分值为X[k]。
进一步,所述步骤4的具体步骤为:
步骤4.1、分别计算每篇舆情文章的负面分值,计算方式为:对于每篇舆情文章,过滤标点符号和特殊字符后,根据映射字典,将舆情文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到舆情文章的特征向量X[1…n],其中X[k]为该篇舆情文章的负面舆情分值;
步骤4.2、求所有舆情文章的负面舆情分值X[k]的平均值,得到关键字的最终负面舆情指数。
一种基于深度学习的负面网络舆情指数的计算系统,其特征在于,包括:
网络舆情监测模块:获取包含关键字的舆情文章和大量文章;
负面舆情识别模块:对获取的大量文章进行处理,得到训练集,将训练集用于训练MLSTM模型,得到负面舆情识别模型;
对少量文章进行标注,同时基于负面舆情识别模型得到每篇文章的特征向量后,训练逻辑回归分类器得到绝对值最大的权重|W|对应的维度k;
负面舆情指数计算模块:基于负面舆情识别模型计算舆情文章的特征向量,再根据特征向量的维度k所对应的负面舆情分值得到关键字的最终负面舆情指数。
进一步,所述网络舆情监测模块的实现方式包括如下步骤:
接收要计算负面舆情指数的关键字;
通过网络爬虫,抓取网站的文章标题和正文;
从已抓取文章标题和正文,过滤出包含关键字的文章,作为包含关键字的舆情文章或包含关键字的文章;或
接收要抓取训练所用的文章指令,通过网络爬虫抓取大量的文章,其中,文章为含关键字的文章或/和不含关键字的文章。
进一步,所述负面舆情识别模块得到负面舆情识别模型的具体步骤为包括:
对获取的大量文章,过滤其标点符号和特殊字符后,作为训练集;
对训练集中的所有字符进行one-hot编码后,构建映射字典;
根据映射字典,将训练集的每篇文章中的字符替换为one-hot编码,作为MLSTM模型输入,训练MLSTM模型,得到训练好的MLSTM模型,训练好的MLSTM模型即为负面舆情识别模型。
进一步,所述负面舆情识别模块得到维度k的具体步骤包括:
从大量文章中抽取少量文章,对于每篇文章,根据映射字典,将文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到每篇文章的特征向量X[1…n],同时标注文章正面或负面,以y表示,将X,y作为正负面分类器的训练集;
基于训练集训练逻辑回归分类器,得到逻辑回归分类器参数,即特征向量X[1…n]对应的权重W[1…n];
遍历抽取的所有文章的权重W[1…n],找到绝对值最大的权重|W|对应的维度k,则文章的负面舆情分值为X[k]。
进一步,所述负面舆情指数计算模块实现的具体步骤包括:
分别计算每篇舆情文章的负面分值,计算方式为:对于每篇舆情文章,过滤标点符号和特殊字符后,根据映射字典,将舆情文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到舆情文章的特征向量X[1…n],其中X[k]为该篇舆情文章的负面舆情分值;
求所有舆情文章的负面舆情分值X[k]的平均值,得到关键字的最终的负面舆情指数。
本发明同现有技术相比,其有益效果表现在:
一、本发明采用无监督的深度学习技术,无需负面词典,通过少量标注即可识别负面舆情并计算负面指数,可节约大量人工标注成本;
二、本发明通用性强,跨领域效果好,应用到不同领域,只要使用不同领域的未标注数据重新训练即可,不需要重新人工标注数据,迁移到其它领域省时省力,不需要重新人工标注数据是因为迁移前的标注数据确定了k后就不需要标注数据了;
三、而无监督的模型,可直接用未标注的数据训练模型,省时省力成本低。并且应用到不同领域,只要使用不同领域的未标注数据重新训练即可,不需要重新标注。
附图说明
图1为本发明得到负面舆情识别模型和维度k的示意图;
图2为本发明实施例中求得负面舆情指数的示意图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
本发明中所针对的“舆情”是指“网络舆情”。
一种基于深度学习的负面网络舆情指数的计算方法,步骤如下:
步骤1、获取包含关键字的舆情文章;具体步骤为:
步骤1.1、给出要计算负面舆情指数的关键字;
步骤1.2、通过网络爬虫,抓取网站的文章标题和正文;
步骤1.3、从已抓取文章标题和正文,过滤出包含关键字的文章,作为包含关键字的舆情文章。
步骤2、获取大量文章并进行处理,得到训练集,将训练集用于训练MLSTM模型,得到负面舆情识别模型;具体步骤为:
步骤2.1、获取大量文章,过滤其标点符号和特殊字符后,作为训练集,其中,文章为含关键字的文章或/和不含关键字的文章;
步骤2.2、对训练集中的所有字符进行one-hot编码后,构建映射字典;
步骤2.3、根据映射字典,将训练集的每篇文章中的字符替换为one-hot编码,作为MLSTM模型输入,训练MLSTM模型,得到训练好的MLSTM模型,训练好的MLSTM模型即为负面舆情识别模型。
步骤3、对少量文章进行标注,同时基于负面舆情识别模型得到每篇文章的特征向量后,训练逻辑回归分类器得到绝对值最大的权重|W|对应的维度k;具体步骤为:
步骤3.1、从步骤2所获取的文章中抽取少量文章,对于每篇文章,根据映射字典,将文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到每篇文章的特征向量X[1…n],同时标注文章正面或负面,以y表示,将X,y作为正负面分类器的训练集;
步骤3.2、基于步骤3.1得到的训练集训练逻辑回归分类器,得到逻辑回归分类器参数,即特征向量X[1…n]对应的权重W[1…n];
步骤3.3、遍历步骤3.1抽取的所有文章的权重W[1…n],找到绝对值最大的权重|W|对应的维度k,则文章的负面舆情分值为X[k]。
步骤4、基于负面舆情识别模型计算舆情文章的特征向量,再根据特征向量的维度k所对应的负面舆情分值得到关键字的最终负面舆情指数。具体步骤为:
步骤4.1、分别计算每篇舆情文章的负面分值,计算方式为:对于每篇舆情文章,过滤标点符号和特殊字符后,根据映射字典,将舆情文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到舆情文章的特征向量X[1…n],其中X[k]为该篇舆情文章的负面舆情分值;
步骤4.2、求所有舆情文章的负面舆情分值X[k]的平均值,得到关键字的最终负面舆情指数。
一种基于深度学习的负面网络舆情指数的计算系统,包括:
网络舆情监测模块:获取包含关键字的舆情文章和大量文章;实现方式包括如下步骤:
接收要计算负面舆情指数的关键字;
通过网络爬虫,抓取网站的文章标题和正文;
从已抓取文章标题和正文,过滤出包含关键字的文章,作为包含关键字的舆情文章或包含关键字的文章;或
接收要抓取训练所用的文章指令,通过网络爬虫抓取大量的文章,其中,文章为含关键字的文章或/和不含关键字的文章。
负面舆情识别模块:对获取的大量文章进行处理,得到训练集,将训练集用于训练MLSTM模型,得到负面舆情识别模型;
对少量文章进行标注,同时基于负面舆情识别模型得到每篇文章的特征向量后,训练逻辑回归分类器得到绝对值最大的权重|W|对应的维度k;
具体步骤为包括:
对获取的大量文章,过滤其标点符号和特殊字符后,作为训练集;
对训练集中的所有字符进行one-hot编码后,构建映射字典;
根据映射字典,将训练集的每篇文章中的字符替换为one-hot编码,作为MLSTM模型输入,训练MLSTM模型,得到训练好的MLSTM模型,训练好的MLSTM模型即为负面舆情识别模型;
从大量文章中抽取少量文章,对于每篇文章,根据映射字典,将文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到每篇文章的特征向量X[1…n],同时标注文章正面或负面,以y表示,将X,y作为正负面分类器的训练集;
基于训练集训练逻辑回归分类器,得到逻辑回归分类器参数,即特征向量X[1…n]对应的权重W[1…n];
遍历抽取的所有文章的权重W[1…n],找到绝对值最大的权重|W|对应的维度k,则文章的负面舆情分值为X[k]。
负面舆情指数计算模块:基于负面舆情识别模型计算舆情文章的特征向量,再根据特征向量的维度k所对应的负面舆情分值得到关键字的最终负面舆情指数。
实现的具体步骤包括:
分别计算每篇舆情文章的负面分值,计算方式为:对于每篇舆情文章,过滤标点符号和特殊字符后,根据映射字典,将舆情文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到舆情文章的特征向量X[1…n],其中X[k]为该篇舆情文章的负面舆情分值;
求所有舆情文章的负面舆情分值X[k]的平均值,得到关键字的最终的负面舆情指数。
实施例
给出要计算负面舆情指数的关键字,比如“新网银行”。
从新闻网站、贴吧、微博、微信公众号等网站,通过网络爬虫,抓取文章标题和正文。
从已抓取文章的标题和正文,过滤出包含关键字“新网银行”的文章,作为与“新网银行”相关的舆情文章。
按照收集舆情文章的方式收集不包含关键字的文章,收集过去5-10年的文章,过滤标点符号和特殊字符,作为训练集。
对训练集中的字符,进行one-hot编码,构建映射字典。
根据映射字典,将训练集中的字符替换为one-hot编码,作为MLSTM模型输入,开始训练模型。
模型训练完成后,得训练好的MLSTM模型,训练好的MLSTM模型即为负面舆情识别模型。
从收集的不包含关键字的文章中抽取100篇文章,对于每篇文章,根据映射字典,将文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到每篇文章的特征向量X[1…n],同时标注文章正面或负面,以y表示,将X,y作为正负面分类器的训练集。
基于分类器的训练集训练逻辑回归分类器,得到逻辑回归分类器参数,其中特征向量X[1…n]对应的权重W[1…n]。
遍历抽取的所有文章的权重W[1…n],找到绝对值最大的|W|对应的维度k,则文章的负面舆情分值为X[k]。
对于“新网银行”相关舆情的每一篇舆情文章,分别计算每篇舆情文章的负面分。计算方式为:对于每篇舆情文章,过滤标点符号和特殊字符后,根据映射字典,将舆情文章中的字符转换为one-hot编码,输入训练好的MLSTM模型进行转换,得到舆情文章的特征向量X[1…n],其中X[k]为该篇舆情文章的负面舆情分值,k为1…n中绝对值最大的|W|对应的维度。
求所有舆情文章的负面舆情分值X[k]的平均值,得到关键字的最终的负面舆情指数。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (10)

1.一种基于深度学习的负面网络舆情指数的计算方法,其特征在于,如下步骤:
步骤1、获取包含关键字的舆情文章;
步骤2、获取大量文章并进行处理,得到训练集,将训练集用于训练MLSTM模型,得到负面舆情识别模型;
步骤3、对少量文章进行标注,同时基于负面舆情识别模型得到每篇文章的特征向量后,训练逻辑回归分类器得到绝对值最大的权重|W|对应的维度k;
步骤4、基于负面舆情识别模型计算舆情文章的特征向量,再根据特征向量的维度k所对应的负面舆情分值得到关键字的最终负面舆情指数。
2.根据权利要求1所述的一种基于深度学习的负面网络舆情指数的计算方法,其特征在于,所述步骤1的具体步骤为:
步骤1.1、给出要计算负面舆情指数的关键字;
步骤1.2、通过网络爬虫,抓取网站的文章标题和正文;
步骤1.3、从已抓取文章标题和正文,过滤出包含关键字的文章,作为包含关键字的舆情文章。
3.根据权利要求1或2所述的一种基于深度学习的负面网络舆情指数的计算方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1、获取大量文章,过滤其标点符号和特殊字符后,作为训练集,其中,文章为含关键字的文章或/和不含关键字的文章;
步骤2.2、对训练集中的所有字符进行one-hot编码后,构建映射字典;
步骤2.3、根据映射字典,将训练集的每篇文章中的字符替换为one-hot编码,作为MLSTM模型输入,训练MLSTM模型,得到训练好的MLSTM模型,训练好的MLSTM模型即为负面舆情识别模型。
4.根据权利要求3所述的一种基于深度学习的负面网络舆情指数的计算方法,其特征在于,所述步骤3的具体步骤为:
步骤3.1、从步骤2所获取的文章中抽取少量文章,对于每篇文章,根据映射字典,将文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到每篇文章的特征向量X[1…n],同时标注文章正面或负面,以y表示,将X,y作为正负面分类器的训练集;
步骤3.2、基于步骤3.1得到的训练集训练逻辑回归分类器,得到逻辑回归分类器参数,即特征向量X[1…n]对应的权重W[1…n];
步骤3.3、遍历步骤3.1抽取的所有文章的权重W[1…n],找到绝对值最大的权重|W|对应的维度k,则文章的负面舆情分值为X[k]。
5.根据权利要求4所述的一种基于深度学习的负面网络舆情指数的计算方法,其特征在于,所述步骤4的具体步骤为:
步骤4.1、分别计算每篇舆情文章的负面分值,计算方式为:对于每篇舆情文章,过滤标点符号和特殊字符后,根据映射字典,将舆情文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到舆情文章的特征向量X[1…n],其中X[k]为该篇舆情文章的负面舆情分值;
步骤4.2、求所有舆情文章的负面舆情分值X[k]的平均值,得到关键字的最终负面舆情指数。
6.一种基于深度学习的负面网络舆情指数的计算系统,其特征在于,包括:
网络舆情监测模块:获取包含关键字的舆情文章和大量文章;
负面舆情识别模块:对获取的大量文章进行处理,得到训练集,将训练集用于训练MLSTM模型,得到负面舆情识别模型;
对少量文章进行标注,同时基于负面舆情识别模型得到每篇文章的特征向量后,训练逻辑回归分类器得到绝对值最大的权重|W|对应的维度k;
负面舆情指数计算模块:基于负面舆情识别模型计算舆情文章的特征向量,再根据特征向量的维度k所对应的负面舆情分值得到关键字的最终负面舆情指数。
7.根据权利要求6所述的一种基于深度学习的负面网络舆情指数的计算系统,其特征在于,所述网络舆情监测模块的实现方式包括如下步骤:
接收要计算负面舆情指数的关键字;
通过网络爬虫,抓取网站的文章标题和正文;
从已抓取文章标题和正文,过滤出包含关键字的文章,作为包含关键字的舆情文章或包含关键字的文章;或
接收要抓取训练所用的文章指令,通过网络爬虫抓取大量的文章,其中,文章为含关键字的文章或/和不含关键字的文章。
8.根据权利要求6或7所述的一种基于深度学习的负面网络舆情指数的计算系统,其特征在于,所述负面舆情识别模块得到负面舆情识别模型的具体步骤为包括:
对获取的大量文章,过滤其标点符号和特殊字符后,作为训练集;
对训练集中的所有字符进行one-hot编码后,构建映射字典;
根据映射字典,将训练集的每篇文章中的字符替换为one-hot编码,作为MLSTM模型输入,训练MLSTM模型,得到训练好的MLSTM模型,训练好的MLSTM模型即为负面舆情识别模型。
9.根据权利要求8所述的一种基于深度学习的负面网络舆情指数的计算系统,其特征在于,所述负面舆情识别模块得到维度k的具体步骤包括:
从大量文章中抽取少量文章,对于每篇文章,根据映射字典,将文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到每篇文章的特征向量X[1…n],同时标注文章正面或负面,以y表示,将x,y作为正负面分类器的训练集;
基于训练集训练逻辑回归分类器,得到逻辑回归分类器参数,即特征向量X[1…n]对应的权重W[1…n];
遍历抽取的所有文章的权重W[1…n],找到绝对值最大的权重|W|对应的维度k,则文章的负面舆情分值为X[k]。
10.根据权利要求9所述的一种基于深度学习的负面网络舆情指数的计算系统,其特征在于,所述负面舆情指数计算模块实现的具体步骤包括:
分别计算每篇舆情文章的负面分值,计算方式为:对于每篇舆情文章,过滤标点符号和特殊字符后,根据映射字典,将舆情文章中的字符转换为one-hot编码,输入负面舆情识别模型进行转换,得到舆情文章的特征向量X[1…n],其中X[k]为该篇舆情文章的负面舆情分值;
求所有舆情文章的负面舆情分值X[k]的平均值,得到关键字的最终的负面舆情指数。
CN201811628758.4A 2018-12-28 2018-12-28 一种基于深度学习的负面网络舆情指数的计算方法及系统 Pending CN109684460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811628758.4A CN109684460A (zh) 2018-12-28 2018-12-28 一种基于深度学习的负面网络舆情指数的计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811628758.4A CN109684460A (zh) 2018-12-28 2018-12-28 一种基于深度学习的负面网络舆情指数的计算方法及系统

Publications (1)

Publication Number Publication Date
CN109684460A true CN109684460A (zh) 2019-04-26

Family

ID=66191157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811628758.4A Pending CN109684460A (zh) 2018-12-28 2018-12-28 一种基于深度学习的负面网络舆情指数的计算方法及系统

Country Status (1)

Country Link
CN (1) CN109684460A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241077A (zh) * 2020-01-03 2020-06-05 四川新网银行股份有限公司 基于互联网数据的金融欺诈行为的识别方法
CN113642881A (zh) * 2021-08-09 2021-11-12 平安国际智慧城市科技股份有限公司 舆情数据的风险识别方法、装置、计算机设备及存储介质
CN115512529A (zh) * 2021-06-23 2022-12-23 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239554A (zh) * 2014-09-24 2014-12-24 南开大学 跨领域跨类别的新闻评论情绪预测方法
CN108090032A (zh) * 2018-01-03 2018-05-29 第四范式(北京)技术有限公司 逻辑回归模型的可视化解释方法及装置
CN108280670A (zh) * 2017-01-06 2018-07-13 腾讯科技(深圳)有限公司 种子人群扩散方法、装置以及信息投放系统
CN108647823A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 基于深度学习的股票数据分析方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239554A (zh) * 2014-09-24 2014-12-24 南开大学 跨领域跨类别的新闻评论情绪预测方法
CN108280670A (zh) * 2017-01-06 2018-07-13 腾讯科技(深圳)有限公司 种子人群扩散方法、装置以及信息投放系统
CN108090032A (zh) * 2018-01-03 2018-05-29 第四范式(北京)技术有限公司 逻辑回归模型的可视化解释方法及装置
CN108647823A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 基于深度学习的股票数据分析方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALEC RADFORD等: "Learning to Generate Reviews and Discovering Sentiment", 《HTTPS://ARXIV.ORG/ABS/1704.01444》 *
BEN KRAUSE等: "MULTIPLICATIVE LSTM FOR SEQUENCE MODELLING", 《HTTPS://ARXIV.ORG/ABS/1609.07959》 *
KHUSHMEET S. SHERGILL等: "An Improved Differential Neural Computer Model", 《2ND INTERNATIONAL CONFERENCE ON SOFT COMPUTING SYSTEMS 》 *
周翔等: "OpenAI"巧妙"发现无监督情感神经元,可利用文本检测用户情感", 《HTTPS://WWW.LEIPHONE.COM/NEWS/201704/LBF3JVSYI0FAG7PG.HTML》 *
龙心尘等: "机器学习系列(5)", 《HTTPS://WWW.CSDN.NET/GATHER_2F/MTTAGGWSMTI4MC1IBG9N.HTML》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241077A (zh) * 2020-01-03 2020-06-05 四川新网银行股份有限公司 基于互联网数据的金融欺诈行为的识别方法
CN115512529A (zh) * 2021-06-23 2022-12-23 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统
CN115512529B (zh) * 2021-06-23 2024-03-05 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统
CN113642881A (zh) * 2021-08-09 2021-11-12 平安国际智慧城市科技股份有限公司 舆情数据的风险识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN107704637B (zh) 一种面向突发事件的知识图谱构建方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN105653590B (zh) 一种中文文献作者重名消歧的方法
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN106777274A (zh) 一种中文旅游领域知识图谱构建方法及系统
CN107705066A (zh) 一种商品入库时信息录入方法及电子设备
CN107168955A (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN109684460A (zh) 一种基于深度学习的负面网络舆情指数的计算方法及系统
CN103617290B (zh) 中文机器阅读系统
CN108763353A (zh) 基于规则和远程监督的百度百科关系三元组抽取方法
CN103559199B (zh) 网页信息抽取方法和装置
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN103235774A (zh) 一种科技项目申请书特征词提取方法
CN103034726B (zh) 文本过滤系统及方法
CN103995903B (zh) 基于同构子空间映射和优化的跨媒体检索方法
CN109657039A (zh) 一种基于双层BiLSTM-CRF的工作履历信息抽取方法
CN108960342A (zh) 基于改进SoftMax损失函数的图像相似度计算方法
CN105868408A (zh) 基于机器学习的招聘信息解析系统及其方法
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN103473813B (zh) 一种三维模型构件的自动提取方法
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190426