CN114385894A

CN114385894A - 一种基于词典的舆情监控方法及装置

Info

Publication number: CN114385894A
Application number: CN202111657786.0A
Authority: CN
Inventors: 钟文良; 陈文静; 刘喆一; 沈玮
Original assignee: Yuekai Securities Co ltd
Current assignee: Yuekai Securities Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-22
Anticipated expiration: 2041-12-30

Abstract

本发明公开了一种基于词典的舆情监控方法及装置，所述方法包括：分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据；通过包含专业术语的词典群，分别对所述多个舆情数据进行分词，得到多个情感分词；对每个所述情感分词分配对应的情感权重值，并利用所述情感权重计算每个所述情感分词的分词分数值；基于多个所述分词分数值的数值大小确定舆情风向。本发明可以通过词典群对海量的舆情数据进行分词，可以快速提高数据的处理效率，而在分词后可以分配对应的情感权重值并计算对应的情感分数值，从而根据情感分数值确定舆情风向，以避免因个人的主观想法导致分析结果与实际不符，有效提高分析与监控的准确率。

Description

一种基于词典的舆情监控方法及装置

技术领域

本发明涉及舆情监控的技术领域，尤其涉及一种基于词典的舆情监控方法及装置。

背景技术

目前关于网络舆情的定义是以互联网为传播平台、以新媒体为传播媒介、以现实事件为基础处对象，以汇聚不同个体外在意见所形成的群体性思想倾向，并不断与现实事件发生有利或者有害的互相影响。随着互联网的飞速发展，互联网新闻媒体具备了互动性强、开放度高、信息量大等特点，成为了当今网络舆情传播核心媒介。为了准确分析网络上各个群体的思想风向，舆情分析是必不可少的。

现有网络舆情的分析方法是基于机器学习的情感分析方法，其大致流程如下：人工标注文本倾向性作为训练集，提取文本情感特征，通过机器学习的方法构造情感分类器，待分类的文本通过分类器进行倾向性分类。

但目前常用的网络舆情分析方法有如下技术问题：基于机器学习的情感分析方法，需要人工标注大量的数据，然后再使用机器学习算法做监督训练，此过程需要花费大量的时间，处理效率非常低，而且人工标注时容易因个人的主观想法，而个人的主观与网络舆情的情绪可能不到，导致标注的结果与实际不符，降低分析的准确率。

发明内容

本发明提出一种基于词典的舆情监控方法及装置，所述方法可以利用包含专业术语的分词词典对舆情信息进行分词，并为每个分词分配情感权重以计算得到情感分数从而确定对应的舆情风向，以提高舆情分析的处理效率和准确率。

本发明实施例的第一方面提供了一种基于词典的舆情监控方法，所述方法包括：

分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据；

通过包含专业术语的词典群，分别对所述多个舆情数据进行分词，得到多个情感分词，其中，所述情感分词包括：负面情感分词与正面情感分词；

对每个所述情感分词分配对应的情感权重值，并利用所述情感权重计算每个所述情感分词的分词分数值；

基于多个所述分词分数值的数值大小确定舆情风向。

在第一方面的一种可能的实现方式中，所述通过包含专业术语的词典群，分别对所述多个舆情数据进行分词，得到多个情感分词，包括：

获取用户输入的分析属性值；

按照所述分析属性值从预设的包含专业术语的分词词典群中确定每个舆情数据对应的目标分词词典；

调用所述目标分词词典对对应的舆情数据进行分句，得到多个舆情分句；

分别查找每个所述舆情分句所包含的情感词，得到多个情感分词。

在第一方面的一种可能的实现方式中，所述情感权重包括程度权重值、数量权重值和符号权重值；

所述对每个所述情感分词分配情感权重，包括：

确定所述情感分词在对应的舆情分句中的分词位置；

查找在所述分词位置至舆情分句的开头的区间内所包含的程度词，基于所述程度词的含义分配对应的程度权重值；

统计在所述分词位置至舆情分句的开头的区间内所包含的否定词的个数值，根据所述个数值的奇偶性分配对应的数量权重值；

查找所述情感分词在对应的舆情分句的结尾符号类型，根据所述结尾符号类型分配对应的符号权重值。

在第一方面的一种可能的实现方式中，所述利用所述情感权重计算每个所述情感分词的分词分数值，包括：

设定所述情感分词的基础分数值；

将所述基础分数值分别与所述程度权重值和数量权重值相乘，分别得到程度分数值和数量分数值；

将所述程度分数值、数量分数值和符号权重值相加得到分词分数值。

在第一方面的一种可能的实现方式中，所述基于多个所述分词分数值的数值大小确定舆情风向，包括：

将多个所述负面情感分词对应的分词分数值相加得到负面情感值，以及将多个所述正面情感分词对应的分词分数值相加得到正面情感值；

分别比较所述正面情感值与第一预定数值的数值大小，以及所述负面情感值与第二预设数值的大小；

基于所述正面情感值与第一预定数值的比较结果和所述负面情感值与第二预设数值的比较结果计算负面分数值和正面分数值；

对比所述负面分数值和所述正面分数值的数值大小确定舆情风向。

在第一方面的一种可能的实现方式中，所述正面分数值的计算具体为：

当所述正面情感值大于第一预定数值且所述负面情感值小于第二预定数值时，所述正面分数值等于所述正面情感值和所述负面情感值的绝对值之和；

当所述正面情感值小于第一预定数值且所述负面情感值大于第二预定数值时，所述正面分数值等于所述正面情感值的绝对值；

当所述正面情感值小于或等于第一预定数值且所述负面情感值小于或等于第二预定数值时，所述正面分数值等于所述负面情感值的绝对值；

当所述正面情感值大于或等于第一预定数值且所述负面情感值大于或等于第二预定数值时，所述正面分数值等于所述正面情感值。

在第一方面的一种可能的实现方式中，所述负面分数值的计算具体为：

当所述正面情感值大于第一预定数值且所述负面情感值小于第二预定数值时，所述负面分数值等于所述负面情感值的绝对值；

当所述正面情感值小于第一预定数值且所述负面情感值大于第二预定数值时，所述负面分数值等于所述正面情感值的绝对值与所述负面情感值之和；

当所述正面情感值小于或等于第一预定数值且所述负面情感值小于或等于第二预定数值时，所述负面分数值等于所述正面情感值的绝对值；

当所述正面情感值大于或等于第一预定数值且所述负面情感值大于或等于第二预定数值时，所述负面分数值等于所述负面情感值。

在第一方面的一种可能的实现方式中，所述对比所述负面分数值和所述正面分数值的数值大小确定舆情风向，包括：

若所述正面分数值大于所述负面分数值，则确定舆情风向为正面；

若所述正面分数值等于所述负面分数值，则确定舆情风向为中性；

若所述正面分数值小于所述负面分数值，则确定舆情风向为负面。

在第一方面的一种可能的实现方式中，在所述分别从不同的网络平台中提取海量有关公司评价的舆情数据的步骤后，所述方法还包括：

使用simhash算法清除所述舆情数据中重复的数据。

本发明实施例的第二方面提供了一种基于词典的舆情监控装置，所述装置包括：

提取模块，用于分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据；

分词模块，用于通过包含专业术语的词典群，分别对所述多个舆情数据进行分词，得到多个情感分词，其中，所述情感分词包括：负面情感分词与正面情感分词；

分配与计算模块，用于对每个所述情感分词分配对应的情感权重值，并利用所述情感权重计算每个所述情感分词的分词分数值；

确定模块，用于基于多个所述分词分数值的数值大小确定舆情风向。

相比于现有技术，本发明实施例提供的基于词典的舆情监控方法及装置，其有益效果在于：本发明可以通过词典群对海量的舆情数据进行分词，无需人工对数据进行标识，可以快速提高数据的处理效率，而在分词后，可以基于分词的情感分配对应的情感权重值，并根据情感权重值计算对应的情感分数值，从而可以根据情感分数值确定对应的舆情风向，可以避免因个人的主观想法导致分析结果与实际不符，有效提高分析与监控的准确率。

附图说明

图1是本发明一实施例提供的一种基于词典的舆情监控方法的流程示意图；

图2是本发明一实施例提供的一种基于词典的舆情监控装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前常用的网络舆情分析方法有如下技术问题：基于机器学习的情感分析方法，需要人工标注大量的数据，然后再使用机器学习算法做监督训练，此过程需要花费大量的时间，处理效率非常低，而且人工标注时容易因个人的主观想法，而个人的主观与网络舆情的情绪可能不到，导致标注的结果与实际不符，降低分析的准确率。

为了解决上述问题，下面将通过以下具体的实施例对本申请实施例提供的一种基于词典的舆情监控方法进行详细介绍和说明。

参照图1，示出了本发明一实施例提供的一种基于词典的舆情监控方法的流程示意图。

其中，作为示例的，所述基于词典的舆情监控方法，可以包括：

S11、分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据。

在一实施例中，网络平台可以是新闻或社交平台。例如：x博、x易、x讯等。

在实际操作中，可以调用不同的软件或算法从不同的平台中获取关于待监控的公司的舆情数据，得到多个舆情数据。

由于不同的新闻平台或社交平台所发的新闻或评论等舆情数据大同小异，使得多个舆情数据中可能包含大量重复的数据，为了减少所需要处理的数据，提高数据处理效率，其中，作为示例的，在步骤S11后，所述方法可以包括：

使用simhash算法清除所述舆情数据中重复的数据。

具体地，通过上述simhash算法可以清除舆情数据中大量重复的数据，从而得到不重复的舆情数据，再利用剩余的数据进行后续的操作，可以大大减少所要处理的数据容量，提高数据处理效率。

S12、通过包含专业术语的词典群，分别对所述多个舆情数据进行分词，得到多个情感分词，其中，所述情感分词包括：负面情感分词与正面情感分词。

在一实施例中，词典群可以是各个不同的词典的集合，可选地，词典群可以包括分词词典、情感词典(正面情感词词典、负面情感词词典)、程度副词词典(例如，most、very、more、ish、insufficiently、over等等)，否定词词典，其中分词词典是结巴词典与情感词典的并集，也可以存有用户预先设定的关于待监控的公司所在领域的专业词语。

在一实施例中，情感分词可以包括：负面情感分词与正面情感分词。

其中，负面情感分词可以是负面的词语，正面情感分词可以是正面的词语。

由于舆情数据有多个，不同的舆情数据可能对应不同的内容，为了准确对不同的舆情数据进行分词，在一可选的实施例中，步骤S12可以包括以下子步骤：

子步骤S121、获取用户输入的分析属性值。

在一实施例中，分析属性值可以是用户阅读舆情数据的内容(例如正文或摘要等内容)后，选择与所观看舆情数据相匹配的分析属性。其中，不同的分析属性值可以对应不同的分词词典。

子步骤S122、按照所述分析属性值从预设的包含专业术语的分词词典群中确定每个舆情数据对应的目标分词词典。

在实际操作中，在确定分析属性值后，可以基于分析属性值的大小从词典群中确定对应的分词词典，得到目标分词词典。

例如，1对应情感词典，2对应程度副词词典等等。

子步骤S123、调用所述目标分词词典对对应的舆情数据进行分句，得到多个舆情分句。

子步骤S124、分别查找每个所述舆情分句所包含的情感词，得到多个情感分词。

在一实施例中，可以先调用目标分词词典对其对应的舆情数据进行分句，得到多个舆情分句，在对每个舆情分句进行分词，得到多个分词。

在一实施例中，为了区分每个舆情分句所包含的多个情感分词，可以将每个舆情分句的多个情感分词组成一个数组，每个数组如下所示：

[[p₁₁,p₁₂,…,p_1s],[p₂₁,p₂₂,…,p_2k],…,[p_n1,p_n2,…,p_nm]]，其中p_ij表示第i个分句的第j个分词。

通过使用目标分词词典进行对应的分词，可以有效对舆情数据进行准确分词，以避免出现分词错误的情况，进而可以提高后续分析的准确率，而且基于词语的情感进行分词可以确定舆情所表达的实际情感，可以减少人为的主观阅读而造成的误差，可以进一步提高后续分析的准确率。

S13、对每个所述情感分词分配对应的情感权重值，并利用所述情感权重计算每个所述情感分词的分词分数值。

在一实施例中，由于不同的情感分词所表示的情感均不相同，可以对每个情感分词分配对应的情感权重值，从而可以根据其情感权重值计算该分词的分词分数值。

在其中一种的实施例中，所述情感权重包括程度权重值、数量权重值和符号权重值。

其中，作为示例的，步骤S13可以包括以下子步骤：

子步骤S131、确定所述情感分词在对应的舆情分句中的分词位置。

具体地，分词位置为情感分词在其所在的舆情分句的位置。例如，舆情分句有10个词语，情感分词是第五个词语，则其分词位置为5。

子步骤S132、查找在所述分词位置至舆情分句的开头的区间内所包含的程度词，基于所述程度词的含义分配对应的程度权重值。

具体地，可以查找在情感分词的分词位置之前，所含有的程度词，并确定该程度词的含义，从而根据其含义分配对应的程度权重值。

在一实施例中，程度权重值可以设置为：most：4，very：3，more：2，ish：0.5，insufficiently：-0.3，over：-0.5。

例如，p_ij是第i句舆情分句的第j个情感分词，若该情感分词为正面情感分词，在此情感分词前的程度词为重要，请对应为most，则其程度权重值为4。

在一可选的实施例中，在查找程度词时，找到程度词就停止搜索，并分配程度权重值，若没有找到，则自动分配程度权重值为1。

子步骤S133、统计在所述分词位置至舆情分句的开头的区间内所包含的否定词的个数值，根据所述个数值的奇偶性分配对应的数量权重值。

在一可选的实施例中，可以在情感分词的分词位置前找否定词，并计算否定词的个数总和，若否定词的个数是奇数，则分配的数量权重值可以为-1，若否定词的个数是偶数，则分配的数量权重值可以为1。

子步骤S134、查找所述情感分词在对应的舆情分句的结尾符号类型，根据所述结尾符号类型分配对应的符号权重值。

在一可选的实施例中，可以查找情感分词所在的舆情分句的句尾的符号，并确定该符号类型，基于符号类型分配对应的符号权重值，其中，具体的数据可以根据用户的实际需要进行调整。

例如，若舆情分句的结尾为感叹号，在感叹号前有正面情感分词，则分配符号权重值为+2；若舆情分句的结尾为问号，在感叹号前有负面情感词分，则分配符号权重值为+2。

在其中一种的实施例中，为了结合几种不同的权重，以提高计算的准确率，其中，作为示例的，步骤S13可以包括以下子步骤：

子步骤S135、设定所述情感分词的基础分数值。

可选地，可以为每个情感分词设定1为基础分数值。

子步骤S136、将所述基础分数值分别与所述程度权重值和数量权重值相乘，分别得到程度分数值和数量分数值。

子步骤S137、将所述程度分数值、数量分数值和符号权重值相加得到分词分数值。

具体地，可以将基础分数值与程度权重值相乘得到程度分数值，可以将基础分数值与数量权重值相乘得到数量分数值。

最后，将程度分数值、数量分数值和符号权重值相加，得到分词分数值。

S14、基于多个所述分词分数值的数值大小确定舆情风向。

在一实施例中，情感分词可以包括正面情感分词和负面情感分词，可以比较正面情感分词和负面情感分词的数值大小，以确定具体的舆情风向。

为了更加直观地确定舆情风向，在其中一种的实施例中，步骤S14可以包括以下子步骤：

子步骤S141、将多个所述负面情感分词对应的分词分数值相加得到负面情感值，以及将多个所述正面情感分词对应的分词分数值相加得到正面情感值。

具体地，由于情感分词中可能包括多个负面情感分词和多个正面情感分词，可以将多个负面情感分词对应的分词分数值相加得到负面情感值，以及将多个正面情感分词对应的分词分数值相加得到正面情感值。

子步骤S142、分别比较所述正面情感值与第一预定数值的数值大小，以及所述负面情感值与第二预设数值的大小。

可以分别比较正面情感值与第一预定数值的数值大小，以及负面情感值与第二预设数值的大小。

其中，第一预定数值与第二预设数值的数值可以相同，也可以不同。

子步骤S143、基于所述正面情感值与第一预定数值的比较结果和所述负面情感值与第二预设数值的比较结果计算负面分数值和正面分数值。

在一实施例中，可以基于不同的比较结果计算对应的负面分数值和正面分数值。

在一实施例中，所述正面分数值的计算具体为：

在一例子中，第一预定数值可以等于第二预设数值，其中，第一预定数值和第二预设数值均为0。

可选地，正面分数值的计算如下式所示：

其中，pos_score为正面分数值，p_score为正面情感值，n_score为负面情感值。

在一实施例中，所述负面分数值的计算具体为：

可选地，负面分数值的计算如下式所示：

其中，nos_score为负面分数值，p_score为正面情感值，n_score为负面情感值。

子步骤S144、对比所述负面分数值和所述正面分数值的数值大小确定舆情风向。

在一实施例中，子步骤S144具体可以为：

具体如下式所示：

在本实施例中，本发明实施例提供了一种基于词典的舆情监控方法，其有益效果在于：本发明可以通过词典群对海量的舆情数据进行分词，无需人工对数据进行标识，可以快速提高数据的处理效率，而在分词后，可以基于分词的情感分配对应的情感权重值，并根据情感权重值计算对应的情感分数值，从而可以根据情感分数值确定对应的舆情风向，可以避免因个人的主观想法导致分析结果与实际不符，有效提高分析与监控的准确率。

本发明实施例还提供了一种基于词典的舆情监控装置，参见图2，示出了本发明一实施例提供的一种基于词典的舆情监控装置的结构示意图。

其中，作为示例的，所述基于词典的舆情监控装置可以包括：

提取模块201，用于分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据；

分词模块202，用于通过包含专业术语的词典群，分别对所述多个舆情数据进行分词，得到多个情感分词，其中，所述情感分词包括：负面情感分词与正面情感分词；

分配与计算模块203，用于对每个所述情感分词分配对应的情感权重值，并利用所述情感权重计算每个所述情感分词的分词分数值；

确定模块204，用于基于多个所述分词分数值的数值大小确定舆情风向。

分别从不同的网络平台中提取有关公司评价的多个舆情数据；

基于多个所述分词分数值的数值大小确定舆情风向。

可选地，所述分词模块还用于：

获取用户输入的分析属性值；

可选地，所述情感权重包括程度权重值、数量权重值和符号权重值；

所述分配与计算模块还用于：

确定所述情感分词在对应的舆情分句中的分词位置；

可选地，所述分配与计算模块还用于：

设定所述情感分词的基础分数值；

可选地，所述确定模块还用于：

可选地，所述正面分数值的计算具体为：

可选地，所述负面分数值的计算具体为：

可选地，所述确定模块还用于：

可选地，所述装置还包括：

去重模块，用于使用simhash算法清除所述舆情数据中重复的数据。

进一步的，本申请实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的一种基于词典的舆情监控方法。

进一步的，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述实施例所述的一种基于词典的舆情监控方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于词典的舆情监控方法，其特征在于，所述方法包括：

基于多个所述分词分数值的数值大小确定舆情风向。

2.根据权利要求1所述的基于词典的舆情监控方法，其特征在于，所述通过包含专业术语的词典群，分别对所述多个舆情数据进行分词，得到多个情感分词，包括：

获取用户输入的分析属性值；

3.根据权利要求2所述的基于词典的舆情监控方法，其特征在于，所述情感权重包括程度权重值、数量权重值和符号权重值；

所述对每个所述情感分词分配情感权重，包括：

确定所述情感分词在对应的舆情分句中的分词位置；

4.根据权利要求3所述的基于词典的舆情监控方法，其特征在于，所述利用所述情感权重计算每个所述情感分词的分词分数值，包括：

设定所述情感分词的基础分数值；

5.根据权利要求1-4任意一项所述的基于词典的舆情监控方法，其特征在于，所述基于多个所述分词分数值的数值大小确定舆情风向，包括：

6.根据权利要求5所述的基于词典的舆情监控方法，其特征在于，所述正面分数值的计算具体为：

7.根据权利要求5所述的基于词典的舆情监控方法，其特征在于，所述负面分数值的计算具体为：

8.根据权利要求5所述的基于词典的舆情监控方法，其特征在于，所述对比所述负面分数值和所述正面分数值的数值大小确定舆情风向，包括：

9.根据权利要求1所述的基于词典的舆情监控方法，其特征在于，在所述分别从不同的网络平台中提取海量有关公司评价的舆情数据的步骤后，所述方法还包括：

使用simhash算法清除所述舆情数据中重复的数据。

10.一种基于词典的舆情监控装置，其特征在于，所述装置包括：