CN114492439A

CN114492439A - 一种应用深度学习提升舆情预警准确率的系统和方法

Info

Publication number: CN114492439A
Application number: CN202111634848.6A
Authority: CN
Inventors: 毛正冉; 刘嵩
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-05-13

Abstract

本发明涉及一种应用深度学习提升舆情预警准确率的系统和方法，属于计算机技术领域。本发明包括命名实体识别终端：用于从数据输入端口获取新闻文本并输出命名实体矩阵及其置信概率矩阵P1；新闻事件分类终端：用于从数据输入端口获取新闻文本并输出风险事件类别E2及其对应的置信概率P2；新闻舆情预警终端：用于配制预警规则，接收命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2，并执行预警规则，输出预警信号。本发明可自动从新闻文本中抽取命名实体，并且可同时预测数十种新闻事件的分类概率，输出分类概率矩阵与最高置信度的事件类别，大幅提高了新闻风险事件识别的准确率与详细程度。

Description

一种应用深度学习提升舆情预警准确率的系统和方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种应用深度学习提升舆情预警准确率的方法及系统。

背景技术

随着移动互联网、物联网等新技术的迅速发展，人类进入数据时代，数据带来的信息风暴正改变着我们的生活、工作和思维方式，同时对网络舆情管理也带来深刻影响。随着新舆情时代的到来，组织机构在密切关注舆情风险的同时，需要深入挖掘舆情大数据的价值，倾听社会、市场和用户的广泛声音。

现有新闻舆情预警的技术方案有三类，一类是传统的关键词提取与规则匹配模式；第二类是应用Word2Vec(Word Embedding)等技术将新闻文本结构化为词向量，然后结合人工标注的风险事件标签，使用机器学习模型训练舆情风险事件分类模型，最终根据模型预测结果输出舆情预警信号；第三类是应用深度学习模型的模式，两阶段的方案使用深度学习模型抽取新闻文本的结构化特征并基于此训练机器学习分类模型，端到端的方案直接使用深度学习模型训练舆情预警的二分类模型。

现有的舆情预警方法存在两点不足：第一点是无法自动抽取企业，时间，地点等命名实体(实际上大多使用关键词检索和模板/正则匹配的方法实现)；第二点是虽然应用了深度学习模型，但对于新闻舆情事件的具体类别识别不充分(现有方案均为二分类)，现有的技术有通过情感分类模型(二分类，正面-负面情感)，舆情风险模型(二分类，是否属于舆情事件)来进行分类的，实际输出的分类结果含义较为模糊，对于现实业务场景的应用来说是远远不够的。

发明内容

为了解决上述现有技术中存在的技术问题，本发明公开了一种应用深度学习提升舆情预警准确率的方法及系统，其目的在于：提高新闻风险事件识别的准确率与详细程度。

本发明采用的技术方案如下：

一种应用深度学习提升舆情预警准确率的系统，包括：

命名实体识别终端：用于从数据输入端口获取新闻文本并输出命名实体矩阵及其置信概率矩阵P1；

新闻事件分类终端：用于从数据输入端口获取新闻文本并输出风险事件类别E2及其对应的置信概率P2；

新闻舆情预警终端：用于配制预警规则，接收命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2，并执行预警规则，输出预警信号。

采用该技术方案后，本发明可以自动从新闻文本中抽取企业，时间，地点等命名实体，完善了新闻实体要素的结构化提取，并且实现了新闻舆情风险事件的多分类模型训练与预测，可以同时预测数十种新闻事件的分类概率，输出分类概率矩阵与最高置信度的事件类别，大幅提高了新闻风险事件识别的准确率与详细程度。

优选的，所述命名实体识别终端包括用于对新闻文本中的实体要素进行标注的实体要素标注模块、用于训练命名实体识别模型的命名实体识别模型训练模块和用于提取命名实体矩阵及其置信概率矩阵P1的命名实体要素提取模块。

优选的，所述新闻事件分类终端包括用于对新闻事件进行标注的新闻事件标注模块、用于训练Transformer模型的Transformer训练模块和用于输出风险事件类别E2及其对应的置信概率P2的新闻事件分类模块。

优选的，所述新闻舆情预警终端包括：

预警规则配置模块：用于配置预警规则；

预警信号生成模块：用于根据命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2输出预警信号。

优选的，步骤1：获取新闻文本，所述命名实体识别终端和新闻事件分类终端分别对新闻文本中的实体要素和风险事件进行标注，得到实体要素数据集D1和风险事件数据集D2；

步骤2：分别采用实体要素数据集D1和风险事件数据集D2对命名实体识别模型和Transformer模型进行训练，得到训练好的命名实体识别模型M1和训练好的新闻舆情风险事件分类模型M2；

步骤3：将实时获取的新闻文本分别输入到训练好的命名实体识别模型M1和新闻舆情风险事件分类模型M2中，所述命名实体识别模型M1输出命名实体矩阵及其置信概率矩阵P1，所述新闻舆情风险事件分类模型M2输出风险事件类别E2及其对应的置信概率P2；

步骤4：所述新闻舆情预警终端接收步骤3中的命名实体矩阵及其置信概率矩阵P1和风险事件类别E2及其对应的置信概率P2，并执行预警规则，输出预警信号。

优选的，所述步骤1具体包括：

步骤1.1：获取新闻文本，将新闻文本按照句子级别进行分割，使用shuffle函数将句子级别的新闻文本随机排序，并抽取其中设定比例的新闻文本对实体要素进行人工标注，剩余部分的新闻文本用于初版模型预测伪标签(pseudo label)，其中置信概率高的新闻文本标记为真实标签(true label)，置信概率低的新闻样本进行人工校正标注，得到实体要素数据集D1；

步骤1.2：获取新闻文本，将新闻文本按照句子级别进行分割，使用shuffle函数将句子级别的新闻文本随机排序，并抽取其中设定比例的新闻文本对风险事件进行人工标注，剩余部分的新闻文本用于初版模型预测伪标签(pseudo label)，其中置信概率高的新闻文本标记为真实标签(true label)，置信概率低的新闻样本进行人工校正标注，得到风险事件数据集D2。

优选的，所述步骤2具体包括以下步骤：

步骤2.1：将实体要素数据集D1导入命名实体识别模型，命名实体识别模型采用BERT+IDCNN+CRF架构，对文本进行拆分(tokenize)操作，将实体要素数据集D1划分为训练集和验证集，然后加载预训练模型，在实体要素数据集D上进行微调(Finetune)，设置合适的初始化学习率(lr)和批处理大小(batch size)，经过迭代得到训练好的命名实体识别模型M1；

步骤2.2：将风险事件数据集D2导入Transformer模型，Transformer模型采用BERT架构，对文本进行拆分(tokenize)操作，将风险事件数据集D2划分为训练集和验证集，然后加载BERT预训练模型，初始化学习率(lr)和批处理大小(batch size)，在风险事件数据集D2上进行微调(Finetune)操作，经过迭代得到训练好的新闻舆情风险事件分类模型M2。

优选的，所述步骤3具体包括以下步骤：

步骤3.1：从数据输入端口实时获取新闻文本，并输入到训练好的命名实体识别模型M1中，命名实体识别模型M1输出命名实体矩阵及其置信概率矩阵P1；所述命名实体矩阵包括企业实体、事件、时间和地点；

步骤3.2：从数据输入端口实时获取新闻文本，并输入到训练好的新闻舆情风险事件分类模型M2中，新闻舆情风险事件分类模型M2输出新闻舆情事件的分类概率矩阵，并据此计算出最高置信度的风险事件类别E2及其对应的置信概率P2。

进一步优选的，所述步骤4具体包括以下步骤：

步骤4.1：在新闻舆情预警终端的规则配置页面配置预警规则R1；

步骤4.2：所述新闻舆情预警终端接收步骤3中的命名实体矩阵及其置信概率矩阵P1和风险事件类别E2及其对应的置信概率P2；

步骤4.3：执行已配置好的预警规则R1，若触发预警规则R1中的阈值则输出预警信号，否则不输出。

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述方法的步骤。

本发明的有益效果包括：

1.本发明引入了命名实体识别(NER)模型，可以自动从新闻文本中抽取企业，时间，地点等命名实体，完善了新闻实体要素的结构化提取。

2.本发明应用了Transformer模型架构，实现了新闻舆情风险事件的多分类模型训练与预测，可以同时预测数十种新闻事件的分类概率，输出分类概率矩阵与最高置信度的事件类别，大幅提高了新闻风险事件识别的准确率与详细程度。

附图说明

图1为本发明的框架示意图；

图2为本发明的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图对本发明作进一步的详细说明：

如图1所示，一种应用深度学习提升舆情预警准确率的系统，包括：

具体的，所述命名实体识别终端包括用于对新闻文本中的实体要素进行标注的实体要素标注模块、用于训练命名实体识别模型的命名实体识别模型训练模块和用于提取命名实体矩阵及其置信概率矩阵P1的命名实体要素提取模块。

所述新闻事件分类终端包括用于对新闻事件进行标注的新闻事件标注模块、用于训练Transformer模型的Transformer训练模块和用于输出风险事件类别E2及其对应的置信概率P2的新闻事件分类模块。

所述新闻舆情预警终端包括：预警规则配置模块和预警信号生成模块。

所述预警规则配置模块用于配置预警规则；前端界面提供特征加工脚本输入，规则配置页面(特征，阈值，逻辑关系，组合规则决策树)，配置后的预警规则R1进入下一模块执行。

所述预警信号生成模块用于根据命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2输出预警信号。预警信号生成模块实时接收新闻文本数据，并行调用命名实体要素提取模块和新闻事件分类模块，接收接口返回的新闻实体要素(企业实体，时间，地点)以及风险事件类别及置信概率，执行已配置预警规则R1，若触发阈值则输出预警信号，否则不输出。

如图2所示，本发明还公开了一种应用深度学习提升舆情预警准确率的方法，所述方法包括：

步骤1：获取新闻文本，所述命名实体识别终端和新闻事件分类终端分别对新闻文本中的实体要素和风险事件进行标注，得到实体要素数据集D1和风险事件数据集D2；

进一步作为本方案的优选实施例，所述步骤1具体包括：

步骤1.1：获取新闻文本，将新闻文本按照句子级别进行分割，使用shuffle函数将句子级别的新闻文本随机排序，并抽取其中50％的新闻文本对实体要素(企业实体，事件，时间，地点)进行人工标注，剩余部分的新闻文本用于初版模型预测伪标签(pseudolabel)，其中置信概率高的新闻文本标记为真实标签(truetrue label)，置信概率低的新闻样本进行人工校正标注，得到实体要素数据集D1；标注后的实体要素数据集D1包含新闻文本和命名实体标签(企业实体，事件，时间，地点)。

步骤1.2：获取新闻文本，将新闻文本按照句子级别进行分割，使用shuffle函数将句子级别的新闻文本随机排序，并抽取其中50％的新闻文本对风险事件(新闻舆情风险事件标签包含数十类事件类别，比如破产重组，债券违约，监管处罚等)进行人工标注，剩余部分的新闻文本用于初版模型预测伪标签(pseudo label)，其中置信概率高的新闻文本标记为真实标签(true label)，置信概率低的新闻样本进行人工校正标注，得到风险事件数据集D2。标注后的风险事件数据集D2包含新闻文本和风险事件类别标签。

进一步作为本方案的优选实施例，所述步骤2具体包括：

步骤2.1：将实体要素数据集D1导入命名实体识别模型，命名实体识别模型采用BERT+IDCNN+CRF架构，对文本进行拆分(tokenize)操作，将实体要素数据集D1划分为训练集和验证集，然后加载预训练模型，在实体要素数据集D上进行微调(Finetune)，设置合适的初始化学习率(lr)和批处理大小(batch size)，达到设定的迭代次数后得到训练好的命名实体识别模型M1；相比于传统的BERT+BILSTM+CRF，该模型结构可以并行训练，速度大幅加快，并在卷积中加入空洞，可以在不进行pooling的情况下扩大感受野，获取更好的远距离信息甚至全局信息。

步骤2.2：将风险事件数据集D2导入Transformer模型，Transformer模型采用BERT架构，对文本进行拆分(tokenize)操作，将风险事件数据集D2划分为训练集和验证集，然后加载BERT预训练模型，初始化学习率(lr)和批处理大小(batch size)，在风险事件数据集D2上进行微调(Finetune)操作，达到设定的迭代次数后得到训练好的新闻舆情风险事件分类模型M2(multi-class)。

进一步作为本方案的优选实施例，所述步骤3具体包括：

进一步作为本方案的优选实施例，所述步骤4具体包括：

另外，结合上述实施例中的舆情预警模型的训练方法和舆情预警方法，本说明书实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种舆情预警模型的训练方法或者舆情预警方法。

本发明引入了命名实体识别(NER)-命名实体识别模型，可以自动从新闻文本中抽取企业，时间，地点等命名实体，完善了新闻实体要素的结构化提取；第二点，应用了前沿的Transformer模型架构，实现了新闻舆情风险事件的多分类模型训练与预测，可以同时预测数十种新闻事件的分类概率，输出分类概率矩阵与最高置信度的事件类别，大幅提高了新闻风险事件识别的准确率与详细程度。

需要明确的是，本说明书并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本说明书的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本说明书的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

还需要说明的是，本说明书中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本说明书不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种应用深度学习提升舆情预警准确率的系统，其特征在于，包括

2.根据权利要求1所述的一种应用深度学习提升舆情预警准确率的系统，其特征在于：所述命名实体识别终端包括用于对新闻文本中的实体要素进行标注的实体要素标注模块、用于训练命名实体识别模型的命名实体识别模型训练模块和用于提取命名实体矩阵及其置信概率矩阵P1的命名实体要素提取模块。

3.根据权利要求1所述的一种应用深度学习提升舆情预警准确率的系统，其特征在于：所述新闻事件分类终端包括用于对新闻事件进行标注的新闻事件标注模块、用于训练Transformer模型的Transformer训练模块和用于输出风险事件类别E2及其对应的置信概率P2的新闻事件分类模块。

4.根据权利要求1所述的一种应用深度学习提升舆情预警准确率的系统，其特征在于：所述新闻舆情预警终端包括：

预警规则配置模块：用于配置预警规则；

5.一种应用深度学习提升舆情预警准确率的方法，其特征在于，包括以下步骤：

6.根据权利要求5所述的一种应用深度学习提升舆情预警准确率的方法，其特征在于，所述步骤1具体包括：

步骤1.1：获取新闻文本，将新闻文本按照句子级别进行分割，使用shuffle函数将句子级别的新闻文本随机排序，并抽取其中设定比例的新闻文本对实体要素进行人工标注，剩余部分的新闻文本用于初版模型预测伪标签，其中置信概率高的新闻文本标记为真实标签，置信概率低的新闻样本进行人工校正标注，得到实体要素数据集D1；

步骤1.2：获取新闻文本，将新闻文本按照句子级别进行分割，使用shuffle函数将句子级别的新闻文本随机排序，并抽取其中设定比例的新闻文本对风险事件进行人工标注，剩余部分的新闻文本用于初版模型预测伪标签，其中置信概率高的新闻文本标记为真实标签，置信概率低的新闻样本进行人工校正标注，得到风险事件数据集D2。

7.根据权利要求5所述的一种应用深度学习提升舆情预警准确率的方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2.1：将实体要素数据集D1导入命名实体识别模型，命名实体识别模型采用BERT+IDCNN+CRF架构，对文本进行拆分操作，将实体要素数据集D1划分为训练集和验证集，然后加载预训练模型，在实体要素数据集D上进行微调，设置合适的初始化学习率和批处理大小，经过迭代得到训练好的命名实体识别模型M1；

步骤2.2：将风险事件数据集D2导入Transformer模型，Transformer模型采用BERT架构，对文本进行拆分操作，将风险事件数据集D2划分为训练集和验证集，然后加载BERT预训练模型，初始化学习率和批处理大小，在风险事件数据集D2上进行微调操作，经过迭代得到训练好的新闻舆情风险事件分类模型M2。

8.根据权利要求5所述的一种应用深度学习提升舆情预警准确率的方法，其特征在于：所述步骤3具体包括以下步骤：

9.根据权利要求5所述的一种应用深度学习提升舆情预警准确率的方法，其特征在于，所述步骤4具体包括以下步骤：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求5-9任一项所述方法的步骤。