CN113342972B

CN113342972B - 舆情识别模型训练方法、系统以及舆情风险监测方法和系统

Info

Publication number: CN113342972B
Application number: CN202110563119.XA
Authority: CN
Inventors: 范芳芳; 陈娟
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2023-02-28
Anticipated expiration: 2041-05-24
Also published as: CN113342972A

Abstract

本说明书提供的舆情识别模型训练方法、系统以及舆情风险监测方法和系统，能够基于历史时间周期对多个历史内容数据基于时间维度进行划分，将多个历史数据划分为多个样本数据，并基于多个样本数据训练舆情识别模型。每个样本数据中包括多个样本内容数据。因此，训练得到的舆情识别模型能够识别出由多个内容数据相机结合引发的舆情风险。在进行舆情风险监测时，所述舆情风险监测方法和系统能够将目标时间窗口内的多个目标内容数据相结合作为一个目标舆情数据，并通过训练好的舆情识别模型对目标舆情数据进行识别，以识别出多个目标内容数据结合后是否存在舆情风险，提高舆情风险识别的准确率。

Description

舆情识别模型训练方法、系统以及舆情风险监测方法和系统

技术领域

本说明书涉及互联网技术领域，尤其涉及一种舆情识别模型训练方法、系统以及舆情风险监测方法和系统。

背景技术

随着信息社会的发展和互联网的普及，社会各类信息呈现出传播渠道多、传播速度快、传播范围广的特点，容易形成网络舆情。而互联网舆论环境复杂，网络谣言、非理性声音极易引发公众对立情绪。特别是在用户生成内容类网络平台中，大量用户生成的内容数据在给信息交流带来快捷方便的同时，也会产生一些风险，如黄堵毒、暴恐症、违禁广告、欺诈等，这些风险将给应用平台以及用户带来信用风险，成为酿成重大恶性事件的导火索。因此，为了尽可能减少矛盾激化、降低重大恶性事件的发生等，就需要及时了解舆论并加强对舆情监控。现有技术中对用户生成的内容数据进行预警的方法主要是通过自然语言识别模型对每一条内容数据进行识别，并将每一条内容数据与关键词库中的关键词进行匹配，以识别存在风险的内容数据。但在实际应用场景中，风险不仅仅存在于单条内容数据之中，伴随着大量的单条内容数据，存在风险的舆情信息也随之产生。现有技术中无法对大量内容数据中隐含的风险进行提前感知，一旦发生风险将引起严重的后果。

因此，需要提供一种能够提前感知风险的舆情识别模型训练方法、系统以及舆情风险监测方法和系统。

发明内容

本说明书提供一种能够提前感知风险的舆情识别模型训练方法、系统以及舆情风险监测方法和系统，能够提前预测出由多条内容数据相结合构成的风险，提高舆情风险识别的准确性。

第一方面，本说明书提供一种舆情识别模型训练方法，包括：从目标应用平台中获取多个讨论区对应的多个历史舆情数据，每个所述历史舆情数据至少包括多个历史内容数据以及所述多个历史内容数据对应的时间，每个所述历史舆情数据来自所述多个讨论区中的同一个讨论区；基于历史时间周期以及所述多个历史内容数据对应的时间，将每个所述历史舆情数据划分为多个样本数据，所述多个样本数据对应多个历史时刻，每个所述样本数据包括与其对应的历史时刻之前的历史时间窗口内的多个样本内容数据，所述多个历史内容数据包括所述多个样本内容数据；获取每个所述样本数据的风险等级标签及其风险等级标签；以及基于所述多个样本数据对分类模型进行训练，得到所述舆情识别模型。

在一些实施例中，所述历史时间窗口大于所述历史时间周期。

在一些实施例中，每个所述样本数据还包括所述多个样本内容数据对应的历史属性数据，所述历史属性数据包括所述多个样本内容数据的来源。

在一些实施例中，每个所述样本数据还包括所述多个样本内容数据对应的历史用户数据，所述历史用户数据包括历史用户行为数据以及历史用户属性数据中的至少一个。

在一些实施例中，每个所述样本数据还包括所述多个样本内容数据对应的评价指标，所述评价指标包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。

第二方面，本申请还提供一种舆情识别模型训练系统，包括至少一个存储介质以及至少一个处理器，所述至少一个存储介质存储有至少一个指令集用于舆情识别模型的训练；所述至少一个处理器同所述至少一个存储介质通信连接，其中，当所述舆情识别模型的训练系统运行时，所述至少一个处理器读取所述至少一个指令集并实施本说明书第一方面所述的舆情识别模型训练方法。

第三方面，本申请还提供一种舆情风险监测的方法，包括：基于目标时间周期，从目标应用平台的目标讨论区中获取当前时刻对应的目标舆情数据，所述目标舆情数据至少包括所述当前时刻之前的目标时间窗口内的多个目标内容数据；将所述目标舆情数据输入预设的风险识别模型，确定所述当前时刻的目标风险识别结果，其中，所述风险识别模型至少包括舆情识别模型，被配置为对所述目标舆情数据进行分类获取所述目标舆情数据的目标风险等级，所述目标风险识别结果至少包括所述目标风险等级，所述舆情识别模型是通过权利要求1-5中任一项所述的舆情识别模型训练方法得到的；以及输出所述目标风险识别结果。

在一些实施例中，所述目标时间窗口大于所述目标时间周期。

在一些实施例中，所述目标舆情数据还包括所述多个目标内容数据对应的评价指标，所述评价指标包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。

在一些实施例中，所述目标舆情数据还包括所述多个目标内容数据对应的目标属性数据，所述目标属性数据包括所述多个目标内容数据的来源。

在一些实施例中，所述目标舆情数据还包括所述多个目标内容数据对应的目标用户数据，所述目标用户数据包括目标用户行为数据以及目标用户属性数据中的至少一个。

在一些实施例中，所述舆情识别模型还包括意图识别模型，被配置为对所述目标舆情数据进行分类获取所述目标舆情数据的目标意图类别，所述风险识别结果还包括所述目标意图类别。

在一些实施例中，所述风险识别模型还包括关键词识别模型，被配置为识别所述目标舆情数据中的目标关键词，所述风险识别结果还包括所述目标关键词。

在一些实施例中，所述风险识别模型还包括话题挖掘模型，被配置为对所述目标舆情数据进行动态话题挖掘，获取所述目标舆情数据对应的目标话题，所述风险识别结果还包括所述目标话题。

在一些实施例中，所述风险识别模型还包括命名实体识别模型，被配置为识别所述目标舆情数据中的目标实体，所述风险识别结果还包括所述目标实体。

在一些实施例中，所述输出所述目标风险识别结果，包括：确定所述目标风险等级为有风险，输出所述目标风险识别结果。

在一些实施例中，所述输出所述目标风险识别结果，还包括：从外部舆情平台获取所述当前时刻的外部舆情信息，将所述风险识别结果与所述外部舆情信息对比，当所述风险识别结果与所述外部舆情信息相匹配时，输出所述目标风险识别结果。

第四方面，本说明书还一种舆情风险监测的系统，包括至少一个存储介质以及至少一个处理器，所述至少一个存储介质存储有至少一个指令集用于舆情风险监控；所述至少一个处理器同所述至少一个存储介质通信连接，其中，当所述舆情识别模型的训练系统运行时，所述至少一个处理器读取所述至少一个指令集并实施本说明书第三方面所述的舆情风险监测的方法。

由以上技术方案可知，本说明书提供的舆情识别模型训练方法、系统以及舆情风险监测方法和系统，能够基于历史时间周期对多个历史内容数据基于时间维度进行划分，将多个历史数据划分为多个样本数据。每个样本数据包括其对应的历史时刻之前的历史时间窗口内的多个样本内容数据，因此，每个样本数据中包括多个样本内容数据。并且，历史时间窗口的长度大于历史时间周期。因此，相邻的两个样本数据中有部分样本内容数据是重合的。所述舆情识别模型训练方法和系统可以基于多个样本数据训练舆情识别模型。由于相邻的两个样本数据中有部分样本内容数据是重合的，因此通过与舆情识别模型获取的风险识别结果可以提前感知风险。在进行舆情风险监测时，所述舆情风险监测方法和系统能够将目标时间窗口内的多个目标内容数据相结合作为一个目标舆情数据，并通过训练好的舆情识别模型对目标舆情数据进行识别，以识别出多个目标内容数据结合后是否存在舆情风险。所述方法和系统不仅能够提前感知舆情风险，还能够对多个内容数据相结合的数据进行舆情风险感知，从而识别出由多个内容数据相结合构成的舆情风险，提高舆情风险识别的准确率。

本说明书提供的舆情识别模型训练方法、系统以及舆情风险监测方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的舆情识别模型训练方法、系统以及舆情风险监测方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种舆情风险监测的系统的应用场景示意图；

图2示出了根据本说明书的实施例提供的一种计算设备的设备示意图；

图3示出了根据本说明书的实施例提供的一种舆情识别模型训练方法流程图；以及

图4示出了根据本说明书的实施例提供的一种舆情风险监测的方法流程图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了方便描述，我们首先对以下描述中将会出现的术语进行如下解释：

舆情：是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。

舆情监测：是指整合互联网信息采集技术及信息智能处理技术，通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦，实现用户的网络舆情监测和新闻专题追踪等信息需求，形成简报、报告、图表等分析结果，为客户全面掌握群众思想动态，做出正确舆论引导，提供分析依据。

UGC内容：UGC全称为User Generated Content，也就是用户生成内容，即用户原创内容，用户发表的每一条内容都可以作为一个内容数据。

时间切片：按照时间顺序以n为窗口，m为步长滑动，将时间切成多个时间片段，例如，当n为1h，m为0.5h时，00:00:00～01:00:00为第一个时间片段，00:30:00～01:30:00为第二个时间片段等。

有监督学习：从类别已知的标签化训练数据集中推断出分类函数的机器学习任务。

无监督学习：从类别未知(没有标记)的训练数据集中推断出分类函数的机器学习任务。

话题挖掘：对一段时间用户发言内容，挖掘内容的话题类别。

关键词提取：对一段时间用户发言内容，挖掘出内容的关键词。

命名实体识别：是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

Lightgbm：是机器学习算法中一种训练效率高、效果好有监督的二分类模型。

CRF：是一个序列化标注算法，用来做命名实体识别的一种算法。

ROBerta：是一种新型的语言模型Bert的变种，通过联合调节所有层中的双向Transformer来训练预训练深度双向表示。

FastText：是一个快速文本分类算法与基于神经网络的分类算法。

DBSCAN：一种聚类算法，用来与Fasttext结合做无监督话题挖掘的算法。

TF-IDF：是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，本文用来做关键词提取。

随着网络技术的迅速发展，网络交流在人们的日常生活中越来越多。同一事件相关舆情信息数量过多，会导致该事件发酵成热点事件，相关舆论可以对事件的走向产生重大影响。因此，对舆情信息的监控需求日益增加。特别是在金融类用户生成内容类应用平台中，大量用户生成的内容数据在给信息交流带来快捷方便的同时，也会产生一些舆情风险，其风险形式非常严峻。舆情一旦发酵将会一发不可收拾，风控人员对风险舆情的防控也相当被动，不仅会影响到应用平台本身，甚至会影响到与应用平台相关的其他组织机构，比如业务方、外部客户基金机构者、用户等。因此，我们需要对应用平台内的各种形式的内容进行舆情监测并进行风险拦截。

目前主要通过捉虫算法进行舆情监控。做法是：预先建立一个关键词库，对应用平台上的所有内容进行匹配，当内容数据与关键词库中的关键词匹配时，或者整个应用平台中的负面指标超过某个阈值时，或者应用平台内有新词出现时，或者应用平台的观点量突然暴涨时，就确认该应用平台的内容存在风险并通知风控人员去处理。这样的作法存在一些问题，比如，风险舆情预警准确率低，预警的维度是关键词、负面、新词、观点激增，有时候命中了关键词或者新词出现的内容在整个应用平台中就一条内容，不能代表整个应用平台当时那个时间段内出现了舆情，平台定时开放，开放时大家讨论的内容量会暴增，观点激增是正常现象，不能代表一定有风险舆情，数据源和预警手段单一，只采用了内容数据，只用简单的关键词、指标等进行一刀切，不能精准地找出风险，导致风险舆情预警准确率低。再比如，由于风险舆情预警准确率低造成高频打扰。再比如，由于风险舆情预警准确率低，导致风险处置时效低。再比如，不同的讨论区采用相同的预警手段，数据噪声大，不能针对性的、有效地捕捉单讨论区的风险舆情事件。

图1示出了根据本说明书的实施例提供的一种舆情风险监测的系统001的应用场景示意图。舆情风险监测的系统001(以下简称系统001)可以包括服务器200、客户端100、网络400以及数据库500。

服务器200可以包括舆情风险监测子服务器220。服务器200还可以包括舆情识别模型训练子服务器240。舆情风险监测子服务器220可以存储有执行本说明书描述的舆情风险监测方法的数据或指令，并可以执行或用于执行所述数据或指令。舆情识别模型训练子服务器240可以包括舆情识别模型训练系统，被配置为存储有执行本说明书描述的舆情识别模型训练方法的数据或指令，并可以执行或用于执行所述数据或指令。

如图1所示，用户110是客户端100的使用者。客户端100是用户110访问服务器200的设备。客户端100与服务器200通讯连接。在一些实施例中，客户端100可以安装有一个或多个应用(APP)。所述APP能够为用户110提供通过网络400同外界交互的能力以及界面。所述APP包括但不限于：聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序等等。客户端100上装载有与服务器200相对应的目标APP。所述目标APP可以是用户生成内容类应用平台，比如理财类APP程序中的论坛、讨论区，等等。所述目标APP也可以称为目标应用平台。用户110可以通过客户端100上的所述目标APP发表观点，从而生成内容数据。所述内容数据可以通过网络400传输至服务器200。在一些实施例中，客户端100可以包括移动设备100-1、平板电脑100-2、笔记本电脑100-3、机动车辆100-4的内置设备或类似内容，或其任意组合。在一些实施例中，移动设备100-1可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强现实头盔、增强现实眼镜、增强现实补丁或类似内容，或其中的任何组合。在一些实施例中，机动车100-4中的内置装置可包括车载计算机、车载电视等。在一些实施例中，客户端100可以是具有定位技术的设备，用于定位客户端100的位置。

网络400可以促进信息或数据的交换。如图1所示，客户端100、服务器200、数据库500可以同网络400连接，并且通过网络400互相传输信息或数据。例如，服务器200可以通过网络400从客户端100获取所述内容数据。在一些实施例中，网络400可以是任何类型的有线或无线网络，也可以是其组合。比如，网络400可以包括电缆网络，有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络或类似网络。在一些实施例中，网络400可以包括一个或多个网络接入点。例如，网络400可以包括有线或无线网络接入点，如基站或互联网交换点400-1、400-2，……，通过该接入点，客户端100、服务器200、数据库500的一个或多个组件可以连接到网络400以交换数据或信息。

数据库500可以存储数据或指令。在一些实施例中，数据库500可以存储从服务器200或客户端100获得的数据。在一些实施例中，数据库500可以存储服务器200可以执行或用于执行本说明书中描述的舆情风险监测方法的数据或指令。在一些实施例中，数据库500可以存储服务器200可以执行或用于执行本说明书中描述的舆情识别模型训练方法的数据或指令。在一些实施例中，数据库500可以存储所有用户的内容数据。服务器200和客户端100可能具有访问数据库500的权限，服务器200和客户端100可以通过网络400访问存储在数据库500中的数据或指令。在一些实施例中，数据库500可以直接连接到服务器200和客户端100。在一些实施例中，数据库500可以是服务器200的一部分。在一些实施例中，数据库500可以包括大容量存储、可移动存储、易失性读写存储器、只读存储器(ROM)或类似内容，或其任意组合。示例性大容量存储可能包括磁盘、光盘、固态驱动器等非暂时性存储介质(non-transitory storage medium)。可移动存储可能包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等。典型的易失性读写内存可能包括随机存取存储器(RAM)。RAM可能包括动态RAM(DRAM)、双日期速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容RAM(Z-RAM)等。ROM可能包括掩码ROM(MROM)、可编程ROM(PROM)、可虚拟可编程ROM(PEROM)、电子可编程ROM(EEPROM)、光盘(CD-ROM)和数字多功能磁盘ROM等。在一些实施例中，数据库500可以在云平台上实现。仅仅作为例子，所述云平台可能包括私有云、公共云、混合云、社区云、分布式云、云间云等形式，或者同上述形式类似的形式，或这上述形式的任意组合。

如图1所示，用户110在客户端100的所述目标APP上输入内容数据，所述内容数据通过网络400传输给服务器200；服务器200中的舆情风险监测子服务器220执行存储在舆情风险监测子服务器220或数据库500中的舆情风险监测方法的指令，进行舆情风险监测。服务器200中的舆情识别模型训练子服务器240可以获取历史时刻中用户110在客户端100的所述目标APP上输入的历史内容数据，并执行存储在舆情识别模型训练子服务器240或数据库500中的舆情识别模型训练方法的指令，进行舆情识别模型训练。

图2示出了一种计算设备300的结构示意图。在一些实施例中，服务器200可以在计算设备300上运行。即服务器200的硬件结构的一部分可以是计算设备300所示的硬件结构。在一些实施例中，舆情风险监测子服务器220执行所述舆情风险监测方法的数据或指令可以在计算设备300上实现。在一些实施例中，舆情识别模型训练子服务器240执行所述舆情识别模型训练方法的数据或指令可以在计算设备300上实现。所述舆情风险监测方法以及所述舆情识别模型训练方法将在本说明书中的其他部分介绍。

如图2所示，计算设备300可以包括至少一个存储介质330和至少一个处理器320。在一些实施例中，计算设备300还可以包括通信端口350和内部通信总线310。在一些实施例中，计算设备300还可以包括I/O组件360。

内部通信总线310可以连接不同的系统组件，实现各组件间的数据通信，包括存储介质330、处理器320、通信端口350以及I/O组件360。例如，处理器320可以通过内部通信总线310将数据发送到存储介质330或I/O组件360等其它硬件中。在一些实施例中，内部通信总线310可以为工业标准(ISA)总线、扩展工业标准(EISA)总线、视频电子标准(VESA)总线、外部部件互联标准(PCI)总线等。

I/O组件360可以用于输入或输出信号、数据或信息。I/O组件360支持计算设备300和其他组件之间的输入/输出。在一些实施例中，I/O组件360可以包括输入装置和输出装置。示例性输入装置可以包括摄像头、键盘、鼠标、显示屏和麦克风等，或其任意组合。示例性输出装置可以包括显示装置、语音播放装置(比如，扬声器等等)、打印机、投影仪等或其任意组合。示例性显示装置可以包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(CRT)等或其任意组合。

通信端口350可以连接到网络以便计算设备300同外界的数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、WLAN、ZigBee、移动网络(例如，3G、4G或5G等)等或其任意组合。在一些实施例中，通信端口350可以是标准化端口，如RS232、RS485等。在一些实施例中，通信端口350可以是专门设计的端口。

存储介质330可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘332、只读存储介质(ROM)334或随机存取存储介质(RAM)336中的一种或多种。存储介质330还包括存储在所述数据存储装置中的至少一个指令集。所述至少一个指令集用于所述舆情风险监测和/或所述舆情识别模型训练。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的层板控制方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器320可以同至少一个存储介质330以及通信端口350通过内部通信总线310通信连接。至少一个处理器320用以执行上述至少一个指令集。当计算设备300运行时，至少一个处理器320读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书提供的舆情风险监测方法和/或所述舆情识别模型训练方法。处理器320可以执行舆情风险监测方法和/或所述舆情识别模型训练方法包含的所有步骤。处理器320可以是一个或多个处理器的形式，在一些实施例中，处理器320可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中央处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中计算设备300中仅描述了一个处理器320。然而，应当注意，本说明书中计算设备300还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中计算设备300的处理器320执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器320联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

图3示出了根据本说明书的实施例提供的一种舆情识别模型训练方法P100的流程图。如前所述，舆情识别模型训练子服务器240可以执行本说明书所述的舆情识别模型训练方法P100。具体地，当舆情识别模型训练子服务器240在计算设备300上运行时，处理器320可以读取存储在其本地存储介质中的指令集，然后根据所述指令集的规定，执行本说明书所述的舆情识别模型训练方法P100。所述舆情识别模型可以被配置为对舆情数据中的多个内容数据进行分类获取所述舆情数据中的多个内容数据相结合引发的舆情风险的目标风险等级。

在一些实施例中，所述方法P100可以包括：

S120：从目标应用平台中获取多个讨论区对应的多个历史舆情数据。

由于在所述目标应用平台上包括多个不同的讨论区，每个讨论区的属性不同，其内容数据也不尽相同。比如，在理财类应用平台上，不同的理财产品各自设置有对应的讨论区，理财产品不同，讨论区内出现的内容数据也不相同，因此其可能出现的舆情也可能不同。舆情识别模型训练子服务器240可以从所述目标应用平台中获取所有讨论区的所述历史内容数据。比如，舆情识别模型训练子服务器240可以从所述目标应用平台中获取过去1年时间内的所有讨论区的所述历史内容数据。每个历史内容数据都包括其对应的时间戳。为了实现针对不同讨论区的内容数据的舆情识别模型的训练，所述方法P100可以根据所述历史内容数据所述的讨论区，将所有历史内容数据划分为多个历史舆情数据。每个所述历史舆情数据至少包括多个历史内容数据以及所述多个历史内容数据对应的时间。所述多个历史舆情数据与所述多个讨论区一一对应。其中每个所述历史舆情数据来自所述多个讨论区中的同一个讨论区。也就是说，每个历史舆情数据中的多个历史内容数据均来自与其对应的同一个讨论区中。

在一些实施例中，所述方法P100还可以包括：

S140：基于历史时间周期以及所述多个历史内容数据对应的时间，将每个所述历史舆情数据划分为多个样本数据。

所述多个样本数据可以对应多个历史时刻，每个所述样本数据可以包括与其对应的历史时刻之前的历史时间窗口内的多个样本内容数据。所述多个历史内容数据包括所述多个样本内容数据。具体地，步骤S140可以是对所述每个历史舆情数据执行时间切片操作。即按照所述多个历史内容数据的时间顺序以n为窗口，m为步长滑动，对历史舆情数据进行窗口为n，步长为m的回溯截取，将时间切成多个时间片段。例如，当n为1h，m为0.5h时，00:00:00～01:00:00为第一个时间片段，00:30:00～01:30:00为第二个时间片段等。其中，n为所述历史时间窗口，m为所述历史时间周期。

所述历史时间周期可以是任意时长，比如，10min、20min、30min、40min，甚至可以是更长，比如1h、2h，等等。所述历史时间周期的时长可以根据经验确定，也可以通过实验的方法确定，还可以通过机器学习的方法确定。所述历史时间周期可以是静态时长，也可以是动态时长。所述静态时长可以是固定时长，即所述历史时间周期是固定不变的。所述动态时长可以是所述历史时间周期可以随设定条件进行变化，比如，所述历史时间周期与单位时间内的用户内容数据的数量相关，当用户内容数据数量增加、密度增大时，所述历史时间周期可以变短，当所述用户内容数据数量减少、密度降低时，所述历史时间周期可以变长。又比如，所述历史时间周期与所述历史应用平台的用户数量相关，当所述历史应用平台的用户数量增加时，所述历史时间周期可以变短，当所述历史应用平台的用户数量减少时，所述历史时间周期可以变长，等等。所述历史时间周期可以等于所述历史时间周期，也可以不等于所述历史时间周期。

所述历史时间窗口可以是任意时长，比如，10min、20min、30min、40min，甚至可以是更长，比如1h、2h，等等。所述历史时间窗口的时长可以根据经验确定，也可以通过实验的方法确定，还可以通过机器学习的方法确定。所述历史时间窗口可以是静态时长，也可以是动态时长。所述静态时长可以是固定时长，即所述历史时间窗口是固定不变的。所述动态时长可以是所述历史时间窗口可以随设定条件进行变化，比如，所述历史时间窗口与单位时间内的用户内容数据的数量相关，当用户内容数据数量增加、密度增大时，所述历史时间窗口可以变短，当所述用户内容数据数量减少、密度降低时，所述历史时间窗口可以变长。又比如，所述历史时间窗口与所述历史应用平台的用户数量相关，当所述历史应用平台的用户数量增加时，所述历史时间窗口可以变短，当所述历史应用平台的用户数量减少时，所述历史时间窗口可以变长，等等。其中，所述历史时间窗口可以等于所述历史时间窗口也可以不等于所述历史时间窗口。

为了方便描述，我们可以举例说明。以所述历史时间周期为0.5h、历史时间窗口为1h为例进行描述。以9：00：00～12：00：00为例，将9：00：00～12：00：00的历史内容数据划分为7个样本数据。表1中列出了每个样本数据对应的样本内容数据。

在一些实施例中，所述历史时间窗口大于所述历史时间周期。比如，所述历史时间周期为0.5h、历史时间窗口为1h。当所述历史时间窗口大于所述历史时间周期时，前一时刻的样本数据与当前时刻的样本数据有一部分是重合的，当前时刻的样本数据与后一时刻的样本数据有一部分是重合的。因此，经所述方法P100训练得到的舆情识别模型不仅可以预测当前时刻的舆情风险，还可以预测下一时刻的舆情风险，增加了先验风险的预测作用，可以提前感知风险，感知时效大大增加，同时可以为风控人员以及业务方提供充分时间处理风险，防范于未然。

所述方法P100中，可以将一个时间段内的历史内容数据作为一个样本数据进行模型的训练，因此，经所述方法P100训练得到的舆情识别模型不仅可以实现对单条内容数据的舆情风险识别，还能实现对多条内容数据相结合引发的舆情风险进行识别，从而可以提高舆情识别模型识别舆情风险的准确性，进一步提高存在风险的内容数据的召回率。

在一些实施例中，每个所述样本数据还可以包括所述多个样本内容数据对应的历史属性数据。所述历史属性数据可以包括所述多个样本内容数据的来源，即所述样本内容数据所在的讨论区的属性数据，比如，与所述讨论区相关的代表性话题数据、代表性话题数量，再比如，所述讨论区的曝光量(例如日曝光量、月曝光量、年曝光量，等等)，再比如，所述讨论区的访问量(例如日访问量、月访问量、年访问量，等等)，再比如，所述讨论区的点赞量、举报量，再比如，所述讨论区的历史重大事件，再比如，所述讨论区的历史内容数据的健康度(正面内容比例)，等等。

在一些实施例中，每个所述样本数据还可以包括所述多个样本内容数据对应的历史用户数据。所述历史用户数据可以包括历史用户行为数据以及历史用户属性数据中的至少一个。所述历史用户可以是发表所述样本内容数据的用户。所述历史用户行为数据可以是所述历史用户的历史行为轨迹，比如，历史交易轨迹(例如，交易时间、交易产品、交易金额，等等)，等等，还可以是所述历史用户的活跃度，等等。所述历史用户属性数据可以是所述历史用户的基本信息，比如，地理位置、年龄、职业、资产，等等，还可以是所述历史用户的喜好(比如理财偏好)，还可以是所述历史用户的风险承受程度，等等。

在一些实施例中，每个所述样本数据还可以包括所述多个样本内容数据对应的时间数据。所述时间数据可以是所述样本内容数据发生的时间，也可以是同一个用户生成多个不同的样本内容数据的时间差，还可以是用一个而用户发生交易的时间间隔，还可以是发生交易的时间，等等。

所述方法P100在对所述舆情识别模型进行训练时所使用的样本数据包括多个维度的数据，而不是单纯地根据所述历史内容数据进行训练。所述方法P100能够将多个维度的数据进行融合，实现数据领域多元化，从而提高舆情识别模型对舆情风险识别的准确性和全面性，从而提高风险内容的召回率。

在一些实施例中，每个所述样本数据还可以包括所述多个历史内容数据对应的评价指标。所述评价指标可以包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。在一些实施例中，步骤S140还可以包括对所述样本数据进行特征工程处理。对所述样本数据进行所述特征工程处理可以包括计算所述样本数据对应的评价指标。

所述负面内容指标可以是所述多个样本内容数据中的负面内容在所述多个样本内容数据中所占的比例。所述正面内容指标可以是所述多个样本内容数据中的正面内容在所述多个样本内容数据中所占的比例。具体地，舆情识别模型训练子服务器240可以通过“自然语言处理技术”来识别所述多个样本内容数据中的情感信息关键词，基于情感信息关键词将所述多个样本内容数据分为正面内容和负面内容，以此来实现对多个样本内容数据中关于正负面内容的区分，从而获取所述负面内容指标和所述正面内容指标。

所述内容质量指标可以通过预先存储的内容质量评价模型进行评价。具体的，所述内容质量评价模型可以是通过大量标注的样本通过有监督训练得到的。所述内容质量评价模型可以通过“自然语言处理技术”来识别所述多个样本内容数据中的关键词，并根据所述关键词对所述样本内容数据进行打分，以获取所述内容质量指标。

所述内容重复指标可以是所述多个样本内容数据中重复数据所占的比例。具体地，舆情识别模型训练子服务器240可以通过“自然语言处理技术”来识别所述多个样本内容数据中的文字，并对所述多个样本内容数据进行对比计算所述多个样本内容数据彼此之间的相似度，当两个样本内容数据的相似度超过阈值时则判定为重复。具体地，舆情识别模型训练子服务器240可以通过所述多个样本内容数据两两之间的距离来获取所述相似度。

所述恶意广告指标可以是所述多个样本内容数据中的恶意广告数据所占的比例。具体地，舆情识别模型训练子服务器240可以通过“自然语言处理技术”来识别所述多个样本内容数据中的文字，当所述样本内容数据中包含预设的恶意广告关键词库中的关键词时，则判定为恶意广告。

所述底线风险浓度指标可以是涉及到国家管控的话题的样本内容数据在所述多个样本内容数据中所占的比例。所述风险浓度指标可以是涉黄、涉毒、辱骂类样本内容数据在所述多个样本内容数据中所占的比例。所述底线风险浓度和所述风险浓度的计算方法与前面相似，本说明书在此不再赘述。

在一些实施例中，步骤S140还可以包括对所述样本数据进行特征工程处理。对所述样本数据进行所述特征工程处理包括但不限于：清除或替换昵称、全角转半角、繁体转简体、大写转小写、正则表达式清除文本后面固定格式、清除或者替换表情符号、清除HTML格式、清除或者替换URL、清除或者替换手机号码、字符格式分词等处理。

对所述样本数据进行所述特征工程处理还可以包括但不限于：异常值剔除、缺失值处理(比如，删除缺失率高于90％的特征、连续型缺失值填充：均值或回归模型预测填充、离散型特征缺失值处理：大类化小类、第三类填充等)、单特征cox-box转换、数据标准化、归一化转换、类别型特征处理(类别小于10的做onehot编码，类别过多的count-encoding变换)、连续类特征(聚合类聚合值、比对指标、连续变量离散化等)、特征组合(多项式特征组合、两个特征比值、两个特征相减等)、特征衍生(同一个人一周/一个月使用银行卡次数、银行卡数等)、特征筛选(IV值筛选、相关性筛选、Embedded等)。

所述方法P100能够结合多个维度的多个样本内容数据做精细化特征工程，训练得到的舆情识别模型在进行舆情风险识别时可以同时提高舆情风险监测的准确率和召回率。

所述方法P100还可以包括：

S160：获取每个所述样本数据的风险等级标签。

具体地，步骤S160可以是基于所述评价指标获取所述每个样本数据的风险等级标签。所述风险等级标签可以是二分类标签，比如，有风险和无风险，也可以是多分类标签，比如，无风险、低风险、中风险和高风险。每个所述样本数据的风险等级标签可以是所述样本数据中的多个样本内容数据相结合引发的舆情风险的风险等级标签。

S180：基于所述多个样本数据及其风险等级标签对分类模型进行训练，得到所述舆情识别模型。

所述分类模型可以是二分类模型，也可以是多分类模型。所述分类模型可以是lightgbm模型，也可以是任意一个神经网络模型。步骤S180可以是基于所述多个样本数据以及每个样本数据对应的风险等级标签，对所述分类模型进行有监督学习，得到所述舆情识别模型。

综上所述，所述方法P100在进行舆情识别模型训练时，其多个维度数据的数据多元化、多个样本内容数据相结合以及所述特征工程的精细化处理，不仅可以使舆情识别模型能够识别出多个内容数据相结合引起的舆情风险，还可以提高舆情风险识别的准确率和召回率。

图4示出了根据本说明书的实施例提供的一种舆情风险监测的方法P200的流程图。如前所述，舆情风险监测子服务器220可以执行本说明书所述的舆情风险监测方法P200。具体地，当舆情风险监测子服务器220在计算设备300上运行时，处理器320可以读取存储在其本地存储介质中的指令集，然后根据所述指令集的规定，执行本说明书所述的舆情风险识别方法P200。

在一些实施例中，所述方法P200可以包括：

S220：基于目标时间周期，从所述目标应用平台的目标讨论区中获取当前时刻对应的目标舆情数据。

所述方法P200可以实现对所述目标应用平台中的内容数据的舆情风险监测。所述监测也就是定时计算所述目标应用平台的舆情风险。具体地，所述方法P200可以基于所述目标时间周期对所述目标应用平台进行舆情风险监测。也就是，每经过所述目标时间周期的时长，舆情风险监测子服务器220就可以对所述目标应用平台执行一次所述方法P200。所述目标时间周期可以是任意时长，比如，10min、20min、30min、40min，甚至可以是更长，比如1h、2h，等等。所述目标时间周期的时长可以根据经验确定，也可以通过实验的方法确定，还可以通过机器学习的方法确定。所述目标时间周期可以是静态时长，也可以是动态时长。所述静态时长可以是固定时长，即所述目标时间周期是固定不变的。所述动态时长可以是所述目标时间周期可以随设定条件进行变化，比如，所述目标时间周期与单位时间内的用户内容数据的数量相关，当用户内容数据数量增加、密度增大时，所述目标时间周期可以变短，当所述用户内容数据数量减少、密度降低时，所述目标时间周期可以变长。又比如，所述目标时间周期与所述目标应用平台的用户数量相关，当所述目标应用平台的用户数量增加时，所述目标时间周期可以变短，当所述目标应用平台的用户数量减少时，所述目标时间周期可以变长，等等。所述目标时间周期可以等于所述历史时间周期，也可以不等于所述历史时间周期。

基于所述目标时间周期，在所述当前时刻到达舆情风险监测的时间点时，舆情风险监测子服务器220可以从所述目标应用平台中获取所述目标舆情数据，以对所述目标舆情数据进行风险识别。所述当前时刻可以是基于所述目标时间周期获取的舆情风险监测的时间点。其中，所述目标舆情数据至少可以包括所述当前时刻之前的目标时间窗口内的多个目标内容数据。需要说明的是，所述舆情风险监测的对象可以是所述当前时刻之前的所述目标时间窗口内的多个目标内容数据。所述方法P200在对所述目标应用平台进行所述舆情风险监测时可以对多个内容数据相结合构成的舆情进行风险监测，以监测由多个内容数据连在一起构成的舆情风险。因此，舆情风险监测子服务器220可以将所述当前时刻之前的所述目标时间窗口内的多个目标内容数据作为一个目标舆情数据。所述多个目标内容数据可以是所述当前时刻之前(包括所述当前时刻在内或不包括所述当前时刻在内)的所述目标时间窗口内的所有内容数据。所述内容数据可以是所述目标应用平台上的用户在所述当前时刻之前的所述目标时间窗口内生成的所有内容数据。用户每生成一条信息可以作为一个内容数据。所述内容数据可以是任意内容。

所述目标时间窗口可以是任意时长，比如，10min、20min、30min、40min，甚至可以是更长，比如1h、2h，等等。所述目标时间窗口的时长可以根据经验确定，也可以通过实验的方法确定，还可以通过机器学习的方法确定。所述目标时间窗口可以是静态时长，也可以是动态时长。所述静态时长可以是固定时长，即所述目标时间窗口是固定不变的。所述动态时长可以是所述目标时间窗口可以随设定条件进行变化，比如，所述目标时间窗口与单位时间内的用户内容数据的数量相关，当用户内容数据数量增加、密度增大时，所述目标时间窗口可以变短，当所述用户内容数据数量减少、密度降低时，所述目标时间窗口可以变长。又比如，所述目标时间窗口与所述目标应用平台的用户数量相关，当所述目标应用平台的用户数量增加时，所述目标时间窗口可以变短，当所述目标应用平台的用户数量减少时，所述目标时间窗口可以变长，等等。其中，所述目标时间窗口可以等于所述历史时间窗口也可以不等于所述历史时间窗口。

为了方便描述，我们可以举例说明。以所述目标时间周期为0.5h、目标时间窗口为1h为例进行描述。以9：00：00～12：00：00为例，每隔0.5h，舆情风险监测子服务器220就会对所述目标应用平台执行所述方法P200以进行舆情风险监测。表2中列出了每次执行所述方法P200进行舆情风险监测的时间点以及其对应的目标内容数据。

在一些实施例中，所述目标时间窗口大于所述目标时间周期。比如，所述目标时间周期为0.5h、目标时间窗口为1h。当所述目标时间窗口大于所述目标时间周期时，前一时刻的舆情数据与当前时刻的目标舆情数据有一部分是重合的，当前时刻的目标舆情数据与后一时刻的舆情数据有一部分是重合的。因此舆情风险监测子服务器220在对当前时刻的目标舆情数据执行舆情风险监测方法P200时所用到的目标舆情数据中有一部分是下一时刻的舆情风险监测所使用的舆情数据，因此，所述舆情风险监测方法P200不仅可以预测当前时刻的舆情风险，还可以预测下一时刻的舆情风险，增加了先验风险的预测作用，可以提前感知风险，感知时效大大增加，同时可以为风控人员以及业务方提供充分时间处理风险，防范于未然。

在一些实施例中，所述目标时间窗口可以等于或小于所述目标时间周期。

需要说明的是，由于在所述目标应用平台上包括多个不同的讨论区，每个讨论区的属性不同，其内容数据也不尽相同。比如，在理财类应用平台上，不同的理财产品各自设置有对应的讨论区，理财产品不同，讨论区内出现的内容数据也不相同，因此其可能出现的舆情也可能不同。为了实现针对不同讨论区的舆情风险监测，所述方法P200可以针对相同的讨论区内的内容数据进行所述舆情风险监测，从而可以针对性地对不同的讨论区进行舆情风险监测，以检测出不同的讨论区内的不同的舆情风险，从而提高舆情风险监测的准确率。也就是说，舆情风险监测子服务器220在执行所述舆情风险监测方法P200时可以针对每个讨论区，以讨论区为单位进行监测。为了方便描述，我们将所述当前时刻舆情风险监测子服务器220正在进行所述舆情风险监测的讨论区定义为所述目标讨论区。

在一些实施例中，所述目标舆情数据不仅可以包括所述当前时刻之前的目标时间窗口内的多个目标内容数据，还可以包括所述多个目标内容数据对应的评价指标。所述评价指标可以包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。具体地，舆情风险监测子服务器220可以基于所述多个目标内容数据计算所述评价指标。所述评价指标的计算方法可以参考前述方法，在此不再赘述。

在一些实施例中，所述目标舆情数据还可以包括所述多个目标内容数据对应的目标属性数据。所述目标属性数据可以包括所述多个目标内容数据的来源，即所述目标内容数据所在的所述目标讨论区的属性数据，比如，与所述目标讨论区相关的代表性话题数据、代表性话题数量，再比如，所述目标讨论区的曝光量(例如日曝光量、月曝光量、年曝光量，等等)，再比如，所述目标讨论区的访问量(例如日访问量、月访问量、年访问量，等等)，再比如，所述目标讨论区的点赞量、举报量，再比如，所述目标讨论区的历史重大事件，再比如，所述目标讨论区的历史内容数据的健康度(正面内容比例)，等等。

在一些实施例中，所述目标舆情数据还可以包括所述多个目标内容数据对应的目标用户数据。所述目标用户数据可以包括目标用户行为数据以及目标用户属性数据中的至少一个。所述目标用户可以是发表所述目标内容数据的用户。所述目标用户行为数据可以是所述目标用户的历史行为轨迹，比如，历史交易轨迹(例如，交易时间、交易产品、交易金额，等等)，等等，还可以是所述目标用户的活跃度，等等。所述目标用户属性数据可以是所述目标用户的基本信息，比如，地理位置、年龄、职业、资产，等等，还可以是所述目标用户的喜好(比如理财偏好)，还可以是所述目标用户的风险承受程度，等等。

在一些实施例中，所述目标舆情数据还可以包括所述多个目标内容数据对应的时间数据。所述时间数据可以是所述目标内容数据发生的时间，也可以是同一个用户生成多个不同的目标内容数据的时间差，还可以是用一个而用户发生交易的时间间隔，还可以是发生交易的时间，等等。

所述方法P200和系统001中对所述目标舆情数据进行所述舆情风险监测时，能够从多个维度获取所述目标舆情数据，而不是单纯地根据所述目标内容数据进行舆情风险能检测，因此，所述方法P200和系统001能够从不同的角度进行舆情风险计算，从而提高舆情风险识别的准确性和全面性，从而提高风险内容的召回率。

在一些实施例中，步骤S220还可以包括对所述目标舆情数据进行特征工程处理所述特征工程处理与所述方法P100中所描述的相似，在此不再赘述。

在一些实施例中，所述方法P200还可以包括：

S240：将所述目标舆情数据输入预设的风险识别模型，确定所述当前时刻的目标风险识别结果。

所述目标风险识别结果可以包括所述目标舆情数据中的多个目标内容数据相结合引发的舆情风险的风险识别结果。

其中，所述风险识别模型至少包括所述方法P100训练得到的舆情识别模型。将所述目标舆情数据输入所述舆情识别模型，所述舆情识别模型对所述目标舆情数据进行分类获取所述目标舆情数据的目标风险等级。所述目标风险识别结果至少包括所述目标风险等级。所述目标风险等级可以是“有风险”或“无风险”，也可以是“无风险”或“低风险”或“中风险”或“高风险”，等等。

在一些实施例中，所述风险识别模型还可以包括意图识别模型。所述意图识别模型可以被配置为对所述目标舆情数据进行分类获取所述目标舆情数据的目标意图类别。所述风险识别结果还可以包括所述目标意图类别。所述意图识别模型可以是预先经过训练得到的分类模型。所述意图分类模型的训练样本可以是所述目标应用平台中的多个讨论区中的多个历史内容数据。具体地，服务器200可以实现对所述意图识别模型的训练。比如，服务器200中可以包括用于训练所述意图识别模型的子服务器。在对所述意图识别模型进行训练时，服务器200可以从所述目标应用平台中的多个讨论区中获取多个历史内容数据并对每个历史内容数据进行意图标注，获取每个历史内容数据的意图标签，将所述多个历史内容数据以及所述每个历史内容数据的意图标签作为所述意图识别模型的样本数据，对意图识别模型进行有监督学习。所述意图识别模型可以是基于ROBerta的分类模型。

在一些实施例中，所述风险识别模型还可以包括关键词识别模型。所述关键词识别模型可以被配置为识别所述目标舆情数据中的目标关键词。所述风险识别结果还可以包括所述目标关键词。所述关键词识别模型可以是预先经过训练得到的模型。所述关键词识别模型的训练样本可以是所述舆情识别模型训练时用到的样本数据。具体地，服务器200可以实现对所述关键词识别模型的训练。比如，服务器200中可以包括用于训练所述关键词识别模型的子服务器。在对所述关键词识别模型进行训练时，服务器200可以从所述目标应用平台中的多个讨论区中获取多个历史舆情数据，并对每个历史舆情数据进行时间切片，将每个历史舆情数据划分为多个样本数据，将所述样本数据作为所述关键词识别模型的样本数据，对关键词识别模型进行训练。所述关键词识别模型可以是基于TF-IDF的模型。

在一些实施例中，所述风险识别模型还可以包括话题挖掘模型。所述话题挖掘模型可以被配置为对所述目标舆情数据进行动态话题挖掘，获取所述目标舆情数据对应的目标话题。所述风险识别结果还可以包括所述目标话题。所述话题挖掘模型可以是预先经过训练得到的模型。所述话题挖掘模型的训练样本可以是所述舆情识别模型训练时用到的样本数据。具体地，服务器200可以实现对所述话题挖掘模型的训练。比如，服务器200中可以包括用于训练所述话题挖掘模型的子服务器。在对所述话题挖掘模型进行训练时，服务器200可以从所述目标应用平台中的多个讨论区中获取多个历史舆情数据，并对每个历史舆情数据进行时间切片，将每个历史舆情数据划分为多个样本数据，将所述样本数据作为所述话题挖掘模型的样本数据，对所述样本数据采用FastText算法加上DBSCAN聚类算法进行无监督动态话题挖掘，对话题挖掘模型进行训练。动态体现在若样本数据内的样本内容数据数量小于第一阈值3000的自动挖掘1个类别，数量给大于第一阈值3000小于第二阈值10000的自动挖掘2个类别，大于第二阈值10000的内容量自动挖掘3个话题得到所述话题挖掘模型。所述第一阈值和所述第二阈值可以是任意值，比如，所述第一阈值可以是100、2000、3000，等等。所述第二阈值可以是4000、5000、6000、8000、10000，等等。所述第二阈值大于所述第一阈值。所述第一阈值和所述第二阈值可以是经验值，也可以是实验值，还可以是机器学习得到的。本说明书对此不做限定。

在一些实施例中，所述风险识别模型还可以包括命名实体识别模型。所述命名实体识别模型可以被配置为识别所述目标舆情数据中的目标实体。所述风险识别结果还可以包括所述目标实体。所述命名实体识别模型可以是预先经过训练得到的分类模型。所述命名实体识别模型的训练样本可以是所述目标应用平台中的多个讨论区中的多个历史内容数据。具体地，服务器200可以实现对所述命名实体识别模型的训练。比如，服务器200中可以包括用于训练所述命名实体识别模型的子服务器。在对所述命名实体识别模型进行训练时，服务器200可以从所述目标应用平台中的多个讨论区中获取多个历史内容数据并对每个历史内容数据进行分词，对包含实体的分词进行命名实体标注，获取每个历史内容数据中的命名实体标签，将所述多个历史内容数据以及所述每个历史内容数据的命名实体标签作为所述命名实体识别模型的样本数据，对命名实体识别模型进行有监督学习。所述命名实体识别模型可以是基于ROBerta与CRF结合的模型。

在一些实施例中，在完成所述风险识别模型的训练后，需要对训练得到的所述风险识别模型进行模型评估后上线。由于有监督模型可以直接离线评估，无监督模型无法线下直接做评估，因此所述舆情分级模型、所述意图识别模型、所述命名实体识别模型进行离线评估，同时将5个模型进行上线，后期再做线上效果评估。

S260：输出所述目标风险识别结果。

在一些实施例中，步骤S260可以是无论所述目标风险识别结果是什么均进行输出。在一些实施例中，步骤S260可以是确定所述目标风险等级为有风险，输出所述目标风险识别结果。确定所述目标风险等级为有风险可以是所述目标风险等级为低风险、中风险、高风险中的任意一个。在一些实施例中，步骤S260还可以是确定所述目标风险等级为有风险，输出所述目标风险识别结果，并发出风险预警。所述发出风险预警可以是向其他应用平台发送风险警告以及时告知风控人员或其他相关人员。所述其他相关相关人员可以是与所述目标讨论区相关的人员，比如基金运营方，等等。

在一些实施例中，步骤S260还可以包括：从外部舆情平台获取所述当前时刻的外部舆情信息，将所述风险识别结果与所述外部舆情信息对比，当所述风险识别结果与所述外部舆情信息相匹配时，输出所述目标风险识别结果。

具体地，外部舆情平台可以建立舆情风险库，所述舆情风险库中可以预先设置有当前时刻的外部舆情信息。所述外部舆情信息可以是当前时刻的舆情关键词、舆情话题、舆情实体命名，等等。所述将所述风险识别结果中与所述外部舆情信息对比可以是将所述风险识别结果的目标意图、目标关键词、目标话题、目标实体与所述舆情风险库中的舆情关键词、舆情话题、舆情实体命名进行匹配；若查询出当前时刻目标讨论区的目标意图、目标关键词、目标话题、目标实体与外部风险舆情事件以及该舆情事件对应的标题、摘要、url、相似舆情个数、负面情感分、外部传播热度、媒体影响分，舆情外部影响度等向匹配，则认为当前时刻的目标舆情数据是有风险的。

在一些实施例中，服务器200还设置有反馈系统。风控人员可以对所述风险识别结果进行反馈，以确定所述风险识别结果的准确性，服务器200可以接收所述反馈数据，并根据所述反馈数据对所述风险识别模型进行更新。

综上所述，本说明书提供的舆情风险监测的方法P200和系统001，基于所述方法P100提供的舆情识别模型对当前时刻之间的目标时间窗口内的目标内容数据进行舆情风险识别，不仅可以识别出由多个内容数据相结合引发的风险，还可以针对性地对每个讨论区内的舆情风险进行识别。本说明书提供的舆情风险监测的方法P200和系统001在进行舆情风险监测时，以同一个讨论区内的多个目标内容数据作为分析对象，而不是将整个目标应用平台中的不同讨论区的内容数据作为分析对象，可以同时对不同的讨论区进行舆情风险识别、挖掘、预测，充分考虑讨论区之间的共同点、不同点，挖掘不同讨论区的风险，实现讨论区差异化管控。而不是所有讨论区共用一套机制、一套标准。因此，本说明书提供的舆情风险监测的方法P200和系统001可以有效提高舆情风险识别的准确性和召回率。此外，本说明书提供的舆情风险监测的方法P200和系统001还可以将目标风险识别结果与外部舆情平台联动，将不同讨论区不同时间段内进行实时热点话题、关键词挖掘、实体识别实时动态关联外部舆情风险事件，同时对关联后的舆情事件送入人工审核，做二道人工过滤，精确召回获取外部风险舆情事件。从而及时对外部舆情事件发生引发的风险进行捕捉，提高舆情风险识别的准确性和召回率。同时，本说明书提供的舆情风险监测的方法P200和系统001将命名实体识别算法应用在内外部舆情关联上，精确化识别当前目标讨论区当前时间段的内容实体，将实体与外部舆情平台做关联，为内外部舆情风险关联的准确性提供保障。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组用来舆情识别模型训练和/或舆情风险监测的可执行指令。当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的舆情识别模型训练方法P100和/或舆情风险监测的方法P200的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在计算设备300上运行时，所述程序代码用于使计算设备300执行本说明书描述的舆情识别模型训练和/或舆情风险监测的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在计算设备300上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统(例如处理器320)使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备300上执行、部分地在计算设备300上执行、作为一个独立的软件包执行、部分在计算设备300上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims

1.一种舆情识别模型训练方法，包括：

从目标应用平台中获取多个讨论区对应的多个历史舆情数据，每个所述历史舆情数据至少包括多个历史内容数据以及所述多个历史内容数据对应的时间，每个所述历史舆情数据来自所述多个讨论区中的同一个讨论区；

基于历史时间周期以及所述多个历史内容数据对应的时间，将每个所述历史舆情数据划分为多个样本数据，所述多个样本数据对应多个历史时刻，每个所述样本数据包括与其对应的历史时刻之前的历史时间窗口内的多个样本内容数据，其中，所述多个历史内容数据包括所述多个样本内容数据，前一时刻的样本数据与当前时刻的样本数据有一部分重合，所述当前时刻的样本数据与后一时刻的样本数据有一部分重合，以使所述多个样本数据训练得到的舆情识别模型具有对所识别的舆情有先验风险预测和提前感知风险的能力；

获取每个所述样本数据的风险等级标签及其风险等级标签；以及

基于所述多个样本数据对分类模型进行训练，得到所述舆情识别模型。

2.如权利要求1所述的舆情识别模型训练方法，其中，所述历史时间窗口大于所述历史时间周期。

3.如权利要求1所述的舆情识别模型训练方法，其中，每个所述样本数据还包括所述多个样本内容数据对应的历史属性数据，所述历史属性数据包括所述多个样本内容数据的来源。

4.如权利要求1所述的舆情识别模型训练方法，其中，每个所述样本数据还包括所述多个样本内容数据对应的历史用户数据，所述历史用户数据包括历史用户行为数据以及历史用户属性数据中的至少一个。

5.如权利要求1所述的舆情识别模型训练方法，其中，每个所述样本数据还包括所述多个样本内容数据对应的评价指标，所述评价指标包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。

6.一种舆情识别模型训练系统，包括：

至少一个存储介质，存储有至少一个指令集用于舆情识别模型的训练；以及

至少一个处理器，同所述至少一个存储介质通信连接，

其中，当所述舆情识别模型的训练系统运行时，所述至少一个处理器读取所述至少一个指令集并实施权利要求1-5中任一项所述的舆情识别模型训练方法。

7.一种舆情风险监测的方法，包括：

基于目标时间周期，从目标应用平台的目标讨论区中获取当前时刻对应的目标舆情数据，所述目标舆情数据至少包括所述当前时刻之前的目标时间窗口内的多个目标内容数据，所述当前时刻的样本数据与前一时刻的样本数据有一部分重合，所述当前时刻的样本数据与后一时刻的样本数据有一部分重合；

将所述目标舆情数据输入预设的风险识别模型，确定所述当前时刻以及所述后一时刻的目标风险识别结果，其中，所述风险识别模型至少包括舆情识别模型，被配置为对所述目标舆情数据进行分类获取所述目标舆情数据的目标风险等级，所述目标风险识别结果至少包括所述目标风险等级，所述舆情识别模型是通过权利要求1-5中任一项所述的舆情识别模型训练方法得到的；以及

输出所述目标风险识别结果。

8.如权利要求7所述的舆情风险监测的方法，其中，所述目标时间窗口大于所述目标时间周期。

9.如权利要求7所述的舆情风险监测的方法，其中，所述目标舆情数据还包括所述多个目标内容数据对应的评价指标，所述评价指标包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。

10.如权利要求7所述的舆情风险监测的方法，其中，所述目标舆情数据还包括所述多个目标内容数据对应的目标属性数据，所述目标属性数据包括所述多个目标内容数据的来源。

11.如权利要求7所述的舆情风险监测的方法，其中，所述目标舆情数据还包括所述多个目标内容数据对应的目标用户数据，所述目标用户数据包括目标用户行为数据以及目标用户属性数据中的至少一个。

12.如权利要求7所述的舆情风险监测的方法，其中，所述舆情识别模型还包括意图识别模型，被配置为对所述目标舆情数据进行分类获取所述目标舆情数据的目标意图类别，所述风险识别结果还包括所述目标意图类别。

13.如权利要求7所述的舆情风险监测的方法，其中，所述风险识别模型还包括关键词识别模型，被配置为识别所述目标舆情数据中的目标关键词，所述风险识别结果还包括所述目标关键词。

14.如权利要求7所述的舆情风险监测的方法，其中，所述风险识别模型还包括话题挖掘模型，被配置为对所述目标舆情数据进行动态话题挖掘，获取所述目标舆情数据对应的目标话题，所述风险识别结果还包括所述目标话题。

15.如权利要求7所述的舆情风险监测的方法，其中，所述风险识别模型还包括命名实体识别模型，被配置为识别所述目标舆情数据中的目标实体，所述风险识别结果还包括所述目标实体。

16.如权利要求7所述的舆情风险监测的方法，其中，所述输出所述目标风险识别结果，包括：

确定所述目标风险等级为有风险，输出所述目标风险识别结果。

17.如权利要求16所述的舆情风险监测的方法，其中，所述输出所述目标风险识别结果，还包括：

从外部舆情平台获取所述当前时刻的外部舆情信息，将所述风险识别结果与所述外部舆情信息对比，当所述风险识别结果与所述外部舆情信息相匹配时，输出所述目标风险识别结果。

18.一种舆情风险监测的系统，包括：

至少一个存储介质，存储有至少一个指令集用于舆情风险监控；以及

至少一个处理器，同所述至少一个存储介质通信连接，

其中，当所述舆情风险监测的系统运行时，所述至少一个处理器读取所述至少一个指令集并实施权利要求7-17中任一项所述的舆情风险监测的方法。