CN113762343A

CN113762343A - 处理舆情信息和训练分类模型的方法、装置以及存储介质

Info

Publication number: CN113762343A
Application number: CN202110892871.9A
Authority: CN
Inventors: 陈凌云; 李宁; 徐彬; 陈炎; 汤鑫; 金博昊; 张文琰; 李明旭; 李文婷; 陈旭; 刘帅
Original assignee: Debang Securities Co ltd
Current assignee: Debang Securities Co ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-12-07
Anticipated expiration: 2041-08-04
Also published as: CN113762343B

Abstract

本申请公开了处理舆情信息和训练分类模型的方法、装置以及存储介质。其中，一种处理舆情信息的方法，包括：获取资讯信息；以及利用预先设置的舆情分类模型。根据资讯信息的内容，确定与资讯信息相关联的舆情标签，并且其中对舆情分类模型进行训练的方法包括：在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

Description

处理舆情信息和训练分类模型的方法、装置以及存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种处理舆情信息和训练分类模型的方法、装置以及存储介质。

背景技术

智能舆情预警监控系统通过整合多源新闻资讯信息，结合财务数据反映的风险场景，建立个性化指标体系和风险因子库辅助投资决策，致力于赋予舆情预警的智能化功能。通过机器学习和深度学习的方法，根据新闻舆情资讯的信息内容预测其风险事件标签和正负情感性偏向，预警舆情风险，赋能业务发展。

在既有舆情预警监控方法中，基于数据的方法，缺点是下采样会不可避免地造成样本有效特征缺失，而上采样则可能提高了训练成本并且还会带来过拟合问题；基于目标函数的方法，缺点是扭曲了原始目标函数的函数曲线，使决策学习的目标产生的偏置。

针对上述的现有技术中现有的舆情预警监控方法中存在的样本有效特征的缺失、训练成本的提高的问题，并且拟合问题的产生并扭曲了原始目标函数的函数曲线，从而使得决策学习的目标产生偏置的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种处理舆情信息和训练分类模型的方法、装置以及存储介质，以至少解决现有技术中存在的样本有效特征的缺失、训练成本的提高、拟合问题的产生并扭曲了原始目标函数的函数曲线，从而使得决策学习的目标产生偏置的技术问题。

根据本公开实施例的一个方面，提供了一种处理舆情信息的方法，包括：获取资讯信息；以及利用预先设置的舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的舆情标签，并且其中对舆情分类模型进行训练的方法包括：在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

根据本公开实施例的另一方面，还提供了一种对分类模型进行训练的方法，包括：创建用于对分类模型进行训练的训练样本；以及在对分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型对训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的一个方面，提供了一种处理舆情信息的装置，包括：信息获取模块，用于获取资讯信息；以及标签确定模块，用于利用预先设置的舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的舆情标签，并且其中对舆情分类模型进行训练的方法包括：在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

根据本公开实施例的另一方面，还提供了一种对分类模型进行训练的装置，包括：样本创建模块，用于创建对分类模型进行训练的训练样本；以及在对分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型对训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

根据本公开实施例的一个方面，提供了一种处理舆情信息的方法，包括：第一处理器；以及第一存储器，与第一处理器连接，用于为第一处理器提供处理一下处理步骤的指令：获取资讯信息；以及利用预先设置的舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的舆情标签，并且其中对舆情分类模型进行训练的方法包括：在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

根据本公开实施例的另一方面，还提供了一种对分类模型进行训练的方法，包括：第二处理器；以及第二存储器，与第二处理器连接，用于为第二处理器提供处理一下处理步骤的指令：创建用于对分类模型进行训练的训练样本；以及在对分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型对训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

在本公开实施例中，采用奖惩优化的方式，通过在计算参数更新的各方向导数的分量中增加奖惩系数k，达到了解决分类模型训练中样本不均衡问题的目的，从而实现了调节和优化当前batch对模型参数的优化幅度。通过训练过程，调节模型对多数类样本和少数类样本的敏感度以及提升在参数空间中，找到对假阴性样本召回率更高的可行解的概率的技术效果。进而解决了现有技术中存在的样本有效特征的缺失、训练成本的提高、拟合问题的产生并扭曲了原始目标函数的函数曲线，从而使得决策学习的目标产生偏置的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的处理舆情信息的方法的流程示意图；

图3是根据本公开实施例1的第二个方面所述的对分类模型进行训练方法的流程示意图；

图4是根据本公开实施例2的第一个方面所述的处理舆情信息的装置的示意图；

图5是根据本公开实施例2的第二个方面所述的对分类模型进行训练装置的示意图；

图6是根据本公开实施例3的第一个方面所述的处理舆情信息的装置的示意图；以及

图7是根据本公开实施例3的第二个方面所述的对分类模型进行训练装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

多数类样本：指在全体样本中同一类型的样本所占全体样本比例高的样本类型。

少数类样本：指在全体样本中同一类型的样本所占全体样本比例少的样本类型。

AdaDelta方法：指一种优化算法。

正负情感标签：具体指的是正面和负面新闻。

风险事件标签：具体指的是信用风险、经营风险、财务风险、证券市场风险、治理管理风险和不可抗力风险。

实施例1

根据本实施例，提供了一种处理舆情信息和训练分类模型的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现处理舆情信息和训练分类模型的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA 等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB) 端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的处理舆情信息和训练分类模型的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的处理舆情信息和训练分类模型的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种处理舆情信息的方法。图2示出了该方法的流程示意图，参考图3所示，该方法包括：

S202：获取资讯信息；

S204：利用预先设置的舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的舆情标签；并且其中

S206：对舆情分类模型进行训练的方法包括：在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度；

S208：其中奖惩系数反多述数类样本与少数类样本的分布比例情况。

正如背景技术中所述，智能舆情预警监控系统通过整合多源新闻资讯信息，结合财务数据反映的风险场景，建立个性化指标体系和风险因子库辅助投资决策，致力于赋予舆情预警的智能化功能。通过机器学习和深度学习的方法，根据新闻舆情资讯的信息内容预测其风险事件标签和正负情感性偏向，预警舆情风险，赋能业务发展。在既有舆情预警监控方法中，基于数据的方法，缺点是下采样会不可避免地造成样本有效特征缺失，而上采样则可能提高了训练成本并且还会带来过拟合问题；基于目标函数的方法，缺点是扭曲了原始目标函数的函数曲线，使决策学习的目标产生的偏置。

有鉴于此，参考图2所示，处理舆情信息的方法，首先计算设备可以获取资讯信息。例如可以通过Scrapy算法从现有的资讯网站抓取结构化数据。通过结构化数据中获取相关新闻资讯的网站、标题、内容、作者和新闻发布时间，并经过优化处理和去重处理，达到使得后续确定与资讯信息相关的舆情标签更加精确的技术效果。

然后计算设备利用已经设置好的舆情分类模型根据已经获取完成的资讯信息进行与其相关联的舆情标签的获取。其中舆情分类模型包括第一舆情分类模型和第二舆情分类模型，舆情标签分为正负情感性标签和风险事件标签。奖惩系数表示多数类样本和少数类样本在全部样本当中的分布比例情况。在对资讯信息进行舆情标签的分类之前，需要对舆情分类模型进行预处理。

计算设备对舆情分类模型进行预处理的的方法包括：舆情分类模型的主要训练过程就是梯度下降，而在梯度下降的过程当中可能会出现训练中样本不均衡的问题。所以引入了奖惩系数，奖惩系数主要能够调节模型对多数类样本和少数类样本的敏感度，能够提升在参数空间当中，找到对假阴性样本召回率更高可行解的概率，还能够调节优化当前batch对模型参数的优化幅度。

最后，计算设备根据对资讯信息的正负情感性标签和风险事件标签的预测的结果进行分类，并将得出的结果结合资讯的基本信息输出到数据库当中。

从而，通过本实施例达到了利用不同的舆情分类模型分别确定所获取的不同的资讯信息的内容的舆情标签的操作能够使得对于资讯信息的分类的效率变得更高。并且能够实现对于不同资讯信息的信息的高精度分类的技术效果。进而解决了现有技术中存在的样本有效特征的缺失、训练成本的提高的问题，并且拟合问题的产生扭曲了原始目标函数的函数曲线，从而使得决策学习的目标产生偏置的技术问题。

可选地，对舆情分类模型进行训练的方法包括利用AdaDelta方法对舆情分类模型进行训练，并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作，包括：按照以下公式(1)计算参数更新的各方向导数分量：

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ² (1)

其中g_t，i为第i个参数θ_i在第t轮参数调整时所用的梯度；g_t-1，i为第i个参数θ_i在第t-1轮参数调整时所用的梯度；ρ为动量因子，可以根据具体的情况设定；E[]为期望值运算；奖惩系数k通过以下公式(2)确定：

其中k_maj为训练舆情分类模型的样本中多数类样本的奖惩系数，k_min为训练舆情分类模型的样本中少数类样本的奖惩系数，其中，多数类样本的奖惩系数k_maj和少数类样本的奖惩系数k_min通过下面的公式(3)确定：

其中，Percent_all表示多数类样本或少数类样本的样本数在全量样本中的占比，Percent_batch表示多数类样本或少数类样本的样本数在当前批量中的占比。

具体地，对舆情分类模型进行训练可以利用AdaDelta方法。首先，计算设备需要计算参数更新的各方向的导数分量。方向导数也就是任意方向上的导数，而当方向导数的方向确定了以后，沿着方向导数的方向就是梯度变化最快的方向。公式E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ²中，gt，i为第i个参数θ_i在第 t轮参数调整时所用的梯度，gt-1，i为第i个参数θ_i在第t-1轮参数调整时所用的梯度。也就是说计算设备在计算第i个参数θ_i在t轮时的导数分量和第i个参数在t-1轮时的导数分量。ρ是动量因子，在不同的情况下ρ的值不同。E[]为期望值运算，也就是在大量的试验之后随机变量的平均值。而为了调节舆情分类模型在训练当中对于多数类样本和少数类样本的敏感度，引入奖惩系数。奖惩系数由公式

确定。K_maj是舆情分类模型在训练时的样本当中的多数类样本的奖惩系数，k_min是舆情分类模型在训练时的样本当中的少数类样本的奖惩系数。多数类样本的奖惩系数K_maj和少数类样本的奖惩系数 k_min是由公式

确定的。Percent_all表示多数类样本的数量或者少数类样本的数量在全体样本的数量当中的占比。Percent_batch表示多数类样本的数量或者少数类样本的数量在当前批量当中的占比。

由于多层神经网络的损失函数通常不是凸函数，所以优化方法有可能在不同的训练轮次中找到不同的局部最优解，而经过修正之后的优化方法，也就是增加了奖惩系数的优化方法，达到能够提升在舆情分类模型的参数空间中，找到对假阴性样本召回率更高可行解的概率的技术效果。并且增加了奖惩系数的优化方法对基于一阶矩估计和二阶矩估计自适应的优化方法中均有提升效果。

可选地，对舆情分类模型进行训练的方法，还包括通过以下公式，计算第 t轮更新时的各个参数θ_i的参数更新量Δθ_i，t：

通过公式(4)利用参数的平方进行滑动平均计算：E[Δθ_i ²]_t＝ρE[Δθ_i ²]_t-1+(1-ρ)Δθ_t，i ²(4)，其中Δθ_i，t为在第t轮更新时第i个参数θi对应的更新量，其中E[Δθ_i ²]_t为在第t轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值，E[Δθ_i ²]_t-1为在第t-1轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值；

通过公式(5)计算各个参数θ_i的均方根误差：

其中∈为常数；以及

通过公式(6)计算第t轮更新时的各个参数θ_i的参数更新量Δθ_i，t：

其中

具体地，在对舆情分类模型进行奖惩系数的增加之前，计算设备需要计算 t轮时的各个参数θ_i的参数更新量Δθ_i，t。参数更新量需要计算滑动平均和均方根误差。其中，利用参数的平方进行滑动平均计算的公式为 E[Δθ_i ²]_t＝ρE[Δθ_i ²]_t-1+(1-ρ)Δθ_t，i ²，其中Δθ_i，t为在第t轮更新时第i个参数θi对应的更新量、E[Δθ_i ²]_t为在第t轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值、E[Δθ_i ²]_t-1是在第t-1轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值。滑动平均计算能够使得舆情分类模型在数据的测试上更加完善。计算设备在使用随机梯度下降算法来训练神经网络时，通过滑动平均计算可以在一定程度上提高舆情分类模型在测试数据上的表现。滑动平均计算主要是通过控制衰减率从而控制参数更新前后之间的差距，进而达到减缓参数的变化值。

计算均方根误差使用公式

其中∈是常数，RMS[Δθ_i ²]_t以上一步更新的参数来近似，首轮迭代可以采用0来初始化计算依赖变量。全局的学习率决定了每一次迭代训练过程优化神经网络数的幅度，学习率的正确选择对于训练的效率和效果均有一定的影响。所以需要计算参数梯度的新系数，从而使得参数梯度的新系数可以替换全局的学习率η。

第t轮更新时各个参数θ_i的参数更新量Δθ_i，t可以由公式

进行计算，其中

从而，计算设备通过对t轮时的各个参数θi的参数更新量Δθ_i，t的滑动平均计算和均方根计算，使得舆情分类模型达到了在数据的测试上更加的完善、可以在一定程度上提升舆情分类模型在测试数据上的表现和提升全局学习率的技术效果。

可选地，利用预先设置的舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的舆情标签的操作，包括：利用预先设置的第一舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的正负情感标签；和/或利用预先设置的第二舆情分类模型，根据资讯信息的内容，确定关于资讯信息相关联的风险事件标签。

具体地，计算设备可以将舆情分类模型分成两种类型。第一舆情分类模型是正负情感标签。第二舆情分类模型是风险事件标签。预先输入海量数据样本，样本里的每条样本包括标题、内容、正负情感标签和风险事件标签。将每条资讯标题重复多变并与文本结合做分词处理和去除常用词处理，并将经过分词处理和去除常用词处理的资讯标题作为训练文本输入。可以使用N-gram的特征处理方式将文本内容按照字节顺序进行窗口大小为N的滑动操作，并把N-gram 的每个窗口词组转化为词向量。最后设置层次softmax做为神经网络的输出层的激活函数，应用文本分类算法模型分别训练正负情感标签和风险事件标签。正负情感标签可用数字-3、-2、-1、0、1、2、3作为影响程度等级的大小，其中，负数代表负面新闻，正数代表正面新闻。风险事件标签分为信用风险、经营风险、财务风险、证券市场风险、治理管理风险和不可抗力风险。

利用不同的舆情分类模型分别确定所获取的不同的资讯信息内容舆情标签的操作能够使得对于资讯信息的分类的效率变得更高。并且能够达到对于不同资讯信息的信息的高精度分类的技术效果。

可选地，利用预先设置的机构识别模型，根据资讯信息的内容，确定与资讯信息相关联的机构；以及将舆情标签与所确定的机构关联，生成机构的舆情信息。

具体地，计算设备设置机构识别模型，能够识别不同的机构。通过将每日获取的资讯信息的标题重复多遍并与其资讯信息文本结合作为分类预测的输入项。加载已预先训练完成的正负情感偏向模型和风险事件标签模型，对于每一条资讯信息输入文本项分别预测其对应的正负情感偏向和风险事件标签的分类。将已经完成舆情标签确认的资讯信息与相应的机构关联，生成与机构有关的舆情信息，并将结果结合有关的舆情信息输出到数据库当中。

从而通过上述方式预先设置机构识别模型能够将不同的机构识别出来，通过对于每日资讯信息的标签的预测能够达到帮助相应机构提前了解舆情预警信息，从而做好进一步的防范的技术效果。

可选地，方法还包括：将舆情信息进行推送。

具体地，计算设备将舆情信息根据客户对标的公司的需求和推送平台的选择，推送相关的风险舆情信息以及舆情信息的风险事件标签和正负情感标签。

从而，通过本实施例达到了利用不同的舆情分类模型分别确定所获取的不同的资讯信息的内容的舆情标签的操作能够使得对于资讯信息的分类的效率变得更高、精度更加准确并且能够将舆情信息和舆情信息的标签准确推送到相关机构当中。进而解决了现有技术中存在的样本有效特征的缺失、训练成本的提高的问题，并且拟合问题的产生扭曲了原始目标函数的函数曲线，从而使得决策学习的目标产生偏置的技术问题。

此外，根据本实施例的第二个方面，提供了一种对分类模型进行训练的方法。图3示出了该方法的流程示意图，参考图3所示，该方法包括：

S302：创建用于对分类模型进行训练的训练样本；

S304：在对分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度；其中

S306：奖惩系数反映多数类样本与少数类样本的分布比例情况。

具体地，参考图3所示，首先计算设备需要创建对舆情分类模型进行训练的训练样本，并对舆情分类模型进行训练样本预处理。其中，所创建的训练样本是一种奖惩优化策略。奖惩优化策略主要能够解决舆情分类模型训练当中存在的样本不均衡的问题。奖惩系数主要能够调节舆情分类模型对多数类样本和少数类样本的敏感度、能够提升在参数空间当中找到对假阴性样本召回率更高可行解的概率并且还能够调节优化当前batch对模型参数的优化幅度。可以以AdaDelta优化方法为例，通常的AdaDelta优化方法，首先要计算参数更新的各方向导数分量，然后再使用参数的平方做滑动平均，此时会产生参数的均方根误差。当前的均方根误差以上一步更新的参数来近似，首轮迭代采用0来初始化计算依赖变量，从而能够得到计算参数梯度的新系数，用来替换全局学习率。但是在实行奖惩优化策略后，增加了奖惩优化系数。

本实施例提供的奖惩优化系数达到了修正优化方法、使得在舆情分类模型的参数空间当中，找到对假阴性样本召回率更高可行解的概率大大提升和增加对基于一阶矩估计和二阶矩估计自适应的优化方法族的技术效果。

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ² (1)

其中g_t，i为第i个参数θ_i在第t轮参数调整时所用的梯度；

g_t-1，i为第i个参数θ_i在第t-1轮参数调整时所用的梯度；

ρ为动量因子，可以根据具体的情况设定；

E[]为期望值运算；

奖惩系数k通过以下公式(2)确定：

参考本申请实施例第一个方面所述的方法，这里就不在一一赘述。

可选地，对舆情分类模型进行训练的方法，还包括通过以下公式，计算第t轮更新时的各个参数θ_i的参数更新量Δθ_i，t：

通过公式(4)利用参数的平方进行滑动平均计算： E[Δθ_i ²]_t＝ρE[Δθ_i ²]_t-1+(1-ρ)Δθ_t，i ²(4)，其中Δθ_i，t为在第t轮更新时第i个参数θi对应的更新量，其中E[Δθ_i ²]_t为在第t轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值，E[Δθ_i ²]_t-1为在第t-1轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值；

通过公式(5)计算各个参数θ_i的均方根误差：

其中∈为常数；以及

其中

具体地，在对舆情分类模型进行奖惩系数的增加之前，计算设备需要计算 t轮时的各个参数θ_i的参数更新量Δθ_i，t。参数更新量需要计算滑动平均和均方根误差。其中，利用参数的平方进行滑动平均计算的公式为 E[Δθ_i ²]_t＝ρE[Δθ_i ²]_t-1+(1-ρ)Δθ_t，i ²，其中Δθ_i，t为在第t轮更新时第i个参数θi对应的更新量、E[Δθ_i ²]_t为在第t轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值、E[Δθ_i]_t-1是在第t-1轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值。滑动平均计算能够使得舆情分类模型在数据的测试上更加完善。计算设备在使用随机梯度下降算法来训练神经网络时，通过滑动平均计算可以在一定程度上提高舆情分类模型在测试数据上的表现。滑动平均计算主要是通过控制衰减率从而控制参数更新前后之间的差距，进而达到减缓参数的变化值。

计算均方根误差使用公式

第t轮更新时各个参数θ_i的参数更新量Δθ_i，t可以由公式

进行计算。其中

从而根据本实施例的第二个方面，采用奖惩优化的方式，通过在计算参数更新的各方向导数的分量中增加奖惩系数k，达到了解决分类模型训练中样本不均衡问题的，从而达到了调节和优化当前batch对模型参数的优化幅度，通过训练过程，调节模型对多数类和少数类样本的敏感度以及提升在参数空间中，找到对假阴性样本召回率更高的可行解的概率的技术效果。

此外，参考图1所示，根据本实施例的第三个方面，提供了一种存储介质。存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项的方法。

本方案主要是能够进行智能舆情预警监控：

S01：获取每日资讯。通过使用Python的Web抓取框架Scrapy，通过各个财经网站获取结构化数据，包括新闻资讯的网站、标题、内容、作者和新闻发布时间。对新闻的文本内容进行分词处理，同时去除高频常用词汇以优化后续的样本处理和训练。

S02：资讯文本去重。

S03：机构命名实体识别。

S04：训练样本预处理。主要采用一种奖惩优化策略，来解决舆情分类模型训练样本中样本不均衡的问题。在误差损失的反向传播过程中，对优化方法增加动态奖惩系数，来调节优化当前batch对模型参数的优化幅度，通过训练过程，调节舆情分类模型对多数类样本和少数类样本的敏感度，提升在参数空间中，找到对假阴性样本召回率更高可行解的概率。以AdaDelta方法为例，通常的AdaDelta方法，首先计算参数更新的各方向导数分量：

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)g_t，i ²

再使用参数的平方做滑动平均：

E[Δθ_i ²]_t＝ρE[Δθ_i ²]_t-1+(1-ρ)Δθ_t，i ²

此时，参数的均方根误差成为：

当前E[Δθ_i ²]_t以上一步更新的参数来近似，首轮迭代则采用0来初始化计算依赖变量，得到计算参数梯度的新系数，用来替换全局学习率η：

使用奖惩优化策略后，在各方向导数分量的公式上增加奖惩系数K，公式被修改为：

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ²

奖惩系数由全体样本，以及当前batch中的多数类样本比例和强关注少数类样本的比例决定：

其中

由于多层神经网络的损失函数通常不是凸函数，所以优化方法可能在不同的训练轮次中找到不同的局部最优解，而修正的优化方法，则可以提升在模型的参数空间中，找到对假阴性样本召回率更高可行解的概率。同时，此方法对基于一阶矩估计和二阶矩估计自适应的优化方法族均有效果。

S05：舆情分类模型训练。输入海量数据样本，样本里每条样本包括标题、内容、正负情感性标签和风险事件标签。把每条资讯标题重复多遍和文本结合并做分词和去除常用词处理，将其作为训练文本输入。然后使用了N-gram的特征处理方式将文本内容按照字节顺序进行窗口大小为N的滑动操作，并把N-gram的每个窗口词组转化为词向量。最后设置层次softmax为神经网络的输出层作为激活函数，应用文本分类算法模型分别训练正负情感性标签和风险事件标签。具体正负情感性标签分为-3、-2、-1、0、1、2、3，负数代表负面新闻，正数代表正面新闻，数字大小表示影响程度；风险事件标签分为信用风险、经营风险、财务风险、证券市场风险、治理和管理风险和不可抗力风险。

S06：每日资讯正负情感性和风险事件标签预测。将每日获取的资讯的标题重复多遍并与其资讯文本结合作为分类预测的输入项。加载已预先训练完成的正负情感性偏向模型和风险事件标签模型，对于每一条资讯输入文本项分别预测其对应的正负情感性偏向和风险事件标签分类，并将结果结合资讯的基本信息输出到数据库中。

S07：舆情推送。根据客户对标公司的需求和推送平台的选择，推送相关的风险舆情以及舆情的风险事件标签和正负情感性偏向。

所以在优化方法当中增加针对多数类样本和少数类样本的奖惩修正系数，来缓解舆情分类模型中样本不均衡的问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图4示出了根据本实施例的第一个方面所述的处理舆情信息的装置400，该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示，该装置400包括：信息获取模块410，用于获取资讯信息；以及标签确定模块 420，用于利用预先设置的舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的舆情标签，并且其中对舆情分类模型进行训练的方法包括：在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

可选地，标签确定模块420包括：训练子模块，用于利用AdaDelta方法对舆情分类模型进行训练，并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作，包括：按照以下公式(1)计算参数更新的各方向导数分量：

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ² (1)

其中g_t，i为第i个参数θ_i在第t轮参数调整时所用的梯度；

g_t-1，i为第i个参数θ_i在第t-1轮参数调整时所用的梯度；

ρ为动量因子，可以根据具体的情况设定；

E[]为期望值运算；

奖惩系数k通过以下公式(2)确定：

可选地，标签确定模块420，还包括通过以下公式，计算第t轮更新时的各个参数θ_i的参数更新量Δθ_i，t：

通过公式(5)计算各个参数θ_i的均方根误差：

其中∈为常数；以及

其中

可选地，标签确定模块420包括：第一确定子模块，用于利用预先设置的第一舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的正负情感标签；和/或第二确定子模块，用于利用预先设置的第二舆情分类模型，根据资讯信息的内容，确定关于资讯信息相关联的风险事件标签。

可选地，装置400还包括：第一确定模块，用于利用预先设置的机构识别模型，根据资讯信息的内容，确定与资讯信息相关联的机构；以及信息生成模块，用于将舆情标签与所确定的机构关联，生成机构的舆情信息。

可选地，装置400还包括：推送模块，用于将舆情信息进行推送。

此外，图5示出了根据本实施例的第二个方面所述的对分类模型进行训练的装置500，该装置500与根据实施例1的第二个方面所述的方法相对应。参考图5所示，该装置500包括：样本创建模块510，用于创建对舆情分类模型进行训练的训练样本；以及引入模块520，用于在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

可选地，对舆情分类模型进行训练的方法包括：训练子模块，用于利用 AdaDelta方法对舆情分类模型进行训练，并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作，包括：

按照以下公式(1)计算参数更新的各方向导数分量：

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ² (1)

其中g_t，i为第i个参数θ_i在第t轮参数调整时所用的梯度；

g_t-1，i为第i个参数θ_i在第t-1轮参数调整时所用的梯度；

ρ为动量因子，可以根据具体的情况设定；

E[]为期望值运算；

奖惩系数k通过以下公式(2)确定：

可选地，计算设备对舆情分类模型进行训练的方法，还包括通过以下公式，计算第t轮更新时的各个参数θ_i的参数更新量Δθ_i，t：

通过公式(5)计算各个参数θ_i的均方根误差：

其中∈为常数；以及

其中

从而根据本实施例，通过本实施例利用不同的舆情分类模型分别确定所获取的不同的资讯的内容舆情标签的操作能够使得对于资讯信息的分类效率变得更高。并且能够实现对于不同资讯信息的高精度分类。并且采用奖惩优化的方式，通过在计算参数更新的各方向导数的分量中增加奖惩系数k，达到了解决分类模型训练中样本不均衡问题的目的，从而实现了调节和优化当前batch对模型参数的优化幅度。通过训练过程，调节模型对多数类和少数类样本的敏感度以及提升在参数空间中，找到对假阴性样本召回率更高的可行解的概率的技术效果。

实施例3

图6示出了根据本实施例的第一个方面所述的处理舆情信息的装置600，该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示，该装置600包括：第一处理器610；以及第一存储器620，与第一处理器610 连接，用于为第一处理器610提供处理以下处理步骤的指令：获取资讯信息；以及利用预先设置的舆情分类模型，根据资讯信息的内容，确定与资讯信息相关联的舆情标签，并且其中对舆情分类模型进行训练的方法包括：在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ² (1)

通过公式(5)计算各个参数θ_i的均方根误差：

其中∈为常数；以及

其中

可选地，第一存储器620还用于为第一处理器610提供以下处理步骤的指令：利用预先设置的机构识别模型，根据资讯信息的内容，确定与资讯信息相关联的机构；以及将舆情标签与所确定的机构关联，生成机构的舆情信息。

可选地，第一存储器620还用于为第一处理器610提供处理以下处理步骤的指令：将舆情信息进行推送。

此外，图7示出了根据本实施例的第二个方面所述的对分类模型进行训练的装置700，该装置700与根据实施例1的第二个方面所述的方法相对应。参考图7所示，该装置700包括：第二处理器710；以及第二存储器720，与第二处理器710连接，用于为第二处理器710提供处理以下处理步骤的指令：创建用于对分类模型进行训练的训练样本；以及在对分类模型进行梯度下降的训练过程中引入奖惩系数，并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

可选地，对舆情分类模型进行训练的方法包括利用AdaDelta方法对舆情分类模型进行训练，并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作，包括：

按照以下公式(1)计算参数更新的各方向导数分量：

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ² (1)

其中g_t，i为第i个参数θ_i在第t轮参数调整时所用的梯度；

g_t-1，i为第i个参数θ_i在第t-1轮参数调整时所用的梯度；

ρ为动量因子，可以根据具体的情况设定；

E[]为期望值运算；

奖惩系数k通过以下公式(2)确定：

通过公式(5)计算各个参数θ_i的均方根误差：

其中∈为常数；以及

其中

从而根据本实施例，通过本实施例利用不同的舆情分类模型分别确定所获取的不同的资讯信息内容的舆情标签的操作能够使得对于资讯信息的分类的效率变得更高。并且能够实现对于不同资讯信息的高精度分类。并且采用奖惩优化的方式，通过在计算参数更新的各方向导数的分量中增加奖惩系数k，达到了解决分类模型训练中样本不均衡问题的目的。从而实现了调节和优化当前 batch对模型参数的优化幅度，通过训练过程，调节模型对多数类和少数类样本的敏感度以及提升在参数空间中，找到对假阴性样本召回率更高的可行解的概率的技术效果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器 (RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种处理舆情信息的方法，其特征在于，包括：

获取资讯信息；以及

利用预先设置的舆情分类模型，根据所述资讯信息的内容，确定与所述资讯信息相关联的舆情标签，并且其中

对所述舆情分类模型进行训练的方法包括：

在对所述舆情分类模型进行梯度下降的训练过程中引入奖惩系数，并通过所述奖惩系数调节所述舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度，其中所述奖惩系数反映所述多数类样本与所述少数类样本的分布比例情况。

2.根据权利要求1所述的方法，其特征在于，对所述舆情分类模型进行训练的方法包括利用AdaDelta方法对所述舆情分类模型进行训练，并且在对所述舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作，包括：

按照以下公式(1)计算参数更新的各方向导数分量：

E[g_t，i ²]＝ρE[g_t-1，i ²]+(1-ρ)κg_t，i ² (1)

其中g_t,i为第i个参数θ_i在第t轮参数调整时所用的梯度；

g_t-1,i为第i个参数θ_i在第t-1轮参数调整时所用的梯度；

ρ为动量因子，可以根据具体的情况设定；

E[]为期望值运算；

奖惩系数k通过以下公式(2)确定：

其中k_maj为训练所述舆情分类模型的样本中多数类样本的奖惩系数，k_min为训练所述舆情分类模型的样本中少数类样本的奖惩系数，其中，所述多数类样本的奖惩系数k_maj和所述少数类样本的奖惩系数k_min通过下面所述的公式(3)确定：

其中，Percent_all表示所述多数类样本或所述少数类样本的样本数在全量样本中的占比，Percent_batch表示所述多数类样本或所述少数类样本的样本数在当前批量中的占比。

3.根据权利要求2所述的方法，其特征在于，对所述舆情分类模型进行训练的方法，还包括通过以下公式，计算第t轮更新时的各个参数θ_i的参数更新量Δθ_i，t：

通过公式(4)利用参数的平方进行滑动平均计算：E[Δθ_i ²]_t＝ρE[Δθ_i ²]_t-1+(1-ρ)Δθ_t，i ² (4)，其中Δθ_i，t为在第t轮更新时第i个参数θi对应的更新量，其中E[Δθ_i ²]_t为在第t轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值，E[Δθ_i ²]_t-1为在第t-1轮更新时各个参数θi对应的更新量Δθ_i的平方的期望值；

通过公式(5)计算各个参数θ_i的均方根误差：