CN113762343A - 处理舆情信息和训练分类模型的方法、装置以及存储介质 - Google Patents

处理舆情信息和训练分类模型的方法、装置以及存储介质 Download PDF

Info

Publication number
CN113762343A
CN113762343A CN202110892871.9A CN202110892871A CN113762343A CN 113762343 A CN113762343 A CN 113762343A CN 202110892871 A CN202110892871 A CN 202110892871A CN 113762343 A CN113762343 A CN 113762343A
Authority
CN
China
Prior art keywords
samples
classification model
parameter
training
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110892871.9A
Other languages
English (en)
Other versions
CN113762343B (zh
Inventor
陈凌云
李宁
徐彬
陈炎
汤鑫
金博昊
张文琰
李明旭
李文婷
陈旭
刘帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Debang Securities Co ltd
Original Assignee
Debang Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Debang Securities Co ltd filed Critical Debang Securities Co ltd
Priority to CN202110892871.9A priority Critical patent/CN113762343B/zh
Publication of CN113762343A publication Critical patent/CN113762343A/zh
Application granted granted Critical
Publication of CN113762343B publication Critical patent/CN113762343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了处理舆情信息和训练分类模型的方法、装置以及存储介质。其中,一种处理舆情信息的方法,包括:获取资讯信息;以及利用预先设置的舆情分类模型。根据资讯信息的内容,确定与资讯信息相关联的舆情标签,并且其中对舆情分类模型进行训练的方法包括:在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。

Description

处理舆情信息和训练分类模型的方法、装置以及存储介质
技术领域
本申请涉及互联网技术领域,特别是涉及一种处理舆情信息和训练分类模型的方法、装置以及存储介质。
背景技术
智能舆情预警监控系统通过整合多源新闻资讯信息,结合财务数据反映的风险场景,建立个性化指标体系和风险因子库辅助投资决策,致力于赋予舆情预警的智能化功能。通过机器学习和深度学习的方法,根据新闻舆情资讯的信息内容预测其风险事件标签和正负情感性偏向,预警舆情风险,赋能业务发展。
在既有舆情预警监控方法中,基于数据的方法,缺点是下采样会不可避免地造成样本有效特征缺失,而上采样则可能提高了训练成本并且还会带来过拟合问题;基于目标函数的方法,缺点是扭曲了原始目标函数的函数曲线,使决策学习的目标产生的偏置。
针对上述的现有技术中现有的舆情预警监控方法中存在的样本有效特征的缺失、训练成本的提高的问题,并且拟合问题的产生并扭曲了原始目标函数的函数曲线,从而使得决策学习的目标产生偏置的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种处理舆情信息和训练分类模型的方法、装置以及存储介质,以至少解决现有技术中存在的样本有效特征的缺失、训练成本的提高、拟合问题的产生并扭曲了原始目标函数的函数曲线,从而使得决策学习的目标产生偏置的技术问题。
根据本公开实施例的一个方面,提供了一种处理舆情信息的方法,包括:获取资讯信息;以及利用预先设置的舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的舆情标签,并且其中对舆情分类模型进行训练的方法包括:在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
根据本公开实施例的另一方面,还提供了一种对分类模型进行训练的方法,包括:创建用于对分类模型进行训练的训练样本;以及在对分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型对训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的一个方面,提供了一种处理舆情信息的装置,包括:信息获取模块,用于获取资讯信息;以及标签确定模块,用于利用预先设置的舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的舆情标签,并且其中对舆情分类模型进行训练的方法包括:在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
根据本公开实施例的另一方面,还提供了一种对分类模型进行训练的装置,包括:样本创建模块,用于创建对分类模型进行训练的训练样本;以及在对分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型对训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
根据本公开实施例的一个方面,提供了一种处理舆情信息的方法,包括:第一处理器;以及第一存储器,与第一处理器连接,用于为第一处理器提供处理一下处理步骤的指令:获取资讯信息;以及利用预先设置的舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的舆情标签,并且其中对舆情分类模型进行训练的方法包括:在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
根据本公开实施例的另一方面,还提供了一种对分类模型进行训练的方法,包括:第二处理器;以及第二存储器,与第二处理器连接,用于为第二处理器提供处理一下处理步骤的指令:创建用于对分类模型进行训练的训练样本;以及在对分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型对训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
在本公开实施例中,采用奖惩优化的方式,通过在计算参数更新的各方向导数的分量中增加奖惩系数k,达到了解决分类模型训练中样本不均衡问题的目的,从而实现了调节和优化当前batch对模型参数的优化幅度。通过训练过程,调节模型对多数类样本和少数类样本的敏感度以及提升在参数空间中,找到对假阴性样本召回率更高的可行解的概率的技术效果。进而解决了现有技术中存在的样本有效特征的缺失、训练成本的提高、拟合问题的产生并扭曲了原始目标函数的函数曲线,从而使得决策学习的目标产生偏置的技术问题。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的处理舆情信息的方法的流程示意图;
图3是根据本公开实施例1的第二个方面所述的对分类模型进行训练方法的流程示意图;
图4是根据本公开实施例2的第一个方面所述的处理舆情信息的装置的示意图;
图5是根据本公开实施例2的第二个方面所述的对分类模型进行训练装置的示意图;
图6是根据本公开实施例3的第一个方面所述的处理舆情信息的装置的示意图;以及
图7是根据本公开实施例3的第二个方面所述的对分类模型进行训练装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
多数类样本:指在全体样本中同一类型的样本所占全体样本比例高的样本类型。
少数类样本:指在全体样本中同一类型的样本所占全体样本比例少的样本类型。
AdaDelta方法:指一种优化算法。
正负情感标签:具体指的是正面和负面新闻。
风险事件标签:具体指的是信用风险、经营风险、财务风险、证券市场风险、治理管理风险和不可抗力风险。
实施例1
根据本实施例,提供了一种处理舆情信息和训练分类模型的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现处理舆情信息和训练分类模型的方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA 等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB) 端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的处理舆情信息和训练分类模型的方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的处理舆情信息和训练分类模型的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种处理舆情信息的方法。图2示出了该方法的流程示意图,参考图3所示,该方法包括:
S202:获取资讯信息;
S204:利用预先设置的舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的舆情标签;并且其中
S206:对舆情分类模型进行训练的方法包括:在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度;
S208:其中奖惩系数反多述数类样本与少数类样本的分布比例情况。
正如背景技术中所述,智能舆情预警监控系统通过整合多源新闻资讯信息,结合财务数据反映的风险场景,建立个性化指标体系和风险因子库辅助投资决策,致力于赋予舆情预警的智能化功能。通过机器学习和深度学习的方法,根据新闻舆情资讯的信息内容预测其风险事件标签和正负情感性偏向,预警舆情风险,赋能业务发展。在既有舆情预警监控方法中,基于数据的方法,缺点是下采样会不可避免地造成样本有效特征缺失,而上采样则可能提高了训练成本并且还会带来过拟合问题;基于目标函数的方法,缺点是扭曲了原始目标函数的函数曲线,使决策学习的目标产生的偏置。
有鉴于此,参考图2所示,处理舆情信息的方法,首先计算设备可以获取资讯信息。例如可以通过Scrapy算法从现有的资讯网站抓取结构化数据。通过结构化数据中获取相关新闻资讯的网站、标题、内容、作者和新闻发布时间,并经过优化处理和去重处理,达到使得后续确定与资讯信息相关的舆情标签更加精确的技术效果。
然后计算设备利用已经设置好的舆情分类模型根据已经获取完成的资讯信息进行与其相关联的舆情标签的获取。其中舆情分类模型包括第一舆情分类模型和第二舆情分类模型,舆情标签分为正负情感性标签和风险事件标签。奖惩系数表示多数类样本和少数类样本在全部样本当中的分布比例情况。在对资讯信息进行舆情标签的分类之前,需要对舆情分类模型进行预处理。
计算设备对舆情分类模型进行预处理的的方法包括:舆情分类模型的主要训练过程就是梯度下降,而在梯度下降的过程当中可能会出现训练中样本不均衡的问题。所以引入了奖惩系数,奖惩系数主要能够调节模型对多数类样本和少数类样本的敏感度,能够提升在参数空间当中,找到对假阴性样本召回率更高可行解的概率,还能够调节优化当前batch对模型参数的优化幅度。
最后,计算设备根据对资讯信息的正负情感性标签和风险事件标签的预测的结果进行分类,并将得出的结果结合资讯的基本信息输出到数据库当中。
从而,通过本实施例达到了利用不同的舆情分类模型分别确定所获取的不同的资讯信息的内容的舆情标签的操作能够使得对于资讯信息的分类的效率变得更高。并且能够实现对于不同资讯信息的信息的高精度分类的技术效果。进而解决了现有技术中存在的样本有效特征的缺失、训练成本的提高的问题,并且拟合问题的产生扭曲了原始目标函数的函数曲线,从而使得决策学习的目标产生偏置的技术问题。
可选地,对舆情分类模型进行训练的方法包括利用AdaDelta方法对舆情分类模型进行训练,并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作,包括:按照以下公式(1)计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2 (1)
其中gt,i为第i个参数θi在第t轮参数调整时所用的梯度;gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度;ρ为动量因子,可以根据具体的情况设定;E[]为期望值运算;奖惩系数k通过以下公式(2)确定:
Figure RE-GDA0003347881370000071
其中kmaj为训练舆情分类模型的样本中多数类样本的奖惩系数,kmin为训练舆情分类模型的样本中少数类样本的奖惩系数,其中,多数类样本的奖惩系数kmaj和少数类样本的奖惩系数kmin通过下面的公式(3)确定:
Figure RE-GDA0003347881370000072
其中,Percent_all表示多数类样本或少数类样本的样本数在全量样本中的占比,Percent_batch表示多数类样本或少数类样本的样本数在当前批量中的占比。
具体地,对舆情分类模型进行训练可以利用AdaDelta方法。首先,计算设备需要计算参数更新的各方向的导数分量。方向导数也就是任意方向上的导数,而当方向导数的方向确定了以后,沿着方向导数的方向就是梯度变化最快的方向。公式E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2中,gt,i为第i个参数θi在第 t轮参数调整时所用的梯度,gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度。也就是说计算设备在计算第i个参数θi在t轮时的导数分量和第i个参数在t-1轮时的导数分量。ρ是动量因子,在不同的情况下ρ的值不同。E[]为期望值运算,也就是在大量的试验之后随机变量的平均值。而为了调节舆情分类模型在训练当中对于多数类样本和少数类样本的敏感度,引入奖惩系数。奖惩系数由公式
Figure RE-GDA0003347881370000081
确定。Kmaj是舆情分类模型在训练时的样本当中的多数类样本的奖惩系数,kmin是舆情分类模型在训练时的样本当中的少数类样本的奖惩系数。多数类样本的奖惩系数Kmaj和少数类样本的奖惩系数 kmin是由公式
Figure RE-GDA0003347881370000082
确定的。Percent_all表示多数类样本的数量或者少数类样本的数量在全体样本的数量当中的占比。Percent_batch表示多数类样本的数量或者少数类样本的数量在当前批量当中的占比。
由于多层神经网络的损失函数通常不是凸函数,所以优化方法有可能在不同的训练轮次中找到不同的局部最优解,而经过修正之后的优化方法,也就是增加了奖惩系数的优化方法,达到能够提升在舆情分类模型的参数空间中,找到对假阴性样本召回率更高可行解的概率的技术效果。并且增加了奖惩系数的优化方法对基于一阶矩估计和二阶矩估计自适应的优化方法中均有提升效果。
可选地,对舆情分类模型进行训练的方法,还包括通过以下公式,计算第 t轮更新时的各个参数θi的参数更新量Δθi,t
通过公式(4)利用参数的平方进行滑动平均计算:E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2(4),其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量,其中E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值,E[Δθi 2]t-1为在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值;
通过公式(5)计算各个参数θi的均方根误差:
Figure RE-GDA0003347881370000091
其中∈为常数;以及
通过公式(6)计算第t轮更新时的各个参数θi的参数更新量Δθi,t
Figure RE-GDA0003347881370000092
其中
Figure RE-GDA0003347881370000093
具体地,在对舆情分类模型进行奖惩系数的增加之前,计算设备需要计算 t轮时的各个参数θi的参数更新量Δθi,t。参数更新量需要计算滑动平均和均方根误差。其中,利用参数的平方进行滑动平均计算的公式为 E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2,其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量、E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值、E[Δθi 2]t-1是在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值。滑动平均计算能够使得舆情分类模型在数据的测试上更加完善。计算设备在使用随机梯度下降算法来训练神经网络时,通过滑动平均计算可以在一定程度上提高舆情分类模型在测试数据上的表现。滑动平均计算主要是通过控制衰减率从而控制参数更新前后之间的差距,进而达到减缓参数的变化值。
计算均方根误差使用公式
Figure RE-GDA0003347881370000094
其中∈是常数,RMS[Δθi 2]t以上一步更新的参数来近似,首轮迭代可以采用0来初始化计算依赖变量。全局的学习率决定了每一次迭代训练过程优化神经网络数的幅度,学习率的正确选择对于训练的效率和效果均有一定的影响。所以需要计算参数梯度的新系数,从而使得参数梯度的新系数可以替换全局的学习率η。
第t轮更新时各个参数θi的参数更新量Δθi,t可以由公式
Figure RE-GDA0003347881370000101
进行计算,其中
Figure RE-GDA0003347881370000102
从而,计算设备通过对t轮时的各个参数θi的参数更新量Δθi,t的滑动平均计算和均方根计算,使得舆情分类模型达到了在数据的测试上更加的完善、可以在一定程度上提升舆情分类模型在测试数据上的表现和提升全局学习率的技术效果。
可选地,利用预先设置的舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的舆情标签的操作,包括:利用预先设置的第一舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的正负情感标签;和/或利用预先设置的第二舆情分类模型,根据资讯信息的内容,确定关于资讯信息相关联的风险事件标签。
具体地,计算设备可以将舆情分类模型分成两种类型。第一舆情分类模型是正负情感标签。第二舆情分类模型是风险事件标签。预先输入海量数据样本,样本里的每条样本包括标题、内容、正负情感标签和风险事件标签。将每条资讯标题重复多变并与文本结合做分词处理和去除常用词处理,并将经过分词处理和去除常用词处理的资讯标题作为训练文本输入。可以使用N-gram的特征处理方式将文本内容按照字节顺序进行窗口大小为N的滑动操作,并把N-gram 的每个窗口词组转化为词向量。最后设置层次softmax做为神经网络的输出层的激活函数,应用文本分类算法模型分别训练正负情感标签和风险事件标签。正负情感标签可用数字-3、-2、-1、0、1、2、3作为影响程度等级的大小,其中,负数代表负面新闻,正数代表正面新闻。风险事件标签分为信用风险、经营风险、财务风险、证券市场风险、治理管理风险和不可抗力风险。
利用不同的舆情分类模型分别确定所获取的不同的资讯信息内容舆情标签的操作能够使得对于资讯信息的分类的效率变得更高。并且能够达到对于不同资讯信息的信息的高精度分类的技术效果。
可选地,利用预先设置的机构识别模型,根据资讯信息的内容,确定与资讯信息相关联的机构;以及将舆情标签与所确定的机构关联,生成机构的舆情信息。
具体地,计算设备设置机构识别模型,能够识别不同的机构。通过将每日获取的资讯信息的标题重复多遍并与其资讯信息文本结合作为分类预测的输入项。加载已预先训练完成的正负情感偏向模型和风险事件标签模型,对于每一条资讯信息输入文本项分别预测其对应的正负情感偏向和风险事件标签的分类。将已经完成舆情标签确认的资讯信息与相应的机构关联,生成与机构有关的舆情信息,并将结果结合有关的舆情信息输出到数据库当中。
从而通过上述方式预先设置机构识别模型能够将不同的机构识别出来,通过对于每日资讯信息的标签的预测能够达到帮助相应机构提前了解舆情预警信息,从而做好进一步的防范的技术效果。
可选地,方法还包括:将舆情信息进行推送。
具体地,计算设备将舆情信息根据客户对标的公司的需求和推送平台的选择,推送相关的风险舆情信息以及舆情信息的风险事件标签和正负情感标签。
从而,通过本实施例达到了利用不同的舆情分类模型分别确定所获取的不同的资讯信息的内容的舆情标签的操作能够使得对于资讯信息的分类的效率变得更高、精度更加准确并且能够将舆情信息和舆情信息的标签准确推送到相关机构当中。进而解决了现有技术中存在的样本有效特征的缺失、训练成本的提高的问题,并且拟合问题的产生扭曲了原始目标函数的函数曲线,从而使得决策学习的目标产生偏置的技术问题。
此外,根据本实施例的第二个方面,提供了一种对分类模型进行训练的方法。图3示出了该方法的流程示意图,参考图3所示,该方法包括:
S302:创建用于对分类模型进行训练的训练样本;
S304:在对分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度;其中
S306:奖惩系数反映多数类样本与少数类样本的分布比例情况。
具体地,参考图3所示,首先计算设备需要创建对舆情分类模型进行训练的训练样本,并对舆情分类模型进行训练样本预处理。其中,所创建的训练样本是一种奖惩优化策略。奖惩优化策略主要能够解决舆情分类模型训练当中存在的样本不均衡的问题。奖惩系数主要能够调节舆情分类模型对多数类样本和少数类样本的敏感度、能够提升在参数空间当中找到对假阴性样本召回率更高可行解的概率并且还能够调节优化当前batch对模型参数的优化幅度。可以以AdaDelta优化方法为例,通常的AdaDelta优化方法,首先要计算参数更新的各方向导数分量,然后再使用参数的平方做滑动平均,此时会产生参数的均方根误差。当前的均方根误差以上一步更新的参数来近似,首轮迭代采用0来初始化计算依赖变量,从而能够得到计算参数梯度的新系数,用来替换全局学习率。但是在实行奖惩优化策略后,增加了奖惩优化系数。
本实施例提供的奖惩优化系数达到了修正优化方法、使得在舆情分类模型的参数空间当中,找到对假阴性样本召回率更高可行解的概率大大提升和增加对基于一阶矩估计和二阶矩估计自适应的优化方法族的技术效果。
可选地,对舆情分类模型进行训练的方法包括利用AdaDelta方法对舆情分类模型进行训练,并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作,包括:按照以下公式(1)计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2 (1)
其中gt,i为第i个参数θi在第t轮参数调整时所用的梯度;
gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度;
ρ为动量因子,可以根据具体的情况设定;
E[]为期望值运算;
奖惩系数k通过以下公式(2)确定:
Figure RE-GDA0003347881370000121
其中kmaj为训练舆情分类模型的样本中多数类样本的奖惩系数,kmin为训练舆情分类模型的样本中少数类样本的奖惩系数,其中,多数类样本的奖惩系数kmaj和少数类样本的奖惩系数kmin通过下面的公式(3)确定:
Figure RE-GDA0003347881370000122
其中,Percent_all表示多数类样本或少数类样本的样本数在全量样本中的占比,Percent_batch表示多数类样本或少数类样本的样本数在当前批量中的占比。
参考本申请实施例第一个方面所述的方法,这里就不在一一赘述。
可选地,对舆情分类模型进行训练的方法,还包括通过以下公式,计算第t轮更新时的各个参数θi的参数更新量Δθi,t
通过公式(4)利用参数的平方进行滑动平均计算: E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2(4),其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量,其中E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值,E[Δθi 2]t-1为在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值;
通过公式(5)计算各个参数θi的均方根误差:
Figure RE-GDA0003347881370000131
其中∈为常数;以及
通过公式(6)计算第t轮更新时的各个参数θi的参数更新量Δθi,t
Figure RE-GDA0003347881370000132
其中
Figure RE-GDA0003347881370000133
具体地,在对舆情分类模型进行奖惩系数的增加之前,计算设备需要计算 t轮时的各个参数θi的参数更新量Δθi,t。参数更新量需要计算滑动平均和均方根误差。其中,利用参数的平方进行滑动平均计算的公式为 E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2,其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量、E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值、E[Δθi]t-1是在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值。滑动平均计算能够使得舆情分类模型在数据的测试上更加完善。计算设备在使用随机梯度下降算法来训练神经网络时,通过滑动平均计算可以在一定程度上提高舆情分类模型在测试数据上的表现。滑动平均计算主要是通过控制衰减率从而控制参数更新前后之间的差距,进而达到减缓参数的变化值。
计算均方根误差使用公式
Figure RE-GDA0003347881370000134
其中∈是常数,RMS[Δθi 2]t以上一步更新的参数来近似,首轮迭代可以采用0来初始化计算依赖变量。全局的学习率决定了每一次迭代训练过程优化神经网络数的幅度,学习率的正确选择对于训练的效率和效果均有一定的影响。所以需要计算参数梯度的新系数,从而使得参数梯度的新系数可以替换全局的学习率η。
第t轮更新时各个参数θi的参数更新量Δθi,t可以由公式
Figure RE-GDA0003347881370000141
进行计算。其中
Figure RE-GDA0003347881370000142
从而根据本实施例的第二个方面,采用奖惩优化的方式,通过在计算参数更新的各方向导数的分量中增加奖惩系数k,达到了解决分类模型训练中样本不均衡问题的,从而达到了调节和优化当前batch对模型参数的优化幅度,通过训练过程,调节模型对多数类和少数类样本的敏感度以及提升在参数空间中,找到对假阴性样本召回率更高的可行解的概率的技术效果。
此外,参考图1所示,根据本实施例的第三个方面,提供了一种存储介质。存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项的方法。
从而,通过本实施例达到了利用不同的舆情分类模型分别确定所获取的不同的资讯信息的内容的舆情标签的操作能够使得对于资讯信息的分类的效率变得更高。并且能够实现对于不同资讯信息的信息的高精度分类的技术效果。进而解决了现有技术中存在的样本有效特征的缺失、训练成本的提高的问题,并且拟合问题的产生扭曲了原始目标函数的函数曲线,从而使得决策学习的目标产生偏置的技术问题。
本方案主要是能够进行智能舆情预警监控:
S01:获取每日资讯。通过使用Python的Web抓取框架Scrapy,通过各个财经网站获取结构化数据,包括新闻资讯的网站、标题、内容、作者和新闻发布时间。对新闻的文本内容进行分词处理,同时去除高频常用词汇以优化后续的样本处理和训练。
S02:资讯文本去重。
S03:机构命名实体识别。
S04:训练样本预处理。主要采用一种奖惩优化策略,来解决舆情分类模型训练样本中样本不均衡的问题。在误差损失的反向传播过程中,对优化方法增加动态奖惩系数,来调节优化当前batch对模型参数的优化幅度,通过训练过程,调节舆情分类模型对多数类样本和少数类样本的敏感度,提升在参数空间中,找到对假阴性样本召回率更高可行解的概率。以AdaDelta方法为例,通常的AdaDelta方法,首先计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)gt,i 2
再使用参数的平方做滑动平均:
E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2
此时,参数的均方根误差成为:
Figure RE-GDA0003347881370000151
当前E[Δθi 2]t以上一步更新的参数来近似,首轮迭代则采用0来初始化计算依赖变量,得到计算参数梯度的新系数,用来替换全局学习率η:
Figure RE-GDA0003347881370000152
使用奖惩优化策略后,在各方向导数分量的公式上增加奖惩系数K,公式被修改为:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2
奖惩系数由全体样本,以及当前batch中的多数类样本比例和强关注少数类样本的比例决定:
Figure RE-GDA0003347881370000153
其中
Figure RE-GDA0003347881370000154
由于多层神经网络的损失函数通常不是凸函数,所以优化方法可能在不同的训练轮次中找到不同的局部最优解,而修正的优化方法,则可以提升在模型的参数空间中,找到对假阴性样本召回率更高可行解的概率。同时,此方法对基于一阶矩估计和二阶矩估计自适应的优化方法族均有效果。
S05:舆情分类模型训练。输入海量数据样本,样本里每条样本包括标题、内容、正负情感性标签和风险事件标签。把每条资讯标题重复多遍和文本结合并做分词和去除常用词处理,将其作为训练文本输入。然后使用了N-gram的特征处理方式将文本内容按照字节顺序进行窗口大小为N的滑动操作,并把N-gram的每个窗口词组转化为词向量。最后设置层次softmax为神经网络的输出层作为激活函数,应用文本分类算法模型分别训练正负情感性标签和风险事件标签。具体正负情感性标签分为-3、-2、-1、0、1、2、3,负数代表负面新闻,正数代表正面新闻,数字大小表示影响程度;风险事件标签分为信用风险、经营风险、财务风险、证券市场风险、治理和管理风险和不可抗力风险。
S06:每日资讯正负情感性和风险事件标签预测。将每日获取的资讯的标题重复多遍并与其资讯文本结合作为分类预测的输入项。加载已预先训练完成的正负情感性偏向模型和风险事件标签模型,对于每一条资讯输入文本项分别预测其对应的正负情感性偏向和风险事件标签分类,并将结果结合资讯的基本信息输出到数据库中。
S07:舆情推送。根据客户对标公司的需求和推送平台的选择,推送相关的风险舆情以及舆情的风险事件标签和正负情感性偏向。
所以在优化方法当中增加针对多数类样本和少数类样本的奖惩修正系数,来缓解舆情分类模型中样本不均衡的问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图4示出了根据本实施例的第一个方面所述的处理舆情信息的装置400,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:信息获取模块410,用于获取资讯信息;以及标签确定模块 420,用于利用预先设置的舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的舆情标签,并且其中对舆情分类模型进行训练的方法包括:在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
可选地,标签确定模块420包括:训练子模块,用于利用AdaDelta方法对舆情分类模型进行训练,并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作,包括:按照以下公式(1)计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2 (1)
其中gt,i为第i个参数θi在第t轮参数调整时所用的梯度;
gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度;
ρ为动量因子,可以根据具体的情况设定;
E[]为期望值运算;
奖惩系数k通过以下公式(2)确定:
Figure RE-GDA0003347881370000171
其中kmaj为训练舆情分类模型的样本中多数类样本的奖惩系数,kmin为训练舆情分类模型的样本中少数类样本的奖惩系数,其中,多数类样本的奖惩系数kmaj和少数类样本的奖惩系数kmin通过下面的公式(3)确定:
Figure RE-GDA0003347881370000172
其中,Percent_all表示多数类样本或少数类样本的样本数在全量样本中的占比,Percent_batch表示多数类样本或少数类样本的样本数在当前批量中的占比。
可选地,标签确定模块420,还包括通过以下公式,计算第t轮更新时的各个参数θi的参数更新量Δθi,t
通过公式(4)利用参数的平方进行滑动平均计算: E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2(4),其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量,其中E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值,E[Δθi 2]t-1为在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值;
通过公式(5)计算各个参数θi的均方根误差:
Figure RE-GDA0003347881370000181
其中∈为常数;以及
通过公式(6)计算第t轮更新时的各个参数θi的参数更新量Δθi,t
Figure RE-GDA0003347881370000182
其中
Figure RE-GDA0003347881370000183
可选地,标签确定模块420包括:第一确定子模块,用于利用预先设置的第一舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的正负情感标签;和/或第二确定子模块,用于利用预先设置的第二舆情分类模型,根据资讯信息的内容,确定关于资讯信息相关联的风险事件标签。
可选地,装置400还包括:第一确定模块,用于利用预先设置的机构识别模型,根据资讯信息的内容,确定与资讯信息相关联的机构;以及信息生成模块,用于将舆情标签与所确定的机构关联,生成机构的舆情信息。
可选地,装置400还包括:推送模块,用于将舆情信息进行推送。
此外,图5示出了根据本实施例的第二个方面所述的对分类模型进行训练的装置500,该装置500与根据实施例1的第二个方面所述的方法相对应。参考图5所示,该装置500包括:样本创建模块510,用于创建对舆情分类模型进行训练的训练样本;以及引入模块520,用于在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
可选地,对舆情分类模型进行训练的方法包括:训练子模块,用于利用 AdaDelta方法对舆情分类模型进行训练,并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作,包括:
按照以下公式(1)计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2 (1)
其中gt,i为第i个参数θi在第t轮参数调整时所用的梯度;
gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度;
ρ为动量因子,可以根据具体的情况设定;
E[]为期望值运算;
奖惩系数k通过以下公式(2)确定:
Figure RE-GDA0003347881370000191
其中kmaj为训练舆情分类模型的样本中多数类样本的奖惩系数,kmin为训练舆情分类模型的样本中少数类样本的奖惩系数,其中,多数类样本的奖惩系数kmaj和少数类样本的奖惩系数kmin通过下面的公式(3)确定:
Figure RE-GDA0003347881370000192
其中,Percent_all表示多数类样本或少数类样本的样本数在全量样本中的占比,Percent_batch表示多数类样本或少数类样本的样本数在当前批量中的占比。
可选地,计算设备对舆情分类模型进行训练的方法,还包括通过以下公式,计算第t轮更新时的各个参数θi的参数更新量Δθi,t
通过公式(4)利用参数的平方进行滑动平均计算: E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2(4),其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量,其中E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值,E[Δθi 2]t-1为在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值;
通过公式(5)计算各个参数θi的均方根误差:
Figure RE-GDA0003347881370000193
其中∈为常数;以及
通过公式(6)计算第t轮更新时的各个参数θi的参数更新量Δθi,t
Figure RE-GDA0003347881370000201
其中
Figure RE-GDA0003347881370000202
从而根据本实施例,通过本实施例利用不同的舆情分类模型分别确定所获取的不同的资讯的内容舆情标签的操作能够使得对于资讯信息的分类效率变得更高。并且能够实现对于不同资讯信息的高精度分类。并且采用奖惩优化的方式,通过在计算参数更新的各方向导数的分量中增加奖惩系数k,达到了解决分类模型训练中样本不均衡问题的目的,从而实现了调节和优化当前batch对模型参数的优化幅度。通过训练过程,调节模型对多数类和少数类样本的敏感度以及提升在参数空间中,找到对假阴性样本召回率更高的可行解的概率的技术效果。
实施例3
图6示出了根据本实施例的第一个方面所述的处理舆情信息的装置600,该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示,该装置600包括:第一处理器610;以及第一存储器620,与第一处理器610 连接,用于为第一处理器610提供处理以下处理步骤的指令:获取资讯信息;以及利用预先设置的舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的舆情标签,并且其中对舆情分类模型进行训练的方法包括:在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
可选地,对舆情分类模型进行训练的方法包括利用AdaDelta方法对舆情分类模型进行训练,并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作,包括:按照以下公式(1)计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2 (1)
其中gt,i为第i个参数θi在第t轮参数调整时所用的梯度;gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度;ρ为动量因子,可以根据具体的情况设定;E[]为期望值运算;奖惩系数k通过以下公式(2)确定:
Figure RE-GDA0003347881370000211
其中kmaj为训练舆情分类模型的样本中多数类样本的奖惩系数,kmin为训练舆情分类模型的样本中少数类样本的奖惩系数,其中,多数类样本的奖惩系数kmaj和少数类样本的奖惩系数kmin通过下面的公式(3)确定:
Figure RE-GDA0003347881370000212
其中,Percent_all表示多数类样本或少数类样本的样本数在全量样本中的占比,Percent_batch表示多数类样本或少数类样本的样本数在当前批量中的占比。
可选地,对舆情分类模型进行训练的方法,还包括通过以下公式,计算第 t轮更新时的各个参数θi的参数更新量Δθi,t
通过公式(4)利用参数的平方进行滑动平均计算: E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2(4),其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量,其中E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值,E[Δθi 2]t-1为在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值;
通过公式(5)计算各个参数θi的均方根误差:
Figure RE-GDA0003347881370000213
其中∈为常数;以及
通过公式(6)计算第t轮更新时的各个参数θi的参数更新量Δθi,t
Figure RE-GDA0003347881370000214
其中
Figure RE-GDA0003347881370000215
可选地,利用预先设置的舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的舆情标签的操作,包括:利用预先设置的第一舆情分类模型,根据资讯信息的内容,确定与资讯信息相关联的正负情感标签;和/或利用预先设置的第二舆情分类模型,根据资讯信息的内容,确定关于资讯信息相关联的风险事件标签。
可选地,第一存储器620还用于为第一处理器610提供以下处理步骤的指令:利用预先设置的机构识别模型,根据资讯信息的内容,确定与资讯信息相关联的机构;以及将舆情标签与所确定的机构关联,生成机构的舆情信息。
可选地,第一存储器620还用于为第一处理器610提供处理以下处理步骤的指令:将舆情信息进行推送。
此外,图7示出了根据本实施例的第二个方面所述的对分类模型进行训练的装置700,该装置700与根据实施例1的第二个方面所述的方法相对应。参考图7所示,该装置700包括:第二处理器710;以及第二存储器720,与第二处理器710连接,用于为第二处理器710提供处理以下处理步骤的指令:创建用于对分类模型进行训练的训练样本;以及在对分类模型进行梯度下降的训练过程中引入奖惩系数,并通过奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中奖惩系数反映多数类样本与少数类样本的分布比例情况。
可选地,对舆情分类模型进行训练的方法包括利用AdaDelta方法对舆情分类模型进行训练,并且在对舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作,包括:
按照以下公式(1)计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2 (1)
其中gt,i为第i个参数θi在第t轮参数调整时所用的梯度;
gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度;
ρ为动量因子,可以根据具体的情况设定;
E[]为期望值运算;
奖惩系数k通过以下公式(2)确定:
Figure RE-GDA0003347881370000221
其中kmaj为训练舆情分类模型的样本中多数类样本的奖惩系数,kmin为训练舆情分类模型的样本中少数类样本的奖惩系数,其中,多数类样本的奖惩系数kmaj和少数类样本的奖惩系数kmin通过下面的公式(3)确定:
Figure RE-GDA0003347881370000231
其中,Percent_all表示多数类样本或少数类样本的样本数在全量样本中的占比,Percent_batch表示多数类样本或少数类样本的样本数在当前批量中的占比。
可选地,对舆情分类模型进行训练的方法,还包括通过以下公式,计算第 t轮更新时的各个参数θi的参数更新量Δθi,t
通过公式(4)利用参数的平方进行滑动平均计算: E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2(4),其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量,其中E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值,E[Δθi 2]t-1为在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值;
通过公式(5)计算各个参数θi的均方根误差:
Figure RE-GDA0003347881370000232
其中∈为常数;以及
通过公式(6)计算第t轮更新时的各个参数θi的参数更新量Δθi,t
Figure RE-GDA0003347881370000233
其中
Figure RE-GDA0003347881370000234
从而根据本实施例,通过本实施例利用不同的舆情分类模型分别确定所获取的不同的资讯信息内容的舆情标签的操作能够使得对于资讯信息的分类的效率变得更高。并且能够实现对于不同资讯信息的高精度分类。并且采用奖惩优化的方式,通过在计算参数更新的各方向导数的分量中增加奖惩系数k,达到了解决分类模型训练中样本不均衡问题的目的。从而实现了调节和优化当前 batch对模型参数的优化幅度,通过训练过程,调节模型对多数类和少数类样本的敏感度以及提升在参数空间中,找到对假阴性样本召回率更高的可行解的概率的技术效果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种处理舆情信息的方法,其特征在于,包括:
获取资讯信息;以及
利用预先设置的舆情分类模型,根据所述资讯信息的内容,确定与所述资讯信息相关联的舆情标签,并且其中
对所述舆情分类模型进行训练的方法包括:
在对所述舆情分类模型进行梯度下降的训练过程中引入奖惩系数,并通过所述奖惩系数调节所述舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中所述奖惩系数反映所述多数类样本与所述少数类样本的分布比例情况。
2.根据权利要求1所述的方法,其特征在于,对所述舆情分类模型进行训练的方法包括利用AdaDelta方法对所述舆情分类模型进行训练,并且在对所述舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作,包括:
按照以下公式(1)计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2 (1)
其中gt,i为第i个参数θi在第t轮参数调整时所用的梯度;
gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度;
ρ为动量因子,可以根据具体的情况设定;
E[]为期望值运算;
奖惩系数k通过以下公式(2)确定:
Figure FDA0003196791220000011
其中kmaj为训练所述舆情分类模型的样本中多数类样本的奖惩系数,kmin为训练所述舆情分类模型的样本中少数类样本的奖惩系数,其中,所述多数类样本的奖惩系数kmaj和所述少数类样本的奖惩系数kmin通过下面所述的公式(3)确定:
Figure FDA0003196791220000012
其中,Percent_all表示所述多数类样本或所述少数类样本的样本数在全量样本中的占比,Percent_batch表示所述多数类样本或所述少数类样本的样本数在当前批量中的占比。
3.根据权利要求2所述的方法,其特征在于,对所述舆情分类模型进行训练的方法,还包括通过以下公式,计算第t轮更新时的各个参数θi的参数更新量Δθi,t
通过公式(4)利用参数的平方进行滑动平均计算:E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2 (4),其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量,其中E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值,E[Δθi 2]t-1为在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值;
通过公式(5)计算各个参数θi的均方根误差:
Figure RE-FDA0003347881360000021
其中∈为常数;以及
通过公式(6)计算第t轮更新时的各个参数θi的参数更新量Δθi,t
Figure RE-FDA0003347881360000022
其中
Figure RE-FDA0003347881360000023
4.根据权利要求1所述的方法,其特征在于,利用预先设置的所述舆情分类模型,根据所述资讯信息的内容,确定与所述资讯信息相关联的舆情标签的操作,包括:
利用预先设置的第一舆情分类模型,根据所述资讯信息的内容,确定与所述资讯信息相关联的正负情感标签;和/或
利用预先设置的第二舆情分类模型,根据所述资讯信息的内容,确定关于所述资讯信息相关联的风险事件标签。
5.根据权利要求1所述的方法,其特征在于,方法还包括:
利用预先设置的机构识别模型,根据所述资讯信息的内容,确定与所述资讯信息相关联的机构;以及
将所述舆情标签与所确定的机构关联,生成所述机构的舆情信息。
6.根据权利要求1所述的方法,其特征在于,方法还包括:将所述舆情信息进行推送。
7.一种对分类模型进行训练的方法,其特征在于,包括:
创建用于对所述分类模型进行训练的训练样本;以及
在对所述分类模型进行梯度下降的训练过程中引入奖惩系数,并通过所述奖惩系数调节舆情分类模型确定训练样本中的多数类样本和少数类样本的敏感度,其中所述奖惩系数反映所述多数类样本与所述少数类样本的分布比例情况。
8.根据权利要求7所述的方法,其特征在于,对所述舆情分类模型进行训练的方法包括利用AdaDelta方法对所述舆情分类模型进行训练,并且在对所述舆情分类模型进行梯度下降的训练过程中引入奖惩系数的操作,包括:
按照以下公式(1)计算参数更新的各方向导数分量:
E[gt,i 2]=ρE[gt-1,i 2]+(1-ρ)κgt,i 2 (1)
其中gt,i为第i个参数θi在第t轮参数调整时所用的梯度;
gt-1,i为第i个参数θi在第t-1轮参数调整时所用的梯度;
ρ为动量因子,可以根据具体的情况设定;
E[]为期望值运算;
奖惩系数k通过以下公式(2)确定:
Figure FDA0003196791220000031
其中kmaj为训练所述舆情分类模型的样本中多数类样本的奖惩系数,kmin为训练所述舆情分类模型的样本中少数类样本的奖惩系数,其中,所述多数类样本的奖惩系数kmaj和所述少数类样本的奖惩系数kmin通过下面所述的公式(3)确定:
Figure FDA0003196791220000032
其中,Percent_all表示所述多数类样本或所述少数类样本的样本数在全量样本中的占比,Percent_batch表示所述多数类样本或所述少数类样本的样本数在当前批量中的占比。
9.根据权利要求8所述的方法,其特征在于,对所述舆情分类模型进行训练的方法,还包括通过以下公式,计算第t轮更新时的各个参数θi的参数更新量Δθi,t
通过公式(4)利用参数的平方进行滑动平均计算:E[Δθi 2]t=ρE[Δθi 2]t-1+(1-ρ)Δθt,i 2 (4),其中Δθi,t为在第t轮更新时第i个参数θi对应的更新量,其中E[Δθi 2]t为在第t轮更新时各个参数θi对应的更新量Δθi的平方的期望值,E[Δθi 2]t-1为在第t-1轮更新时各个参数θi对应的更新量Δθi的平方的期望值;
通过公式(5)计算各个参数θi的均方根误差:
Figure RE-FDA0003347881360000041
其中∈为常数;以及
通过公式(6)计算第t轮更新时的各个参数θi的参数更新量Δθi,t
Figure RE-FDA0003347881360000043
其中
Figure RE-FDA0003347881360000044
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至9中任意一项所述的方法。
CN202110892871.9A 2021-08-04 2021-08-04 处理舆情信息和训练分类模型的方法、装置以及存储介质 Active CN113762343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110892871.9A CN113762343B (zh) 2021-08-04 2021-08-04 处理舆情信息和训练分类模型的方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110892871.9A CN113762343B (zh) 2021-08-04 2021-08-04 处理舆情信息和训练分类模型的方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN113762343A true CN113762343A (zh) 2021-12-07
CN113762343B CN113762343B (zh) 2024-03-15

Family

ID=78788576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110892871.9A Active CN113762343B (zh) 2021-08-04 2021-08-04 处理舆情信息和训练分类模型的方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN113762343B (zh)

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161522A1 (en) * 2013-12-06 2015-06-11 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
CN105740228A (zh) * 2016-01-25 2016-07-06 云南大学 一种互联网舆情分析方法
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108845986A (zh) * 2018-05-30 2018-11-20 中兴通讯股份有限公司 一种情感分析方法、设备及系统、计算机可读存储介质
CN109359296A (zh) * 2018-09-18 2019-02-19 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN109446393A (zh) * 2018-09-12 2019-03-08 北京邮电大学 一种网络社区话题分类方法及装置
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN110298403A (zh) * 2019-07-02 2019-10-01 郭刚 一种财经新闻中企业主体的情感分析方法和系统
CN110347830A (zh) * 2019-06-28 2019-10-18 阿里巴巴集团控股有限公司 舆情预警的实现方法和装置
US20190347571A1 (en) * 2017-02-03 2019-11-14 Koninklijke Philips N.V. Classifier training
WO2020037942A1 (zh) * 2018-08-20 2020-02-27 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
CN111160019A (zh) * 2019-12-30 2020-05-15 中国联合网络通信集团有限公司 一种舆情监测的方法、装置及系统
WO2020125445A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法、设备及介质
CN111753087A (zh) * 2020-06-12 2020-10-09 深圳怀新企业投资顾问股份有限公司 舆情文本分类方法、装置、计算机设备和存储介质
WO2020220544A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质
CN112581006A (zh) * 2020-12-25 2021-03-30 杭州衡泰软件有限公司 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
CN112711705A (zh) * 2020-11-30 2021-04-27 泰康保险集团股份有限公司 舆情数据处理方法、设备及存储介质
CN112749280A (zh) * 2021-01-18 2021-05-04 杭州安恒信息技术股份有限公司 网络舆情的分类方法、装置、电子装置和存储介质
CN112801498A (zh) * 2021-01-26 2021-05-14 网易(杭州)网络有限公司 风险识别模型的训练方法、风险识别方法、装置及设备
CN112860886A (zh) * 2021-01-14 2021-05-28 思必驰科技股份有限公司 情感分析模型的训练方法及系统
WO2021114974A1 (zh) * 2019-12-14 2021-06-17 支付宝(杭州)信息技术有限公司 用户风险评估方法及装置、电子设备、存储介质
CN113205409A (zh) * 2021-05-28 2021-08-03 中国工商银行股份有限公司 贷款业务处理方法及装置

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161522A1 (en) * 2013-12-06 2015-06-11 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
CN105740228A (zh) * 2016-01-25 2016-07-06 云南大学 一种互联网舆情分析方法
US20190347571A1 (en) * 2017-02-03 2019-11-14 Koninklijke Philips N.V. Classifier training
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108845986A (zh) * 2018-05-30 2018-11-20 中兴通讯股份有限公司 一种情感分析方法、设备及系统、计算机可读存储介质
WO2020037942A1 (zh) * 2018-08-20 2020-02-27 平安科技(深圳)有限公司 风险预测处理方法、装置、计算机设备和介质
CN109446393A (zh) * 2018-09-12 2019-03-08 北京邮电大学 一种网络社区话题分类方法及装置
CN109359296A (zh) * 2018-09-18 2019-02-19 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
WO2020125445A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法、设备及介质
WO2020220544A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质
CN110347830A (zh) * 2019-06-28 2019-10-18 阿里巴巴集团控股有限公司 舆情预警的实现方法和装置
CN110298403A (zh) * 2019-07-02 2019-10-01 郭刚 一种财经新闻中企业主体的情感分析方法和系统
WO2021114974A1 (zh) * 2019-12-14 2021-06-17 支付宝(杭州)信息技术有限公司 用户风险评估方法及装置、电子设备、存储介质
CN111160019A (zh) * 2019-12-30 2020-05-15 中国联合网络通信集团有限公司 一种舆情监测的方法、装置及系统
CN111753087A (zh) * 2020-06-12 2020-10-09 深圳怀新企业投资顾问股份有限公司 舆情文本分类方法、装置、计算机设备和存储介质
CN112711705A (zh) * 2020-11-30 2021-04-27 泰康保险集团股份有限公司 舆情数据处理方法、设备及存储介质
CN112581006A (zh) * 2020-12-25 2021-03-30 杭州衡泰软件有限公司 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
CN112860886A (zh) * 2021-01-14 2021-05-28 思必驰科技股份有限公司 情感分析模型的训练方法及系统
CN112749280A (zh) * 2021-01-18 2021-05-04 杭州安恒信息技术股份有限公司 网络舆情的分类方法、装置、电子装置和存储介质
CN112801498A (zh) * 2021-01-26 2021-05-14 网易(杭州)网络有限公司 风险识别模型的训练方法、风险识别方法、装置及设备
CN113205409A (zh) * 2021-05-28 2021-08-03 中国工商银行股份有限公司 贷款业务处理方法及装置

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
MIN YANG,Q IANG QU , XIAOJUN CHEN, CHAOXUE GUO, YING SHEN, KAI LEI: "Feature-enhanced attention network for target-dependent sentiment classification", NEUROCOMPUTING, vol. 307 *
NYAIOT: "优化算法--Adagrad,RMSProp,AdaDelta,Adam", Retrieved from the Internet <URL:https://blog.csdn.net/zenglaoshi/article/details/103261168> *
刘宁, 陈凌云, 熊文涛: "基于文本挖掘的网络热点舆情分析——以问题疫苗事件为例", 湖北工程学院学报, vol. 39, no. 06, 3 December 2019 (2019-12-03) *
周稳: "基于在线学习的网络舆情分析方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 01, 15 January 2019 (2019-01-15) *
孙靖超;: "基于优化深度双向自编码网络的舆情情感识别研究", 情报杂志, no. 06 *
庄丽榕;叶东毅;: "基于CSLSTM网络的文本情感分类", 计算机系统应用, no. 02 *
庄丽榕;叶东毅;: "基于CSLSTM网络的文本情感分类", 计算机系统应用, no. 02, 15 February 2018 (2018-02-15) *
张仰森;郑佳;黄改娟;蒋玉茹;: "基于双重注意力模型的微博情感分析方法", 清华大学学报(自然科学版), no. 02 *
张仰森;郑佳;黄改娟;蒋玉茹;: "基于双重注意力模型的微博情感分析方法", 清华大学学报(自然科学版), no. 02, 15 February 2018 (2018-02-15) *

Also Published As

Publication number Publication date
CN113762343B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
Kirelli et al. Sentiment analysis of shared tweets on global warming on twitter with data mining methods: a case study on Turkish language
KR102144126B1 (ko) 기업을 위한 정보 제공 장치 및 방법
US10678821B2 (en) Evaluating theses using tree structures
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
CN112529663A (zh) 商品推荐方法、装置、终端设备及存储介质
CN115423040A (zh) 互动营销平台的用户画像识别方法及ai系统
CN110689211A (zh) 网站服务能力的评估方法及装置
CN110008980B (zh) 识别模型生成方法、识别方法、装置、设备及存储介质
CN114707041A (zh) 消息推荐方法、装置、计算机可读介质及电子设备
CN114298845A (zh) 一种理赔票据处理方法和装置
CN116562357B (zh) 点击预测模型训练方法及装置
CN112231299A (zh) 一种特征库动态调整的方法和装置
CN113762343A (zh) 处理舆情信息和训练分类模型的方法、装置以及存储介质
CN110750643A (zh) 上市公司非定期公告的分类方法、装置及存储介质
US20220292393A1 (en) Utilizing machine learning models to generate initiative plans
CN111400413B (zh) 一种确定知识库中知识点类目的方法及系统
CN112990311A (zh) 一种准入客户的识别方法和装置
CN114021565A (zh) 命名实体识别模型的训练方法及装置
CN113239259A (zh) 确定相似店铺的方法和装置
CN111898626A (zh) 模型确定方法、装置和电子设备
CN113377910A (zh) 情感评价方法、装置、电子设备和存储介质
CN112765448A (zh) 一种用户标签挖掘方法、装置、服务器及存储介质
CN112528103A (zh) 一种推荐对象的方法和装置
CN113742564A (zh) 目标资源的推送方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant