CN114492439A - 一种应用深度学习提升舆情预警准确率的系统和方法 - Google Patents
一种应用深度学习提升舆情预警准确率的系统和方法 Download PDFInfo
- Publication number
- CN114492439A CN114492439A CN202111634848.6A CN202111634848A CN114492439A CN 114492439 A CN114492439 A CN 114492439A CN 202111634848 A CN202111634848 A CN 202111634848A CN 114492439 A CN114492439 A CN 114492439A
- Authority
- CN
- China
- Prior art keywords
- news
- early warning
- named entity
- risk event
- public opinion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims description 33
- 238000013145 classification model Methods 0.000 claims description 25
- 238000002372 labelling Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims 2
- 238000013136 deep learning model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种应用深度学习提升舆情预警准确率的系统和方法,属于计算机技术领域。本发明包括命名实体识别终端:用于从数据输入端口获取新闻文本并输出命名实体矩阵及其置信概率矩阵P1;新闻事件分类终端:用于从数据输入端口获取新闻文本并输出风险事件类别E2及其对应的置信概率P2;新闻舆情预警终端:用于配制预警规则,接收命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2,并执行预警规则,输出预警信号。本发明可自动从新闻文本中抽取命名实体,并且可同时预测数十种新闻事件的分类概率,输出分类概率矩阵与最高置信度的事件类别,大幅提高了新闻风险事件识别的准确率与详细程度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种应用深度学习提升舆情预警准确率的方法及系统。
背景技术
随着移动互联网、物联网等新技术的迅速发展,人类进入数据时代,数据带来的信息风暴正改变着我们的生活、工作和思维方式,同时对网络舆情管理也带来深刻影响。随着新舆情时代的到来,组织机构在密切关注舆情风险的同时,需要深入挖掘舆情大数据的价值,倾听社会、市场和用户的广泛声音。
现有新闻舆情预警的技术方案有三类,一类是传统的关键词提取与规则匹配模式;第二类是应用Word2Vec(Word Embedding)等技术将新闻文本结构化为词向量,然后结合人工标注的风险事件标签,使用机器学习模型训练舆情风险事件分类模型,最终根据模型预测结果输出舆情预警信号;第三类是应用深度学习模型的模式,两阶段的方案使用深度学习模型抽取新闻文本的结构化特征并基于此训练机器学习分类模型,端到端的方案直接使用深度学习模型训练舆情预警的二分类模型。
现有的舆情预警方法存在两点不足:第一点是无法自动抽取企业,时间,地点等命名实体(实际上大多使用关键词检索和模板/正则匹配的方法实现);第二点是虽然应用了深度学习模型,但对于新闻舆情事件的具体类别识别不充分(现有方案均为二分类),现有的技术有通过情感分类模型(二分类,正面-负面情感),舆情风险模型(二分类,是否属于舆情事件)来进行分类的,实际输出的分类结果含义较为模糊,对于现实业务场景的应用来说是远远不够的。
发明内容
为了解决上述现有技术中存在的技术问题,本发明公开了一种应用深度学习提升舆情预警准确率的方法及系统,其目的在于:提高新闻风险事件识别的准确率与详细程度。
本发明采用的技术方案如下:
一种应用深度学习提升舆情预警准确率的系统,包括:
命名实体识别终端:用于从数据输入端口获取新闻文本并输出命名实体矩阵及其置信概率矩阵P1;
新闻事件分类终端:用于从数据输入端口获取新闻文本并输出风险事件类别E2及其对应的置信概率P2;
新闻舆情预警终端:用于配制预警规则,接收命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2,并执行预警规则,输出预警信号。
采用该技术方案后,本发明可以自动从新闻文本中抽取企业,时间,地点等命名实体,完善了新闻实体要素的结构化提取,并且实现了新闻舆情风险事件的多分类模型训练与预测,可以同时预测数十种新闻事件的分类概率,输出分类概率矩阵与最高置信度的事件类别,大幅提高了新闻风险事件识别的准确率与详细程度。
优选的,所述命名实体识别终端包括用于对新闻文本中的实体要素进行标注的实体要素标注模块、用于训练命名实体识别模型的命名实体识别模型训练模块和用于提取命名实体矩阵及其置信概率矩阵P1的命名实体要素提取模块。
优选的,所述新闻事件分类终端包括用于对新闻事件进行标注的新闻事件标注模块、用于训练Transformer模型的Transformer训练模块和用于输出风险事件类别E2及其对应的置信概率P2的新闻事件分类模块。
优选的,所述新闻舆情预警终端包括:
预警规则配置模块:用于配置预警规则;
预警信号生成模块:用于根据命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2输出预警信号。
优选的,步骤1:获取新闻文本,所述命名实体识别终端和新闻事件分类终端分别对新闻文本中的实体要素和风险事件进行标注,得到实体要素数据集D1和风险事件数据集D2;
步骤2:分别采用实体要素数据集D1和风险事件数据集D2对命名实体识别模型和Transformer模型进行训练,得到训练好的命名实体识别模型M1和训练好的新闻舆情风险事件分类模型M2;
步骤3:将实时获取的新闻文本分别输入到训练好的命名实体识别模型M1和新闻舆情风险事件分类模型M2中,所述命名实体识别模型M1输出命名实体矩阵及其置信概率矩阵P1,所述新闻舆情风险事件分类模型M2输出风险事件类别E2及其对应的置信概率P2;
步骤4:所述新闻舆情预警终端接收步骤3中的命名实体矩阵及其置信概率矩阵P1和风险事件类别E2及其对应的置信概率P2,并执行预警规则,输出预警信号。
优选的,所述步骤1具体包括:
步骤1.1:获取新闻文本,将新闻文本按照句子级别进行分割,使用shuffle函数将句子级别的新闻文本随机排序,并抽取其中设定比例的新闻文本对实体要素进行人工标注,剩余部分的新闻文本用于初版模型预测伪标签(pseudo label),其中置信概率高的新闻文本标记为真实标签(true label),置信概率低的新闻样本进行人工校正标注,得到实体要素数据集D1;
步骤1.2:获取新闻文本,将新闻文本按照句子级别进行分割,使用shuffle函数将句子级别的新闻文本随机排序,并抽取其中设定比例的新闻文本对风险事件进行人工标注,剩余部分的新闻文本用于初版模型预测伪标签(pseudo label),其中置信概率高的新闻文本标记为真实标签(true label),置信概率低的新闻样本进行人工校正标注,得到风险事件数据集D2。
优选的,所述步骤2具体包括以下步骤:
步骤2.1:将实体要素数据集D1导入命名实体识别模型,命名实体识别模型采用BERT+IDCNN+CRF架构,对文本进行拆分(tokenize)操作,将实体要素数据集D1划分为训练集和验证集,然后加载预训练模型,在实体要素数据集D上进行微调(Finetune),设置合适的初始化学习率(lr)和批处理大小(batch size),经过迭代得到训练好的命名实体识别模型M1;
步骤2.2:将风险事件数据集D2导入Transformer模型,Transformer模型采用BERT架构,对文本进行拆分(tokenize)操作,将风险事件数据集D2划分为训练集和验证集,然后加载BERT预训练模型,初始化学习率(lr)和批处理大小(batch size),在风险事件数据集D2上进行微调(Finetune)操作,经过迭代得到训练好的新闻舆情风险事件分类模型M2。
优选的,所述步骤3具体包括以下步骤:
步骤3.1:从数据输入端口实时获取新闻文本,并输入到训练好的命名实体识别模型M1中,命名实体识别模型M1输出命名实体矩阵及其置信概率矩阵P1;所述命名实体矩阵包括企业实体、事件、时间和地点;
步骤3.2:从数据输入端口实时获取新闻文本,并输入到训练好的新闻舆情风险事件分类模型M2中,新闻舆情风险事件分类模型M2输出新闻舆情事件的分类概率矩阵,并据此计算出最高置信度的风险事件类别E2及其对应的置信概率P2。
进一步优选的,所述步骤4具体包括以下步骤:
步骤4.1:在新闻舆情预警终端的规则配置页面配置预警规则R1;
步骤4.2:所述新闻舆情预警终端接收步骤3中的命名实体矩阵及其置信概率矩阵P1和风险事件类别E2及其对应的置信概率P2;
步骤4.3:执行已配置好的预警规则R1,若触发预警规则R1中的阈值则输出预警信号,否则不输出。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述方法的步骤。
本发明的有益效果包括:
1.本发明引入了命名实体识别(NER)模型,可以自动从新闻文本中抽取企业,时间,地点等命名实体,完善了新闻实体要素的结构化提取。
2.本发明应用了Transformer模型架构,实现了新闻舆情风险事件的多分类模型训练与预测,可以同时预测数十种新闻事件的分类概率,输出分类概率矩阵与最高置信度的事件类别,大幅提高了新闻风险事件识别的准确率与详细程度。
附图说明
图1为本发明的框架示意图;
图2为本发明的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图对本发明作进一步的详细说明:
如图1所示,一种应用深度学习提升舆情预警准确率的系统,包括:
命名实体识别终端:用于从数据输入端口获取新闻文本并输出命名实体矩阵及其置信概率矩阵P1;
新闻事件分类终端:用于从数据输入端口获取新闻文本并输出风险事件类别E2及其对应的置信概率P2;
新闻舆情预警终端:用于配制预警规则,接收命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2,并执行预警规则,输出预警信号。
具体的,所述命名实体识别终端包括用于对新闻文本中的实体要素进行标注的实体要素标注模块、用于训练命名实体识别模型的命名实体识别模型训练模块和用于提取命名实体矩阵及其置信概率矩阵P1的命名实体要素提取模块。
所述新闻事件分类终端包括用于对新闻事件进行标注的新闻事件标注模块、用于训练Transformer模型的Transformer训练模块和用于输出风险事件类别E2及其对应的置信概率P2的新闻事件分类模块。
所述新闻舆情预警终端包括:预警规则配置模块和预警信号生成模块。
所述预警规则配置模块用于配置预警规则;前端界面提供特征加工脚本输入,规则配置页面(特征,阈值,逻辑关系,组合规则决策树),配置后的预警规则R1进入下一模块执行。
所述预警信号生成模块用于根据命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2输出预警信号。预警信号生成模块实时接收新闻文本数据,并行调用命名实体要素提取模块和新闻事件分类模块,接收接口返回的新闻实体要素(企业实体,时间,地点)以及风险事件类别及置信概率,执行已配置预警规则R1,若触发阈值则输出预警信号,否则不输出。
如图2所示,本发明还公开了一种应用深度学习提升舆情预警准确率的方法,所述方法包括:
步骤1:获取新闻文本,所述命名实体识别终端和新闻事件分类终端分别对新闻文本中的实体要素和风险事件进行标注,得到实体要素数据集D1和风险事件数据集D2;
进一步作为本方案的优选实施例,所述步骤1具体包括:
步骤1.1:获取新闻文本,将新闻文本按照句子级别进行分割,使用shuffle函数将句子级别的新闻文本随机排序,并抽取其中50%的新闻文本对实体要素(企业实体,事件,时间,地点)进行人工标注,剩余部分的新闻文本用于初版模型预测伪标签(pseudolabel),其中置信概率高的新闻文本标记为真实标签(truetrue label),置信概率低的新闻样本进行人工校正标注,得到实体要素数据集D1;标注后的实体要素数据集D1包含新闻文本和命名实体标签(企业实体,事件,时间,地点)。
步骤1.2:获取新闻文本,将新闻文本按照句子级别进行分割,使用shuffle函数将句子级别的新闻文本随机排序,并抽取其中50%的新闻文本对风险事件(新闻舆情风险事件标签包含数十类事件类别,比如破产重组,债券违约,监管处罚等)进行人工标注,剩余部分的新闻文本用于初版模型预测伪标签(pseudo label),其中置信概率高的新闻文本标记为真实标签(true label),置信概率低的新闻样本进行人工校正标注,得到风险事件数据集D2。标注后的风险事件数据集D2包含新闻文本和风险事件类别标签。
步骤2:分别采用实体要素数据集D1和风险事件数据集D2对命名实体识别模型和Transformer模型进行训练,得到训练好的命名实体识别模型M1和训练好的新闻舆情风险事件分类模型M2;
进一步作为本方案的优选实施例,所述步骤2具体包括:
步骤2.1:将实体要素数据集D1导入命名实体识别模型,命名实体识别模型采用BERT+IDCNN+CRF架构,对文本进行拆分(tokenize)操作,将实体要素数据集D1划分为训练集和验证集,然后加载预训练模型,在实体要素数据集D上进行微调(Finetune),设置合适的初始化学习率(lr)和批处理大小(batch size),达到设定的迭代次数后得到训练好的命名实体识别模型M1;相比于传统的BERT+BILSTM+CRF,该模型结构可以并行训练,速度大幅加快,并在卷积中加入空洞,可以在不进行pooling的情况下扩大感受野,获取更好的远距离信息甚至全局信息。
步骤2.2:将风险事件数据集D2导入Transformer模型,Transformer模型采用BERT架构,对文本进行拆分(tokenize)操作,将风险事件数据集D2划分为训练集和验证集,然后加载BERT预训练模型,初始化学习率(lr)和批处理大小(batch size),在风险事件数据集D2上进行微调(Finetune)操作,达到设定的迭代次数后得到训练好的新闻舆情风险事件分类模型M2(multi-class)。
步骤3:将实时获取的新闻文本分别输入到训练好的命名实体识别模型M1和新闻舆情风险事件分类模型M2中,所述命名实体识别模型M1输出命名实体矩阵及其置信概率矩阵P1,所述新闻舆情风险事件分类模型M2输出风险事件类别E2及其对应的置信概率P2;
进一步作为本方案的优选实施例,所述步骤3具体包括:
步骤3.1:从数据输入端口实时获取新闻文本,并输入到训练好的命名实体识别模型M1中,命名实体识别模型M1输出命名实体矩阵及其置信概率矩阵P1;所述命名实体矩阵包括企业实体、事件、时间和地点;
步骤3.2:从数据输入端口实时获取新闻文本,并输入到训练好的新闻舆情风险事件分类模型M2中,新闻舆情风险事件分类模型M2输出新闻舆情事件的分类概率矩阵,并据此计算出最高置信度的风险事件类别E2及其对应的置信概率P2。
步骤4:所述新闻舆情预警终端接收步骤3中的命名实体矩阵及其置信概率矩阵P1和风险事件类别E2及其对应的置信概率P2,并执行预警规则,输出预警信号。
进一步作为本方案的优选实施例,所述步骤4具体包括:
步骤4.1:在新闻舆情预警终端的规则配置页面配置预警规则R1;
步骤4.2:所述新闻舆情预警终端接收步骤3中的命名实体矩阵及其置信概率矩阵P1和风险事件类别E2及其对应的置信概率P2;
步骤4.3:执行已配置好的预警规则R1,若触发预警规则R1中的阈值则输出预警信号,否则不输出。
另外,结合上述实施例中的舆情预警模型的训练方法和舆情预警方法,本说明书实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种舆情预警模型的训练方法或者舆情预警方法。
本发明引入了命名实体识别(NER)-命名实体识别模型,可以自动从新闻文本中抽取企业,时间,地点等命名实体,完善了新闻实体要素的结构化提取;第二点,应用了前沿的Transformer模型架构,实现了新闻舆情风险事件的多分类模型训练与预测,可以同时预测数十种新闻事件的分类概率,输出分类概率矩阵与最高置信度的事件类别,大幅提高了新闻风险事件识别的准确率与详细程度。
需要明确的是,本说明书并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本说明书的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本说明书的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
还需要说明的是,本说明书中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本说明书不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (10)
1.一种应用深度学习提升舆情预警准确率的系统,其特征在于,包括
命名实体识别终端:用于从数据输入端口获取新闻文本并输出命名实体矩阵及其置信概率矩阵P1;
新闻事件分类终端:用于从数据输入端口获取新闻文本并输出风险事件类别E2及其对应的置信概率P2;
新闻舆情预警终端:用于配制预警规则,接收命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2,并执行预警规则,输出预警信号。
2.根据权利要求1所述的一种应用深度学习提升舆情预警准确率的系统,其特征在于:所述命名实体识别终端包括用于对新闻文本中的实体要素进行标注的实体要素标注模块、用于训练命名实体识别模型的命名实体识别模型训练模块和用于提取命名实体矩阵及其置信概率矩阵P1的命名实体要素提取模块。
3.根据权利要求1所述的一种应用深度学习提升舆情预警准确率的系统,其特征在于:所述新闻事件分类终端包括用于对新闻事件进行标注的新闻事件标注模块、用于训练Transformer模型的Transformer训练模块和用于输出风险事件类别E2及其对应的置信概率P2的新闻事件分类模块。
4.根据权利要求1所述的一种应用深度学习提升舆情预警准确率的系统,其特征在于:所述新闻舆情预警终端包括:
预警规则配置模块:用于配置预警规则;
预警信号生成模块:用于根据命名实体矩阵及其置信概率矩阵P1、风险事件类别E2及其对应的置信概率P2输出预警信号。
5.一种应用深度学习提升舆情预警准确率的方法,其特征在于,包括以下步骤:
步骤1:获取新闻文本,所述命名实体识别终端和新闻事件分类终端分别对新闻文本中的实体要素和风险事件进行标注,得到实体要素数据集D1和风险事件数据集D2;
步骤2:分别采用实体要素数据集D1和风险事件数据集D2对命名实体识别模型和Transformer模型进行训练,得到训练好的命名实体识别模型M1和训练好的新闻舆情风险事件分类模型M2;
步骤3:将实时获取的新闻文本分别输入到训练好的命名实体识别模型M1和新闻舆情风险事件分类模型M2中,所述命名实体识别模型M1输出命名实体矩阵及其置信概率矩阵P1,所述新闻舆情风险事件分类模型M2输出风险事件类别E2及其对应的置信概率P2;
步骤4:所述新闻舆情预警终端接收步骤3中的命名实体矩阵及其置信概率矩阵P1和风险事件类别E2及其对应的置信概率P2,并执行预警规则,输出预警信号。
6.根据权利要求5所述的一种应用深度学习提升舆情预警准确率的方法,其特征在于,所述步骤1具体包括:
步骤1.1:获取新闻文本,将新闻文本按照句子级别进行分割,使用shuffle函数将句子级别的新闻文本随机排序,并抽取其中设定比例的新闻文本对实体要素进行人工标注,剩余部分的新闻文本用于初版模型预测伪标签,其中置信概率高的新闻文本标记为真实标签,置信概率低的新闻样本进行人工校正标注,得到实体要素数据集D1;
步骤1.2:获取新闻文本,将新闻文本按照句子级别进行分割,使用shuffle函数将句子级别的新闻文本随机排序,并抽取其中设定比例的新闻文本对风险事件进行人工标注,剩余部分的新闻文本用于初版模型预测伪标签,其中置信概率高的新闻文本标记为真实标签,置信概率低的新闻样本进行人工校正标注,得到风险事件数据集D2。
7.根据权利要求5所述的一种应用深度学习提升舆情预警准确率的方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1:将实体要素数据集D1导入命名实体识别模型,命名实体识别模型采用BERT+IDCNN+CRF架构,对文本进行拆分操作,将实体要素数据集D1划分为训练集和验证集,然后加载预训练模型,在实体要素数据集D上进行微调,设置合适的初始化学习率和批处理大小,经过迭代得到训练好的命名实体识别模型M1;
步骤2.2:将风险事件数据集D2导入Transformer模型,Transformer模型采用BERT架构,对文本进行拆分操作,将风险事件数据集D2划分为训练集和验证集,然后加载BERT预训练模型,初始化学习率和批处理大小,在风险事件数据集D2上进行微调操作,经过迭代得到训练好的新闻舆情风险事件分类模型M2。
8.根据权利要求5所述的一种应用深度学习提升舆情预警准确率的方法,其特征在于:所述步骤3具体包括以下步骤:
步骤3.1:从数据输入端口实时获取新闻文本,并输入到训练好的命名实体识别模型M1中,命名实体识别模型M1输出命名实体矩阵及其置信概率矩阵P1;所述命名实体矩阵包括企业实体、事件、时间和地点;
步骤3.2:从数据输入端口实时获取新闻文本,并输入到训练好的新闻舆情风险事件分类模型M2中,新闻舆情风险事件分类模型M2输出新闻舆情事件的分类概率矩阵,并据此计算出最高置信度的风险事件类别E2及其对应的置信概率P2。
9.根据权利要求5所述的一种应用深度学习提升舆情预警准确率的方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4.1:在新闻舆情预警终端的规则配置页面配置预警规则R1;
步骤4.2:所述新闻舆情预警终端接收步骤3中的命名实体矩阵及其置信概率矩阵P1和风险事件类别E2及其对应的置信概率P2;
步骤4.3:执行已配置好的预警规则R1,若触发预警规则R1中的阈值则输出预警信号,否则不输出。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求5-9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111634848.6A CN114492439A (zh) | 2021-12-27 | 2021-12-27 | 一种应用深度学习提升舆情预警准确率的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111634848.6A CN114492439A (zh) | 2021-12-27 | 2021-12-27 | 一种应用深度学习提升舆情预警准确率的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114492439A true CN114492439A (zh) | 2022-05-13 |
Family
ID=81495149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111634848.6A Pending CN114492439A (zh) | 2021-12-27 | 2021-12-27 | 一种应用深度学习提升舆情预警准确率的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492439A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN110162771A (zh) * | 2018-11-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 事件触发词的识别方法、装置、电子设备 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN110502638A (zh) * | 2019-08-30 | 2019-11-26 | 重庆誉存大数据科技有限公司 | 一种基于目标实体的企业新闻风险分类方法 |
US20190370089A1 (en) * | 2018-04-13 | 2019-12-05 | Banjo, Inc. | Notifying entities of relevant events |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111899090A (zh) * | 2020-07-14 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 企业关联风险预警方法及系统 |
CN112084336A (zh) * | 2020-09-09 | 2020-12-15 | 浙江综合交通大数据中心有限公司 | 一种高速公路突发事件的实体提取和事件分类方法及装置 |
WO2021081464A1 (en) * | 2019-10-24 | 2021-04-29 | Nickl Ralph | Systems and methods for identifying compliance-related information associated with data breach events |
CN113297283A (zh) * | 2020-11-12 | 2021-08-24 | 苏宁金融科技(南京)有限公司 | 用于企业风险预警的舆情分析方法及系统 |
CN113626717A (zh) * | 2021-09-16 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 一种舆情监测的方法、装置、电子设备和存储介质 |
-
2021
- 2021-12-27 CN CN202111634848.6A patent/CN114492439A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370089A1 (en) * | 2018-04-13 | 2019-12-05 | Banjo, Inc. | Notifying entities of relevant events |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN110162771A (zh) * | 2018-11-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 事件触发词的识别方法、装置、电子设备 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN110502638A (zh) * | 2019-08-30 | 2019-11-26 | 重庆誉存大数据科技有限公司 | 一种基于目标实体的企业新闻风险分类方法 |
WO2021081464A1 (en) * | 2019-10-24 | 2021-04-29 | Nickl Ralph | Systems and methods for identifying compliance-related information associated with data breach events |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111899090A (zh) * | 2020-07-14 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 企业关联风险预警方法及系统 |
CN112084336A (zh) * | 2020-09-09 | 2020-12-15 | 浙江综合交通大数据中心有限公司 | 一种高速公路突发事件的实体提取和事件分类方法及装置 |
CN113297283A (zh) * | 2020-11-12 | 2021-08-24 | 苏宁金融科技(南京)有限公司 | 用于企业风险预警的舆情分析方法及系统 |
CN113626717A (zh) * | 2021-09-16 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 一种舆情监测的方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
刘继;李磊;: "大数据背景下网络舆情智能预警机制分析", 情报杂志, no. 12, 13 November 2019 (2019-11-13), pages 92 - 97 * |
王红;李浩飞;邸帅;: "民航突发事件实体识别方法研究", 计算机应用与软件, no. 03, 12 March 2020 (2020-03-12), pages 166 - 172 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274394B (zh) | 一种实体关系的抽取方法、装置、设备及存储介质 | |
JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN110750993A (zh) | 分词方法及分词器、命名实体识别方法及系统 | |
CN112632980A (zh) | 一种基于大数据深度学习的企业分类方法、系统及电子设备 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN110245227B (zh) | 文本分类的融合分类器的训练方法及设备 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN110737770B (zh) | 文本数据敏感性识别方法、装置、电子设备及存储介质 | |
CN110751234A (zh) | Ocr识别纠错方法、装置及设备 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
CN112232070A (zh) | 自然语言处理模型构建方法、系统、电子设备及存储介质 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN110825874A (zh) | 一种中文文本分类方法和装置及计算机可读存储介质 | |
US11321527B1 (en) | Effective classification of data based on curated features | |
CN114254077A (zh) | 一种基于自然语言对稿件完整性的评估方法 | |
CN104199811A (zh) | 短句解析模型建立方法及系统 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN113470617B (zh) | 语音识别方法以及电子设备、存储装置 | |
CN114492439A (zh) | 一种应用深度学习提升舆情预警准确率的系统和方法 | |
CN114625860A (zh) | 一种合同条款的识别方法、装置、设备及介质 | |
CN112133308B (zh) | 一种用于语音识别文本多标签分类的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |