CN116128275A - 一种事件推演预测系统 - Google Patents

一种事件推演预测系统 Download PDF

Info

Publication number
CN116128275A
CN116128275A CN202111529416.9A CN202111529416A CN116128275A CN 116128275 A CN116128275 A CN 116128275A CN 202111529416 A CN202111529416 A CN 202111529416A CN 116128275 A CN116128275 A CN 116128275A
Authority
CN
China
Prior art keywords
index
event
unit
emotion tendency
user group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111529416.9A
Other languages
English (en)
Inventor
凡友荣
杨涛
姜国庆
曹文斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Third Research Institute of the Ministry of Public Security
Original Assignee
Third Research Institute of the Ministry of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Third Research Institute of the Ministry of Public Security filed Critical Third Research Institute of the Ministry of Public Security
Priority to CN202111529416.9A priority Critical patent/CN116128275A/zh
Publication of CN116128275A publication Critical patent/CN116128275A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种事件推演预测系统,属于大数据技术领域,包括:风险等级评估模块,预先构建基于网络的事件的风险评估指标体系,用于根据事件的相关数据确定风险评估指标体的指标参数,以实时评估事件的风险等级;情感倾向预测模块,用于提取用户群体的特征向量,根据预先训练好的情感倾向预测模型对特征向量进行处理,得到用户群体的情感倾向,进而计算得到用户群体的情感倾向分数。本发明提升社会预测力和科学决策力。

Description

一种事件推演预测系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种事件推演预测系统。
背景技术
现有的事件推演预测主要包括基于图结构组成事件链、基于情景构建进行事件模拟这两个方向。基于图结构组成事件链是首先将事件数据进行聚类去重,作为图结构的节点,然后通过马尔科夫链构建节点事件之间的关联,即为图结构中的边,从而构建体现事件关联的图结构,在此图结构的基础上预测每个节点事件的舆情发展趋势。基于情景构建进行事件模拟是根据分析得到的历史安全事件的关键要素和对应的过程信息,进行情景构建,或采用有向图和聚类结合算法获取电网突发事件多维量化指标和指标权重,形成安全事件推演模型。此外,相关技术也有针对文本数据进行情感分析,从而进行情感取向推演预测。
现有技术中缺乏针对事件的推演预测,并且多数是对事件节点发生概率的计算与预测,缺乏针对具体事件的分析和预测。在管理的实际应用场景中,需要对具体的事件进行安全等级的评估,从而帮助用户对事件的发展趋势进行判断;当政府计划出台重要政策时,需要对全网的情感倾向进行判断,对政策的调整提供参考信息,为保证社会的稳定提供及时的技术支撑。由于缺乏对管理工作中具体需求的调研,导致现有技术无法解决上述业务需求。因此针对以上问题,迫切需要设计出一种事件推演预测系统,以满足实际使用的需要。
发明内容
为了解决以上技术问题,本发明提供了一种事件推演预测系统。
本发明所解决的技术问题可以采用以下技术方案实现:
本发明提供一种事件推演预测系统,包括:
数据采集和处理模块,用于对网络媒体中的事件的相关数据进行自动化采集和处理;
风险等级评估模块,连接所述数据采集和处理单元,预先构建基于网络的事件的风险评估指标体系,用于根据所述事件的相关数据确定所述风险评估指标体的指标参数,以实时评估所述事件的风险等级;
情感倾向预测模块,连接所述数据采集和处理单元,用于从所述事件的相关数据中提取出用户群体的特征向量,根据预先训练好的情感倾向预测模型对所述特征向量进行处理,得到所述用户群体的情感倾向,进而根据所述情感倾向计算得到所述用户群体在所述网络媒体中的情感倾向分数。
上述的事件推演预测系统中,所述风险评估指标体系的指标参数包括所述事件的影响主体、各所述影响主体对应的一级指标和二级指标,所述影响主体包括事件自身、网络媒体、网民;
所述风险等级评估模块包括:
一级指标确定单元,用于基于德尔菲专家法确定每一所述影响主体对应的至少一所述一级指标;
二级指标确定单元,连接所述一级指标确定单元,用于基于层次分析法确定每一所述一级指标对应的至少一所述二级指标,并对所述二级指标进行归一化处理,得到指标评价矩阵;
综合评分单元,分别连接所述一级指标确定单元和所述二级指标确定单元,用于根据所述指标评价矩阵以及所述一级指标的第一指标评价权值和所述二级指标对应的第二指标评价权值得到所述事件的综合评分;
风险等级评估单元,连接所述综合评分单元,用于根据所述综合评分确定所述事件对应的预警等级。
上述的事件推演预测系统中,所述一级指标包括事件热度、事件敏感度、传播媒介覆盖率、影响范围、参与人员、态度分布中的一种或多种组合;
所述二级指标用以反映所述事件在网络媒体中的演化趋势和影响范围。
上述的事件推演预测系统中,所述综合评分单元采用下述公式得到所述事件的综合评分:
E=F*W*V
其中,F表示所述一级指标对应的所述第一指标评价权值;
W表示所述二级指标对应的所述第二指标评价权值;
V表示所述指标评价矩阵;
E表示所述事件的综合评分。
上述的事件推演预测系统中,所述二级指标确定单元还包括:
构建子单元,用于将所述风险评估指标体系中的二级指标进行两两比较,构建标度判断矩阵;
归一化子单元,连接所述构建子单元,用于对所述标度判断矩阵中的各列进行归一化处理;
处理子单元,连接所述归一化子单元,用于对归一化处理后所述标度判断矩阵中的各行进行加和处理,并进行归一化处理,构建第二矩阵;
特征处理子单元,连接所述处理子单元,用于对所述第二矩阵进行处理,得到所述第二矩阵的最大特征根;
效验子单元,连接所述特征处理子单元,用于根据所述最大特征根、所述二级指标以及随机一致性指标进行一致性检验,得到一致性率,并输出检验结果;
所述二级指标确定单元于所述检验结果表示一致性检验通过时对所述二级指标进行归一化处理得到所述指标评价矩阵,进而进行所述预警等级的确定。
上述的事件推演预测系统中,所述效验子单元采用下述公式进行一致性检验:
Figure SMS_1
Figure SMS_2
其中,n表示所述二级指标的总数量;
λmax表示所述第二矩阵的最大特征根;
CI表示一致性指标;
RI表示所述随机一致性指标;
CR表示所述一致性率。
上述的事件推演预测系统中,所述情感倾向预测模块包括:
用户群体划分单元,用于根据用户的特征向量对用户进行群体划分,得到基于特征向量的多类用户群体;
提取单元,连接所述用户群体划分单元,用于提取各所述用户群体在所述网络媒体中的所发表的评论,将所述评论以及所述评论对应的情感倾向量化值作为待训练数据;
训练单元,连接所述提取单元,用于根据所述待训练数据分别基于BERT模型训练得到每一所述用户群体分别对应的情感倾向预测模型;
预测单元,连接所述训练单元,用于将一所述用户群体所发表的评论输入训练好的所述情感倾向预测模型中,得到所述用户群体的情感倾向;
评分单元,连接所述预测单元,用于根据各所述用户群体在所述网络媒体中所发表的评论以及对应的所述情感倾向计算得到所述用户群体在所述网络媒体中的情感倾向分数。
上述的事件推演预测系统中,所述训练单元基于自注意力机制和多头注意力机制进行所述情感倾向预测模型的模型参数的训练。
上述的事件推演预测系统中,所述情感倾向预测模块采用下述公式计算得到所述用户群体在所述网络媒体中的情感倾向分数:
Figure SMS_3
其中,
Figure SMS_4
表示第C类所述用户群体在第i类所述网络媒体中所发表的评论总数;
ek表示所发表的第k条评论的情感倾向;
Figure SMS_5
表示第C类所述用户群体在第i类所述网络媒体的情感倾向分数。
上述的事件推演预测系统中,所述用户群体的特征向量包括用户账户特征集和用户行为特征集;
所述用户账户特征集包括性别、位置、账号创建时间、粉丝数、朋友账号、微博数以及关注数中的一个或多种组合;
所述用户行为特征集包括旅游、美食、音乐、幽默、生活、娱乐、电影、动漫、星座、时尚、数码、健康、新闻、体育、游戏、学生、军事、理财、科学、美女中的一个或多种组合。
本发明的有益效果在于:
本发明能够抓取全网对事件的相关新闻报道、论坛等数据,数据处理后,对具体的事件进行风险等级评估,以及网民对特定政策的情感倾向进行预测,从而提升社会预测力和科学决策力。
附图说明
图1为本发明较佳的实施例中,一种事件推演预测系统的结构框图;
图2为本发明较佳的实施例中,二级指标确定单元的结构框图;
图3为本发明较佳的实施例中,一种事件推演预测系统的架构示意图;
图4为本发明较佳的实施例中,风险评估指标体系的组成示意图;
图5为本发明较佳的实施例中,常见分词后的高频细粒度标签的示意图;
图6为本发明较佳的实施例中,情感倾向预测中政策情感倾向性的划分示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
参见图3,本发明实施例的事件推演预测系统包括采集层、分析层、呈现层;采集层用于采集包括但不限于微博、论坛、网媒、新闻、报刊以及其他等各网络媒体的网络数据,并进行处理,采集层可以进行关键词匹配、数据抓取,和/或清洗、去重,和/或三元组数据抽取,和/或数据融合,和/或语义智能索引,和/或分区存储,和/或与数据库交互,例如将数据更新至数据库,或从数据库获取数据;
分析层包括但不限于自动分析,和/或分类、聚类,和/或自动摘要,和/或情感分析,和/或图谱构建,和/或数据统计,和/或推演预测模型。
呈现层包括但不限于全网风险感知,和/或智能预警,和/或事件列表展示,和/或多维度统计展示,和/或事件趋势展示,和/或传播路径的交互式展示,和/或事件推演预测。
本发明实施例提供一种事件推演预测系统,属于大数据技术领域,如图1所示,包括:
数据采集和处理模块1,用于对网络媒体中的事件的相关数据进行自动化采集和处理;
风险等级评估模块2,连接数据采集和处理模块1,预先构建基于网络的事件的风险评估指标体系,用于根据事件的相关数据确定风险评估指标体的指标参数,以实时评估事件的风险等级;
情感倾向预测模块3,连接数据采集和处理模块1,用于从事件的相关数据中提取出用户群体的特征向量,根据预先训练好的情感倾向预测模型对特征向量进行处理,得到用户群体的情感倾向,进而根据情感倾向计算得到用户群体在网络媒体中的情感倾向分数。
具体的,现有技术中当事件发生时,将在相关新闻报道、论坛等网络媒体途径进行快速传播,网络媒体发布的文章则记录了事件的完整过程,并且是不断更新的,因此通过抓取和整合这些文章数据,能及时地跟踪相应事件的发展情况。本发明针对管理工作中的具体需求,通过实时抓取全网对事件的相关新闻报道、论坛等数据,自动化进行事件的相关数据的采集和处理,然后对具体的事件进行等级评估,并进行相应的预警提示;同时还可针对网民对特定政策的情感倾向进行预测,从而提升社会预测力和科学决策力。
作为优选的实施方式,其中,风险评估指标体系的指标参数包括事件的影响主体、各影响主体对应的一级指标和二级指标,影响主体包括事件自身、网络媒体、网民;
如图1所示,风险等级评估模块2包括:
一级指标确定单元21,用于基于德尔菲专家法确定每一影响主体对应的至少一一级指标;
二级指标确定单元22,连接一级指标确定单元21,用于基于层次分析法确定每一一级指标对应的至少一二级指标,并对二级指标进行归一化处理,得到指标评价矩阵;
综合评分单元23,分别连接一级指标确定单元21和二级指标确定单元22,用于根据指标评价矩阵以及一级指标的第一指标评价权值和二级指标对应的第二指标评价权值得到事件的综合评分;
风险等级评估单元24,连接综合评分单元23,用于根据综合评分确定事件对应的预警等级。
作为优选的实施方式,其中,一级指标包括事件热度、事件敏感度、传播媒介覆盖率、影响范围、参与人员、态度分布中的一种或多种组合;
二级指标用以反映事件在网络媒体中的演化趋势和影响范围。
作为优选的实施方式,其中,综合评分单元23采用下述公式得到事件的综合评分:
E=F*W*V
其中,F表示一级指标对应的第一指标评价权值;
W表示二级指标对应的第二指标评价权值;
V表示指标评价矩阵;
E表示事件的综合评分。
作为优选的实施方式,其中,如图2所示,二级指标确定单元22还包括:
构建子单元221,用于将风险评估指标体系中的二级指标进行两两比较,构建标度判断矩阵;
归一化子单元222,连接构建子单元221,用于对标度判断矩阵中的各列进行归一化处理;
处理子单元223,连接归一化子单元222,用于对归一化处理后标度判断矩阵中的各行进行加和处理,并进行归一化处理,构建第二矩阵;
特征处理子单元224,连接处理子单元223,用于对第二矩阵进行处理,得到第二矩阵的最大特征根;
效验子单元225,连接特征处理子单元224,用于根据最大特征根、二级指标以及随机一致性指标进行一致性检验,得到一致性率,并输出检验结果;
二级指标确定单元22于检验结果表示一致性检验通过时对二级指标进行归一化处理得到指标评价矩阵,进而进行预警等级的确定。
作为优选的实施方式,其中,效验子单元225采用下述公式进行一致性检验:
Figure SMS_6
Figure SMS_7
其中,n表示二级指标的总数量;
λmax表示第二矩阵的最大特征根;
CI表示一致性指标;
RI表示随机一致性指标;
CR表示一致性率。
具体的,在本实施例中,特定的事件在网络媒体中的风险程度主要受到事件自身、网络媒体、网民这三个主体的影响,从这三个影响主体出发,构建基于网络的事件的风险评估指标体系。如图4所示,风险评估指标体系共分为两个层级,一级指标包括事件热度、和/或事件敏感度、和/或传播媒介覆盖率、和/或影响范围、和/或参与人员、和/或态度分布,二级指标的选择需要充分考虑到可监测的客观数据特性,以较为全面地反映出事件在网络媒体中的演化趋势和影响范围。
对于一级指标,基于德尔菲专家法,采用的方式为发布调查问卷,征集从事网络舆情安全相关研究的专家、学者的意见,根据专家、学者的意见对一级指标进行赋值。
对于二级指标,基于层次分析法,将各层级的指标参数进行量化处理,通过分析风险评估指标体系中各个指标参数之间的关系,将同一层次的二级指标的具体参数两两比较,构建标度判断矩阵,计算标度判断矩阵的最大特征值,进行一次性检验,若一致性检验不通过,需对标度判断矩阵的赋值进行修正;若一致性检验通过后,才会对二级指标的具体参数数据行归一化处理,得到指标评价矩阵,同时融合一级指标、二级指标的指标评价权值,获得事件的综合评价分数,并确定出对应的预警等级,预警等级划分为一般、较大、重大、特大四个层级。
进一步的,一致性检验的具体步骤如下所示:
Step1:构建两两比较的标度判断矩阵R:
R=(rij)m*n
i=1,2,...,m;
j=1,2,...,n,m=n;
其中,i和j均表示二级指标的序号,且i不等于j;
rij表示第i个二级指标和第j个二级指标两两比较的标度;
R表示标度判断矩阵;
Step2:将标度判断矩阵R中的各列进行归一化处理:
Figure SMS_8
其中,r′ij表示各列进行归一化处理后的标度;
Step3:求R中各行元素加和,得到矩阵R”:
Figure SMS_9
其中,r′ij表示各行元素加和后的标度;
Step4:将矩阵R”进行归一化处理,构建第二矩阵W;
其中,归一化处理方式与上述标度判断矩阵R中的各列的归一化处理方式类似,在此不再赘述。
Step5:求第二矩阵W的最大特征根;
Step6:根据第二矩阵W的最大特征和二级指标的总数量计算一致性指标,进而根据一致性指标CI和随机一致性指标RI的比值计算一致性率CR,具体参见上述效验子单元225所采用的公式,在此不再赘述,进行一致性检验,只有当一致性检验通过,才会评估风险等级,即上述预警等级。
表一为事件的预警等级划分规则:
Figure SMS_10
具体的,预警等级包括一般、较大、重大、特大;以及对应的综合评价分数E如上表所示,综合评价分数E越大,预警等级越严重。每一种预警等级采用不同的颜色表示,例如深红色表示特大的事件,黄色表示一般的事件。
作为优选的实施方式,其中,情感倾向预测模块3包括:
用户群体划分单元31,用于根据用户的特征向量对用户进行群体划分,得到基于特征向量的多类用户群体;
提取单元32,连接用户群体划分单元31,用于提取各用户群体在网络媒体中的所发表的评论,将评论以及评论对应的情感倾向量化值作为待训练数据;
训练单元33,连接提取单元32,用于根据待训练数据分别基于BERT模型训练得到每一用户群体分别对应的情感倾向预测模型;
预测单元34,连接训练单元33,用于将一用户群体所发表的评论输入训练好的情感倾向预测模型中,得到用户群体的情感倾向;
评分单元35,连接预测单元34,用于根据各用户群体在网络媒体中所发表的评论以及对应的情感倾向计算得到用户群体在网络媒体中的情感倾向分数。
作为优选的实施方式,其中,训练单元33基于自注意力(attention)机制和多头注意力(transformer)机制进行情感倾向预测模型的模型参数的训练。
具体的,在获取待训练的样本及用户群体对其的情感倾向量化值之后,需要构建模型对已有的样本进行训练,从而获得针对特定的用户群体对其的情感倾向预测模型。本发明实施例基于attention机制与transformer机制进行模型参数训练,使用基于Transformer架构的文本特征提取算法,利用注意力机制对输入进行特征提取,并输出损失评价,从而训练模型参数。
Transformer架构包含编码器与解码器两个主要组成部分,本发明实施例主要使用编码器部分,利用其中的自注意力机制,实现对样本流量的内容特征提取。
作为优选的实施方式,其中,情感倾向预测模块3采用下述公式计算得到用户群体在网络媒体中的情感倾向分数:
Figure SMS_11
其中,
Figure SMS_12
表示第C类用户群体在第i类网络媒体中所发表的评论总数;
ek表示所发表的第k条评论的情感倾向;
Figure SMS_13
表示第C类用户群体在第i类网络媒体的情感倾向分数。
作为优选的实施方式,其中,用户群体的特征向量包括用户账户特征集和用户行为特征集;
用户账户特征集包括性别、位置、账号创建时间、粉丝数、朋友账号、微博数以及关注数中的一个或多种组合;
用户行为特征集包括旅游、美食、音乐、幽默、生活、娱乐、电影、动漫、星座、时尚、数码、健康、新闻、体育、游戏、学生、军事、理财、科学、美女中的一个或多种组合。
具体的,由于管理工作的用户数量巨大、特征维度众多,在聚类过程中,首先需要确认特征的维度有哪些,本发明基于用户的27维特征向量,具体包含7个用户账户特征以及20个用户行为特征。基于该特征向量,本发明实施例对用户进行群体划分,使用Kmeans无监督聚类算法对用户进行聚类划分,通过先聚类再分析各个用户群体的特征进行用户群体挖掘。
进一步的,Kmeans无监督聚类算法的优势在于能够找到隐藏群体,能够较为均匀的将用户划分为所需要的群体数量,可扩展性好。
进一步的,常见分词后的高频细粒度标签tag,参见图5,需注意的是图5中仅展示了高频细粒度标签tag的一部分。但是基于1000+维的特征向量,特征向量极为稀疏,无法有效进行聚类算法。为此,本发明实施例进一步将高频细粒度标签融合压缩。例如,将“听歌”这个标签融合进“音乐”这个标签中,使其特征维度大大降低,具体融合压缩不具体详述。
为此,我们提出使用词向量相似度匹配的方法,将低频tag转换为高频tag。首先,我们利用开源数据集,获得了针对微博数据的300d的词向量表。该词表包含有19万个微博常见词。
根据比对,出现频率前1000的tag词中有92%能够在该词向量表中查到,而完整的50000+的tag词中有59.3%的词能够在该词表中查到。简化数据的处理难度,我们只保留前1000条高频词作为用户聚类的特征维度并进行特征归化,并且通过人工筛选,选出20个主要的差异化较大的tag大类从而作为归化的目标,目标tag如下图5所示。
相似度值计算利用余弦相似度算法进行评估。为了降低阈值跳变导致的分类误差(即某个tag与tag A和tag B的关联性都很高,但A的相似度比B的高了0.01,就导致直接将tag分类为了tag A)本课题将保留所有相似度,求和后对组成向量进行线性归一化(softmax归一化导致区分度不够),将tag按权重分配到现有的20个tag中去。
其余特征维度包括:性别,位置,账号创建时间,粉丝数,朋友账号,微博数,关注数。其中,粉丝数需要清洗,中间存在干扰项“微博超话”的回复,以及其他异常虚高账号,为此对数据进行处理后归一化。
本发明提供一具体实施例进行阐释和说明:
根据用户特征的不同分布情况,针对如下五种用户群体作为研究和预测对象:
群体1:女性(1号标签),账号创建时间早,用户粉丝数在100-2000之间,无特殊标签;
群体2:男性(2号标签),账号创建时间早,用户粉丝数在100-2000之间,tag倾向于娱乐;
群体3:女性(3号标签),账号创建时间晚,用户粉丝数小于100,无用户标签;
群体4:女性(6号标签),账号创建时间早,用户粉丝数在100-2000之间,tag倾向于新闻;
群体5:男性(8号标签),账号创建时间早,用户粉丝数在100-2000之间,tag倾向于新闻;
基于上述用户群体划分,进行用户情感倾向建模与计算:提取上述5个特定用户群体的评论作为模型的待训练数据。
针对不同的用户群体,分别训练了某个特定的用户群体的情感倾向预测模型,例如,本发明需要捕捉社会民众对应政治的敏感性,即可训练得到基于政策的情感倾向预测模型。
为了降低整个模型的训练负载,本发明实施例基于BERT模型的中文预训练模型对样本数据进行fine-tuning训练,实现对情感分类任务的训练。进一步的,使用“bert-base-chinese”预训练bert模型,该模型使用了784个隐层单元,词典大小为21128。
训练获得的情感倾向预测模型能够在数据集上获得约97.5%的分类准确率。通过调用该情感倾向预测模型,能够实现对采集获得的微博评论进行高准确率的情感分类。例如,针对不同网络媒体下的评论的情感倾向进行统计分析,其中负面情感为7909条,正面情感为80312条,由于训练样本集中分类一般使用较为明确的负面样本标定,而正面样本的标定则更为粗糙,即将非负面样本归类至正面样本中。
在完成特定用户群体的情感评分后,对特定的网络媒体上某一用户群体进行情感倾向的统计分析,并进行可视化的展示。
进一步的,基于上述特定的用户群体的情感倾向预测模型的预测方法,统计待训练数据的样本在不同用户群体中的情感倾向情况,为了将情感倾向性划分为更为细粒度的不同类别,本发明基于统计数据,将统计获得的0-1分的情感倾向划分为5个部分,分别指代负面、较为负面、中立、较为正面、正面。划分的阈值为:[0,0.87,0.91,0.95,0.99,1],基于该划分阈值能够划分出较为均匀的五等分,参见图6。
基于该划分后的训练集,我们同样使用了基于bert模型的情感倾向预测模型构建,在训练过程中,模型能够获得较高的准确率,针对五个不同的用户群体,在训练集上均能够达到95%以上的准确率,随着训练轮次的增加,模型在训练集的精度将会进一步提升。
于上述较佳的实施例中,本发明实施例还可进行数据统计和发展趋势的预测展示。
采用上述技术方案的优点和有益效果在于:本发明能够抓取全网对事件的相关新闻报道、论坛等数据,数据处理后,对具体的事件进行风险等级评估,以及网民对特定政策的情感倾向进行预测,从而提升社会预测力和科学决策力。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (10)

1.一种事件推演预测系统,其特征在于,包括:
数据采集和处理模块,用于对网络媒体中事件的相关数据进行自动化采集和处理;
风险等级评估模块,连接所述数据采集和处理模块,预先构建基于网络的事件的风险评估指标体系,用于根据所述事件的相关数据确定所述风险评估指标体的指标参数,以实时评估所述事件的风险等级;
情感倾向预测模块,连接所述数据采集和处理模块,用于从所述事件的相关数据中提取出用户群体的特征向量,根据预先训练好的情感倾向预测模型对所述特征向量进行处理,得到所述用户群体的情感倾向,进而根据所述情感倾向计算得到所述用户群体在所述网络媒体中的情感倾向分数。
2.根据权利要求1所述的事件推演预测系统,其特征在于,所述风险评估指标体系的指标参数包括所述事件的影响主体、各所述影响主体对应的一级指标和二级指标,所述影响主体包括事件自身、网络媒体、网民;
所述风险等级评估模块包括:
一级指标确定单元,用于基于德尔菲专家法确定每一所述影响主体对应的至少一所述一级指标;
二级指标确定单元,连接所述一级指标确定单元,用于基于层次分析法确定每一所述一级指标对应的至少一所述二级指标,并对所述二级指标进行归一化处理,得到指标评价矩阵;
综合评分单元,分别连接所述一级指标确定单元和所述二级指标确定单元,用于根据所述指标评价矩阵以及所述一级指标的第一指标评价权值和所述二级指标对应的第二指标评价权值得到所述事件的综合评分;
风险等级评估单元,连接所述综合评分单元,用于根据所述综合评分确定所述事件对应的预警等级。
3.根据权利要求1所述的事件推演预测系统,其特征在于,所述一级指标包括事件热度、事件敏感度、传播媒介覆盖率、影响范围、参与人员、态度分布中的一种或多种组合;
所述二级指标用以反映所述事件在网络媒体中的演化趋势和影响范围。
4.根据权利要求1所述的事件推演预测系统,其特征在于,所述综合评分单元采用下述公式得到所述事件的综合评分:
E=F*W*V
其中,F表示所述一级指标对应的所述第一指标评价权值;
W表示所述二级指标对应的所述第二指标评价权值;
V表示所述指标评价矩阵;
E表示所述事件的综合评分。
5.根据权利要求1所述的事件推演预测系统,其特征在于,所述二级指标确定单元还包括:
构建子单元,用于将所述风险评估指标体系中的二级指标进行两两比较,构建标度判断矩阵;
归一化子单元,连接所述构建子单元,用于对所述标度判断矩阵中的各列进行归一化处理;
处理子单元,连接所述归一化子单元,用于对归一化处理后所述标度判断矩阵中的各行进行加和处理,并进行归一化处理,构建第二矩阵;
特征处理子单元,连接所述处理子单元,用于对所述第二矩阵进行处理,得到所述第二矩阵的最大特征根;
效验子单元,连接所述特征处理子单元,用于根据所述最大特征根、所述二级指标以及随机一致性指标进行一致性检验,得到一致性率,并输出检验结果;
所述二级指标确定单元于所述检验结果表示一致性检验通过时对所述二级指标进行归一化处理得到所述指标评价矩阵,进而进行所述预警等级的确定。
6.根据权利要求5所述的事件推演预测系统,其特征在于,所述效验子单元采用下述公式进行一致性检验:
Figure QLYQS_1
Figure QLYQS_2
其中,n表示所述二级指标的总数量;
λmax表示所述第二矩阵的最大特征根;
CI表示一致性指标;
RI表示所述随机一致性指标;
CR表示所述一致性率。
7.根据权利要求1所述的事件推演预测系统,其特征在于,所述情感倾向预测模块包括:
用户群体划分单元,用于根据用户的特征向量对用户进行群体划分,得到基于特征向量的多类用户群体;
提取单元,连接所述用户群体划分单元,用于提取各所述用户群体在所述网络媒体中的所发表的评论,将所述评论以及所述评论对应的情感倾向量化值作为待训练数据;
训练单元,连接所述提取单元,用于根据所述待训练数据分别基于BERT模型训练得到每一所述用户群体分别对应的情感倾向预测模型;
预测单元,连接所述训练单元,用于将一所述用户群体所发表的评论输入训练好的所述情感倾向预测模型中,得到所述用户群体的情感倾向;
评分单元,连接所述预测单元,用于根据各所述用户群体在所述网络媒体中所发表的评论以及对应的所述情感倾向计算得到所述用户群体在所述网络媒体中的情感倾向分数。
8.根据权利要求7所述的事件推演预测系统,其特征在于,所述训练单元基于自注意力机制和多头注意力机制进行所述情感倾向预测模型的模型参数的训练。
9.根据权利要求1所述的事件推演预测系统,其特征在于,所述情感倾向预测模块采用下述公式计算得到所述用户群体在所述网络媒体中的情感倾向分数:
Figure QLYQS_3
其中,
Figure QLYQS_4
表示第C类所述用户群体在第i类所述网络媒体中所发表的评论总数;
ek表示所发表的第k条评论的情感倾向;
Figure QLYQS_5
表示第C类所述用户群体在第i类所述网络媒体的情感倾向分数。
10.根据权利要求1所述的事件推演预测系统,其特征在于,所述用户群体的特征向量包括用户账户特征集和用户行为特征集;
所述用户账户特征集包括性别、位置、账号创建时间、粉丝数、朋友账号、微博数以及关注数中的一个或多种组合;
所述用户行为特征集包括旅游、美食、音乐、幽默、生活、娱乐、电影、动漫、星座、时尚、数码、健康、新闻、体育、游戏、学生、军事、理财、科学、美女中的一个或多种组合。
CN202111529416.9A 2021-12-14 2021-12-14 一种事件推演预测系统 Pending CN116128275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111529416.9A CN116128275A (zh) 2021-12-14 2021-12-14 一种事件推演预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111529416.9A CN116128275A (zh) 2021-12-14 2021-12-14 一种事件推演预测系统

Publications (1)

Publication Number Publication Date
CN116128275A true CN116128275A (zh) 2023-05-16

Family

ID=86303258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111529416.9A Pending CN116128275A (zh) 2021-12-14 2021-12-14 一种事件推演预测系统

Country Status (1)

Country Link
CN (1) CN116128275A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573809A (zh) * 2024-01-12 2024-02-20 中电科大数据研究院有限公司 一种基于事件图谱的舆情推演方法以及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573809A (zh) * 2024-01-12 2024-02-20 中电科大数据研究院有限公司 一种基于事件图谱的舆情推演方法以及相关装置
CN117573809B (zh) * 2024-01-12 2024-05-10 中电科大数据研究院有限公司 一种基于事件图谱的舆情推演方法以及相关装置

Similar Documents

Publication Publication Date Title
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
Misuraca et al. Sentiment Analysis for Education with R: packages, methods and practical applications
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN108304479B (zh) 一种基于图结构过滤的快速密度聚类双层网络推荐方法
CN106599065A (zh) 一种基于Storm分布式框架的食品安全网络舆情预警系统
Sharma et al. An artificial neural network based approach for sentiment analysis of opinionated text
CN109726747A (zh) 基于社交网络推荐平台的数据融合排序方法
Praciano et al. Spatio-temporal trend analysis of the brazilian elections based on twitter data
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
Ning et al. Calling for response: automatically distinguishing situation-aware tweets during crises
Zahra et al. A framework for user characterization based on tweets using machine learning algorithms
Song et al. Research on Kano model based on online comment data mining
CN116128275A (zh) 一种事件推演预测系统
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN117035568A (zh) 一种基于dmn规范的决策引擎设计方法
Wang et al. Towards fake news refuter identification: Mixture of Chi-Merge grounded CNN approach
Agarwal et al. A comprehensive study on various statistical techniques for prediction of movie success
Alhammadi Using machine learning in disaster tweets classification
CN114741515A (zh) 基于图生成的社交网络用户属性预测方法及系统
Ni [Retracted] Legal Early Warning of Public Crisis in Network Public Opinion Events Based on Emotional Tendency
Durga et al. A decision-making framework utilizing machine learning techniques, based on analysing the sentiment of tweets
Cao et al. A sentiment-enhanced corruption perception index
Demillo et al. Philippine national elections 2022: Voter preferences and topics of discussion on twitter
Singh et al. Identification of zonal-wise passenger’s issues in Indian railways using latent Dirichlet allocation (LDA): A sentiment analysis approach on tweets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination