CN116383399A - 一种事件舆情风险预测方法及系统 - Google Patents

一种事件舆情风险预测方法及系统 Download PDF

Info

Publication number
CN116383399A
CN116383399A CN202310198128.2A CN202310198128A CN116383399A CN 116383399 A CN116383399 A CN 116383399A CN 202310198128 A CN202310198128 A CN 202310198128A CN 116383399 A CN116383399 A CN 116383399A
Authority
CN
China
Prior art keywords
event
information
risk
node
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310198128.2A
Other languages
English (en)
Inventor
洪亮
鞠晓慧
徐青影
陈昊冉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310198128.2A priority Critical patent/CN116383399A/zh
Publication of CN116383399A publication Critical patent/CN116383399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明提供一种事件舆情风险预测方法及系统,属于深度学习技术领域,包括:采集原始事件信息序列和事件关联数据,预处理后得到事件信息序列;构建事件关联知识图谱后获得事件结点表示向量;由事件结点表示向量得到对象外部产业知识表示向量,由事件信息序列和对象外部产业知识表示向量得到事件信息表示向量;构建风险信息传导网络,将风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;将目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值。本发明能有效地从事件信息中学习目标对象相关的风险信息以及舆情风险在对象关联中和随时间的传导特征,具有良好的事件风险预测性能。

Description

一种事件舆情风险预测方法及系统
技术领域
本发明涉及深度学习技术领域,尤其涉及一种事件舆情风险预测方法及系统。
背景技术
舆情是指在一定的社会影响空间内围绕事件的产生、发展和变化,舆情不是对民意的简单规律概括,是作为参与者的公众对涉事方客体及其政策方向持有的社会综合态度。同时,也是较多群众对于各种社会问题和现象所表达的观点、信念、情绪、意见和态度等方面的客观表现,通常通过对社会因素和自然因素中的客观影响信息进行收集之后,进行综合分析获得的影像因素呈现载体。
其中,在金融领域,金融舆情风险是指由于舆情事件的客观影响造成公司股票或资产组合价值偏离预期的可能,常用的衡量指标有波动性和累计异常收益等。累积异常收益(Cumulative Abnormal Returns,CAR)指一段时间内实际收益率相较于期望收益率的偏差,是研究特定事件对公司股票价格短期影响常用的分析指标,当累积异常收益为正值时,表明事件对公司产生了正面影响,反之则为负面影响。CAR值能够快速反应出金融舆情产生的影响并且尽可能的排除市场中其他共性因素的指标。金融新闻作为投资者了解公司、行业乃至金融市场的经营运行状况的主要信息源,是投资者进行资产配置的重要参考,在一定程度上反映了新闻相关实体的金融舆情风险,相关研究证实了金融新闻与风险指标间的关联性。在金融市场上,金融新闻作为投资者接触最广泛的信息渠道扮演者重要角色。现有基于金融新闻的预测模型有从新闻标题中抽取离散的事件要素作为新闻表示构建股票趋势预测模型;利用双向长短期记忆网络(Bi-Long Short Term Memory,Bi-LSTM)和注意力机制学习针对目标公司对新闻全文进行表示,有效地从新闻文本中提取公司相关的风险特征;利用门控循环单元(Gated Recurrent Unit,GRU)对公司相关的时序新闻建模并通过注意力机制对序列的隐状态向量聚合,从而预测公司股票趋势;将上市公司相关历史事件信息作为考虑的影响因素,利用LSTM对事件序列和市场数据编码作为股票状态表示,并应用多关系型图卷积神经网络(Graph Convolutional Network,GCN)学习股票间影响等。此外,知识关联是指知识之间的各种联系,是对知识代表的事务本身存在的关联的反映,对事务间的关联进行分析并应用于生产生活实践中,能够产生更多的价值。相应的,在金融领域中,由于金融大数据存在着多角度、多层次的知识关联,知识关联不仅体现在银行、保险、基金等跨领域金融机构与企业之间的股权关联,还体现在金融风险与股权、舆情事件之间的复杂关联。金融新闻中通常会提及多家公司,同时陈述一些领域概念相关的事实和观点,由于公司间业务背景以及上下文中的语义倾向的差异,新闻给两家公司产生的影响也不尽相同,公司间复杂的关联关系制约着金融风险防范的有效性。现有的金融舆情风险预测中多采用凭借从业人员的个人从业经验来进行预测和防范,具有较强的主观性和局限性,不具备较强的普适性,推广的难度也较大。
此外,对金融风险的预测多半和新闻有关,新闻舆情的影响具有长期性和时变性,同时舆情风险传导机制复杂,目前金融舆情风险预测中面向股市指标预测的金融文本特征提取和新闻文本表示方法,虽然对新闻影响的长期性和关联性进行了分析,却忽略了新闻相关公司业务背景知识与新闻内容之间的关联性以及新闻影响传导过程中时序与关联因素的交互特征。另外,模型研究大多针对英文语料,使用的word2vec、glove等词嵌入方法在中文金融领域文本上的应用效果具有一定局限性。
发明内容
本发明提供一种事件舆情风险预测方法及系统,用以解决现有技术中针对事件舆情风险的预测方法普遍存在片面性,且过于依赖人工导致准确性不高的缺陷。
第一方面,本发明提供一种事件舆情风险预测方法,包括:
采集目标对象的原始事件信息序列和事件关联数据;
对所述原始事件信息序列进行预处理,得到事件信息序列;
基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;
将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;
基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;
基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;
将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;
基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
第二方面,本发明还提供一种事件舆情风险预测系统,包括:
采集模块,用于采集目标对象的原始事件信息序列和事件关联数据;
预处理模块,用于对所述原始事件信息序列进行预处理,得到事件信息序列;
构建模块,用于基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;
表示模块,用于将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;
搜索模块,用于基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;
传导模块,用于基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;
预测模块,用于将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;
预警模块,用于基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
本发明提供的事件舆情风险预测方法及系统,通过准确有效地从事件信息中挖掘针对目标对象相关的风险信息,并利用对象间知识关联学习风险信息在对象间随时间变化的传导模式,进而对目标对象在某时刻的事件舆情风险进行预测。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的事件舆情风险预测方法的流程示意图;
图2是本发明提供的事件舆情风险预测方法的整体结构图;
图3是本发明提供的公司产业表示模型结构图;
图4是本发明提供的金融新闻表示模型结构图;
图5是本发明提供的风险信息传导网络构建示意图;
图6是本发明提供的时序图神经网络层架构图;
图7是本发明提供的事件舆情风险预测系统的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有的事件舆情预测技术中存在的不足,本发明实施例提出的事件舆情风险预测方法,能融合外部关联知识,尤其适用于中文金融领域文本的分析,采用基于超平面翻译的知识图谱嵌入(Knowledge Graph Embedding by Translating on Hyperplanes,TransH)模型和双向Transformer编码器表示(Bidirectional Encoder Representationfrom Transformers,BERT)模型对外部关联知识的结构与语义特征进行编码,利用注意力机制进行特征融合,学习相关金融新闻针对特定公司的风险信息表示;还通过建模金融舆情风险时序传导方法,基于知识关联理论构建风险信息传导网络,并通过时序图注意力网络学习风险信息传导过程中时间因素和公司间关联的交互特征,进而预测风险指标。
图1是本发明实施例提供的事件舆情风险预测方法的流程示意图,如图1所示,包括:
步骤100:采集目标对象的原始事件信息序列和事件关联数据;
步骤200:对所述原始事件信息序列进行预处理,得到事件信息序列;
步骤300:基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;
步骤400:将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;
步骤500:基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;
步骤600:基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;
步骤700:将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;
步骤800:基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
具体地,首先采集目标对象相关的原始事件信息序列,并采集目标对象涉及的事件以及事件之间上下游的事件关联数据;对原始事件信息序列进行预处理,得到事件信息序列;利用事件关联数据构建事件关联知识图谱,学习获得事件结点表示向量;进一步地,对于事件信息序列中的信息,根据信息相关的对象在事件关联知识图谱中获取对象所涉及的事件结点表示向量,将事件结点表示向量输入基于注意力机制的神经网络,输出对象外部产业知识表示,并与对象名称字面表面进行融合作为引入的对象外部产业知识表示向量,然后将事件信息序列和对象外部产业知识表示向量输入基于层次化注意力机制的神经网络,训练上述神经网络并输出事件信息表示向量,作为事件信息针对特定对象的风险表示;对于目标对象,利用基于广度优先搜索(Breadth First Search,BFS)的风险信息传导网络构建算法获取目标对象及其相关对象在某时刻之前的相关事件信息,以及由这些事件信息作为结点,事件间时序关联作为边的针对目标对象在某时刻的风险信息传导网络;针对风险信息传导网络中的每个事件信息结点,根据事件信息风险表示作为该结点的表示向量,将风险信息传导网络输入时序图注意力网络(Time Graph Attention Networks,TGAT)中建模事件舆情风险的时序传导,输出目标对象在任一时刻风险表示向量;最后将目标对象在任一时刻风险表示向量输入一个全连接层中,训练该神经网络,最终输出目标对象任一时刻舆情风险预测值,并由该目标对象任一时刻舆情风险预测值生成对应的预警信息,使相关人员可以根据预警信息采用对应的风险应对策略来识别和防范对应的风险。
如图2所示,以金融领域为例(在后续实施例中均以金融领域为例),本发明实施例提出的事件舆情风险预测方法整体分为三个层次,第一层数据资源包括产业链图谱和公司间关联图谱,以目标公司“民生银行”,新闻数据“卢志强增持民生银行”,新闻日期为20160719为例;第二层金融新闻表示包括公司产业知识表示和新闻表示,由第一层中产业链图谱衍生的股份制银行、票据贴现和互联网理财,分别通过BERT模型加上平均池化、TransH模型,采用基于注意力机制的神经网络得到公司产业知识表示,同时针对目标公司、新闻摘要和多个正文段落,通过Bi-LSTM加上平均池化,采用分层次基于注意力机制的神经网络得到新闻表示;第三层金融舆情风险时序传导与预测通过构建风险信息传导网络,输入时序图注意力网络,得到最终的舆情风险预测值。
本发明基于注意力机制,利用金融领域丰富的知识关联对企业的金融舆情风险的传导进行建模,能够捕获舆情风险的关联性与时变性,从而提高风险预测的准确率,具有很高的使用和推广价值。
基于上述实施例,步骤100包括:
利用网络爬虫从公开网络获取所述目标对象的原始事件信息,根据发布时间、关联事件、信息摘要和信息正文将所述原始事件信息进行排列,形成所述原始事件信息序列;
确定所述目标对象所属事件类型,获取与所述事件类型相关联的事件上下游关联数据,形成所述事件关联数据。
具体地,本发明实施例以金融领域为例,针对企业相关的金融新闻序列,通过网络爬虫技术从公开的互联网金融证券媒体进行爬取,再将一系列金融新闻按照发布时间排列组成,每个新闻由发布时间、相关公司、新闻摘要、新闻正文组成,该原始产业关联数据包含了公司涉及的产业以及产业与产业之间的上下游关系。
基于上述实施例,步骤200包括:
基于事件内容对所述原始事件序列进行去重,得到去重后的事件信息序列;
将所述去重后的事件信息序列中的事件信息与所述事件关联数据中的事件信息进行对齐,得到对齐后的事件信息序列;
分别在所述对齐后的事件信息序列中的字符之间添加第一分隔符、句子之间添加第二分隔符以及段落之间添加第三分隔符,得到所述事件信息序列。
具体地,针对原始金融新闻序列的数据预处理包括:
首先将来自多个数据源的原始金融新闻序列根据新闻内容进行去重,然后将新闻相关的公司与产业关联数据中的公司进行对齐,最后分别对新闻摘要和正文进行分字、分句和分段处理,在字符之间添加第一分隔符“_”,在句子之间添加第二分隔符“<a>”,在段落之间添加第三分隔符“<p>”,能更好地与金融新闻的多层次编码进行匹配。
基于上述实施例,步骤300包括:
提取所述事件关联数据中的事件信息和对象信息,对所述事件信息和所述对象信息进行唯一性标识;
以所述事件信息和所述对象信息为结点,以对象和事件之间关联关系和事件之间上下游关系为边,构建所述事件关联知识图谱;
基于TransH模型对所述事件关联知识图谱进行表示学习,得到所述事件结点表示向量。
具体地,本发明实施例还需要对产业关联数据中的产业和公司进行唯一性标识,将产业和公司作为结点,将公司与产业间的涉及关系以及产业之间的上下游关系作为边,构建产业链知识图谱;针对图谱中结点之间存在一对多关系这一特点,本发明实施例利用TransH模型对产业链图谱进行表示学习,将产业链关联知识嵌入结点表示中,进而得到公司涉及的产业结点表示向量。
基于上述实施例,步骤400中的所述将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部知识表示向量,包括:
确定包括信息内容编码部分和注意力机制部分的对象外部产业知识表示模块;
确定所述信息内容编码部分包括文本编码层和序列编码层,所述序列编码层采用Bi-LSTM模型对信息摘要进行编码,输出查询值query;
确定所述注意力机制部分包括结点表示层和注意力融合层,所述结点表示层采用BERT模型对产业结点文本编码,输出键值key;
以事件结点表示向量为赋值value,结合所述查询值query和所述键值key,由所述注意力融合层进行加权融合,得到所述对象外部产业知识表示向量。
需要说明的是,本发明实施例中模型所涉及的底层文本字符编码采用基于大规模金融领域语料预训练的BERT模型,即FinBERT模型。
如图3所示的公司产业表示模型结构图,包括新闻内容编码部分和注意力机制部分。
新闻内容编码部分主要分为文本编码层和序列编码层,序列编码层采用Bi-LSTM模型,该部分对新闻摘要进行编码,将Bi-LSTM的最终状态输出作为注意力机制部分的查询query,是注意力机制部分能够根据新闻内容对公司涉及产业分配注意力权重。注意力机制部分分为结点表示层与注意力融合层,结点表示层利用BERT结合平均池化对产业结点文本编码作为结点的键值key,将结点TransH表示作为产业结点赋值value,最后由注意力融合层对结点表示加权融合输出公司外部产业知识表示向量。
基于上述实施例,步骤400中的所述将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量,包括:
采用文本编码层获取所述目标对象的对象名称文本编码和对象事件表示,将所述对象名称文本编码与所述对象事件表示输入基于Bi-LSTM模型的序列编码层,得到信息摘要表示;
采用双层Bi-LSTM模型对所述事件信息序列中信息正文每个段落的每个句子进行序列编码,获取信息段落级表示;
以所述信息摘要表示为查询值query,对所述信息段落级表示进行线性变换分别作为键值key和赋值value,通过注意力机制进行加权融合,得到所述事件信息表示向量。
具体地,如图4所示的金融新闻表示模型结构图,包括三个阶段:
第一阶段,针对特定公司对新闻摘要进行表示,该阶段神经网络分为文本编码层和序列编码层,其中,序列编码层采用Bi-LSTM模型,将公司名称文本编码与公司产业表示进行拼接作为初始状态输入Bi-LSTM中,对摘要编码后将最终状态输出作为新闻摘要表示;
第二阶段,新闻正文层次化编码,在进行字符级的文本编码后,该阶段利用双层的Bi-LSTM模型针对新闻正文每个段落,获取每个句子的表示后进一步进行序列编码获取段落级表示;
第三阶段,基于注意力机制的针对特定公司的金融新闻表示,该阶段将第一阶段输出的针对特定公司的新闻摘要表示作为注意力机制的查询query,将第二阶段输出的各个段落的表示进行线性变换分别作为键值key和赋值value,通过注意力机制对各个段落表示进行加权融合输出金融新闻表示向量,作为该金融新闻针对特定公司的风险表示。
本发明采用知识图谱嵌入技术,基于TransH模型和BERT模型对外部关联知识的结构与语义特征进行编码,对资本市场中错综复杂的产业关联信息与丰富的语义信息融合,结合注意力机制,将目标公司丰富的背景关联融入金融新闻风险信息挖掘流程中,从而实现针对性的评估金融新闻对特定公司造成的影响。
基于上述实施例,步骤500包括:
确定原始风险信息传导网络包括风险信息结点集合、风险信息传导边集、结点属性映射和边集属性映射;
确定所述风险信息结点集合中每个对象结点,由所述每个对象结点确定所述结点属性映射包括对象结点、时间戳和信息元组;
获取对象关联图、所述目标对象在任一时刻的事件信息以及所述任一时刻之前的事件信息序列子集;
在初始风险信息传导网络中构建第一时序结点,将所述第一时序结点加入候选结点队列;
从所述对象关联图找出所述目标对象的邻居结点,若确定在所述时间戳的信息元组属于所述事件信息序列子集,且所述信息元组对应的对象结点属于所述邻居结点,则构建第二时序结点,以及所述第一时序结点与所述第二时序结点之间的有向边;
将所述第二时序结点接入所述候选结点队列,将所述第一时序结点从所述候选结点队列中移除,对所述候选队列中其他结点重复上述操作,直到所述候选结点队列为空队列,得到所述风险信息传导网络。
具体地,本发明实施例将风险信息传导网络表示为GT(VT,ETTT),其中VT为风险信息结点集合,ΦT为结点属性映射,ET为风险信息传导边集,ΨT为边集属性映射。
对于每个结点uj,m∈VT,均有一个公司结点vj∈Vf,新闻元组newsm∈Sk,时间戳tm与之相对应,即ΦT(uj,m)=(vj,tm,newsm),GT的构建如算法风险信息传导网络构建所示。
算法:风险信息传导网络构建
输入:公司间关联图Gf(Vf,Efff),公司vi在时刻tk的新闻newsk,tk前金融新闻子集Sk
输出:风险信息传导网络GT(VT,ETTT)
Figure BDA0004108002430000111
首先,对于发生在tk时刻的新闻newsk以及该新闻对应的企业vi∈Vf,在风险信息传导网络GT中构建时序结点ui,k=(vi,tk)并加入候选结点队列C,在新闻序列中截取出tk时刻之前的新闻序列Sk,从公司关联图Gf中找出公司vi的邻居结点N(vi),如果存在tm时刻的新闻newsm∈Sk,且newsm对应的公司结点vj∈N(vi)∪{vi},则构建时序结点uj,m=(vj,tm,newsm)以及有向边ejm,ik=(uj,m,ui,k)表示uj,m结点的新闻风险可通过ejm,ik传导至ui,k,并将uj,m加入队列C。然后,将ui,k从C中移除并对C中其他结点重复上述操作直到C为空队列。
基于上述实施例,步骤600包括:
确定所述风险信息传导网络包括若干层时序图注意力网络,获取所述风险信息传导网络中的每个结点;
将所述每个结点上一层时序图注意力网络对应于所述每个结点的隐含层表示向量、事件信息表示向量、所述每个结点对应对象与邻居结点对应对象之间的关联嵌入向量以及所述每个结点的时间特征向量进行拼接,输入至当前层时序图;
确定采用0向量初始化第一层时序图注意力网络的隐含层表示向量,将最后一层时序图注意力网络的隐含层表示向量作为所述目标对象任一时刻风险表示向量。
具体地,本发明实施例中的时序图注意力网络由l个TGAT层堆叠而成,对于风险信息传导网络中的每个结点,将上一层TGAT对应于该节点的隐含层表示向量、金融新闻表示向量、该结点对应公司与邻居结点对应公司间关联嵌入向量以及该结点的时间特征向量进行拼接作为当前层TGAT中该结点对应的输入。
此处,采用0向量初始化结点在第一层的隐含层表示向量,并将最后一层TGAT输出的隐含层表示向量作为网络中结点对应的公司在相应时刻的风险表示向量,即目标企业任一时刻风险表示向量。
基于上述实施例,步骤700包括:
在所述预设神经网络中的全连接层,确定采用softmax函数对所述目标对象任一时刻风险表示向量的输出向量进行归一化,输出所述目标对象任一时刻舆情风险预测值。
具体地,在最后预测阶段,本发明实施例对于全连接层的输出,采用softmax函数对输出向量各维度归一化,最终输出目标企业任一时刻舆情风险预测值。
本发明通过采用时序图神经网络技术,能够将新闻序列与公司关联网络融合,进而发现时序因素和公司关联与新闻风险之间深层的交互特征,建模舆情风险传染的关联性与时变性,提升了风险预测的准确性。
下面以具体的实施例来进行说明,本发明实施例采用的神经网络模型为PyTorch1.10.1的深度学习框架,算法采用Python3.8.12编写,程序运行使用的计算机操作系统为CentOS7.9,GPU为NVIDA GeForce RTX3090。
将公司在某时刻的累积异常收益作为风险指标作为输入,训练模型预测目标公司在某时刻风险指标为正值或负值的可能性。模型的训练过程分为两阶段,第一阶段针对训练集中所有的金融新闻,将其相关公司在新闻发布时刻的风险指标作为预测目标值,采用十折交叉验证对金融新闻表示模型进行训练;第二阶段,利用第一阶段训练的模型对风险信息传到网络中的结点对应的金融新闻进行表示,给定训练集中目标企业以及该企业在某时刻的金融新闻,在风险信息传导网络找到对应结点,并以该结点为中心抽取三阶子图作为TGAT的输入,以目标企业在当前时刻的风险指标作为预测目标,对模型进行训练同时联合第一阶段的金融新闻表示模型进行微调。在第一阶段中,模型使用的FinBERT预训练维度dbert=768,产业链图谱嵌入维度dtrans=200,隐含层维度dh=100,第二阶段结点隐含表示向量维度df=200,时间编码空间维度dT=100,模型训练过程中,使用Adam作为参数优化器,学习率设置为0.0005,并将dropout系数设置为0.1。
本发明实施例中涉及的风险信息传导网络构建如图5所示,其中图5中的(a)为t0以及之前时刻的金融新闻序列,(b)为公司间关联,(c)为风险信息传导网络GT,news0对应公司关联网络中的公司a以及GT中的结点0,由于公司a及其关联邻居结点b、c、d在新闻序列S0中存在对应的新闻news1、news2、news3、news4所以在GT中构建相应的结点1、2、3、4,图5中虚线表示t0时刻各结点对于结点0的新闻风险传导路径。针对上述实施例中结点0的金融风险舆情传导建模如图6所示,将结点0作为中心,在风险信息传导网络GT抽取子图输入TGAT中,经过l层TGAT将结点隐含层表示输入全连接层,输出最终的预测结果。
下面对本发明提供的事件舆情风险预测系统进行描述,下文描述的事件舆情风险预测系统与上文描述的事件舆情风险预测方法可相互对应参照。
图7是本发明实施例供的事件舆情风险预测系统的结构示意图,如图7所示,包括:采集模块71、预处理模块72、构建模块73、表示模块74、搜索模块75、传导模块76、预测模块77和预警模块78,其中:
采集模块71用于采集目标对象的原始事件信息序列和事件关联数据;预处理模块72用于对所述原始事件信息序列进行预处理,得到事件信息序列;构建模块73用于基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;表示模块74用于将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;搜索模块75用于基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;传导模块76用于基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;预测模块77用于将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;预警模块78用于基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行事件舆情风险预测方法,该方法包括:采集目标对象的原始事件信息序列和事件关联数据;对所述原始事件信息序列进行预处理,得到事件信息序列;基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的事件舆情风险预测方法,该方法包括:采集目标对象的原始事件信息序列和事件关联数据;对所述原始事件信息序列进行预处理,得到事件信息序列;基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的事件舆情风险预测方法,该方法包括:采集目标对象的原始事件信息序列和事件关联数据;对所述原始事件信息序列进行预处理,得到事件信息序列;基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种事件舆情风险预测方法,其特征在于,包括:
采集目标对象的原始事件信息序列和事件关联数据;
对所述原始事件信息序列进行预处理,得到事件信息序列;
基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;
将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;
基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;
基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;
将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;
基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
2.根据权利要求1所述的事件舆情风险预测方法,其特征在于,所述采集目标对象的原始事件信息序列和事件关联数据,包括:
利用网络爬虫从公开网络获取所述目标对象的原始事件信息,根据发布时间、关联事件、信息摘要和信息正文将所述原始事件信息进行排列,形成所述原始事件信息序列;
确定所述目标对象所属事件类型,获取与所述事件类型相关联的事件上下游关联数据,形成所述事件关联数据。
3.根据权利要求1所述的事件舆情风险预测方法,其特征在于,所述对所述原始事件信息序列进行预处理,得到事件信息序列,包括:
基于事件内容对所述原始事件序列进行去重,得到去重后的事件信息序列;
将所述去重后的事件信息序列中的事件信息与所述事件关联数据中的事件信息进行对齐,得到对齐后的事件信息序列;
分别在所述对齐后的事件信息序列中的字符之间添加第一分隔符、句子之间添加第二分隔符以及段落之间添加第三分隔符,得到所述事件信息序列。
4.根据权利要求1所述的事件舆情风险预测方法,其特征在于,所述基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量,包括:
提取所述事件关联数据中的事件信息和对象信息,对所述事件信息和所述对象信息进行唯一性标识;
以所述事件信息和所述对象信息为结点,以对象和事件之间关联关系和事件之间上下游关系为边,构建所述事件关联知识图谱;
基于TransH模型对所述事件关联知识图谱进行表示学习,得到所述事件结点表示向量。
5.根据权利要求1所述的事件舆情风险预测方法,其特征在于,所述将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部知识表示向量,包括:
确定包括信息内容编码部分和注意力机制部分的对象外部产业知识表示模块;
确定所述信息内容编码部分包括文本编码层和序列编码层,所述序列编码层采用Bi-LSTM模型对信息摘要进行编码,输出查询值query;
确定所述注意力机制部分包括结点表示层和注意力融合层,所述结点表示层采用BERT模型对产业结点文本编码,输出键值key;
以事件结点表示向量为赋值value,结合所述查询值query和所述键值key,由所述注意力融合层进行加权融合,得到所述对象外部产业知识表示向量。
6.根据权利要求1所述的事件舆情风险预测方法,其特征在于,所述将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量,包括:
采用文本编码层获取所述目标对象的对象名称文本编码和对象事件表示,将所述对象名称文本编码与所述对象事件表示输入基于Bi-LSTM模型的序列编码层,得到信息摘要表示;
采用双层Bi-LSTM模型对所述事件信息序列中信息正文每个段落的每个句子进行序列编码,获取信息段落级表示;
以所述信息摘要表示为查询值query,对所述信息段落级表示进行线性变换分别作为键值key和赋值value,通过注意力机制进行加权融合,得到所述事件信息表示向量。
7.根据权利要求1所述的事件舆情风险预测方法,其特征在于,所述基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络,包括:
确定原始风险信息传导网络包括风险信息结点集合、风险信息传导边集、结点属性映射和边集属性映射;
确定所述风险信息结点集合中每个对象结点,由所述每个对象结点确定所述结点属性映射包括对象结点、时间戳和信息元组;
获取对象关联图、所述目标对象在任一时刻的事件信息以及所述任一时刻之前的事件信息序列子集;
在初始风险信息传导网络中构建第一时序结点,将所述第一时序结点加入候选结点队列;
从所述对象关联图找出所述目标对象的邻居结点,若确定在所述时间戳的信息元组属于所述事件信息序列子集,且所述信息元组对应的对象结点属于所述邻居结点,则构建第二时序结点,以及所述第一时序结点与所述第二时序结点之间的有向边;
将所述第二时序结点接入所述候选结点队列,将所述第一时序结点从所述候选结点队列中移除,对所述候选队列中其他结点重复上述操作,直到所述候选结点队列为空队列,得到所述风险信息传导网络。
8.根据权利要求1所述的事件舆情风险预测方法,其特征在于,所述基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量,包括:
确定所述风险信息传导网络包括若干层时序图注意力网络,获取所述风险信息传导网络中的每个结点;
将所述每个结点上一层时序图注意力网络对应于所述每个结点的隐含层表示向量、事件信息表示向量、所述每个结点对应对象与邻居结点对应对象之间的关联嵌入向量以及所述每个结点的时间特征向量进行拼接,输入至当前层时序图;
确定采用0向量初始化第一层时序图注意力网络的隐含层表示向量,将最后一层时序图注意力网络的隐含层表示向量作为所述目标对象任一时刻风险表示向量。
9.根据权利要求1所述的事件舆情风险预测方法,其特征在于,所述将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值,包括:
在所述预设神经网络中的全连接层,确定采用softmax函数对所述目标对象任一时刻风险表示向量的输出向量进行归一化,输出所述目标对象任一时刻舆情风险预测值。
10.一种事件舆情风险预测系统,其特征在于,包括:
采集模块,用于采集目标对象的原始事件信息序列和事件关联数据;
预处理模块,用于对所述原始事件信息序列进行预处理,得到事件信息序列;
构建模块,用于基于所述事件关联数据构建事件关联知识图谱,由所述事件关联知识图谱获得事件结点表示向量;
表示模块,用于将所述事件结点表示向量输入基于注意力机制的神经网络,得到对象外部关联知识表示向量,将所述事件信息序列和所述对象外部关联知识表示向量输入基于层次化注意力机制的神经网络,得到事件信息表示向量;
搜索模块,用于基于所述目标对象,采用基于广度优先搜索算法构建风险信息传导网络;
传导模块,用于基于所述事件信息表示向量,将所述风险信息传导网络输入时序图注意力网络,获得目标对象任一时刻风险表示向量;
预测模块,用于将所述目标对象任一时刻风险表示向量输入预设神经网络进行训练,得到目标对象任一时刻舆情风险预测值;
预警模块,用于基于所述目标对象任一时刻舆情风险预测值生成预警信息,利用所述预警信息输出风险应对策略。
CN202310198128.2A 2023-03-01 2023-03-01 一种事件舆情风险预测方法及系统 Pending CN116383399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310198128.2A CN116383399A (zh) 2023-03-01 2023-03-01 一种事件舆情风险预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310198128.2A CN116383399A (zh) 2023-03-01 2023-03-01 一种事件舆情风险预测方法及系统

Publications (1)

Publication Number Publication Date
CN116383399A true CN116383399A (zh) 2023-07-04

Family

ID=86962406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310198128.2A Pending CN116383399A (zh) 2023-03-01 2023-03-01 一种事件舆情风险预测方法及系统

Country Status (1)

Country Link
CN (1) CN116383399A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629237A (zh) * 2023-07-25 2023-08-22 江西财经大学 基于逐步集成多层注意力的事件表示学习方法及系统
CN116821374A (zh) * 2023-07-27 2023-09-29 中国人民解放军陆军工程大学 一种基于情报的事件预测方法
CN117131944A (zh) * 2023-10-24 2023-11-28 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统
CN117649117A (zh) * 2024-01-30 2024-03-05 浙江数洋科技有限公司 处置方案的确定方法、装置以及计算机设备
CN117649117B (zh) * 2024-01-30 2024-05-07 浙江数洋科技有限公司 处置方案的确定方法、装置以及计算机设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629237A (zh) * 2023-07-25 2023-08-22 江西财经大学 基于逐步集成多层注意力的事件表示学习方法及系统
CN116629237B (zh) * 2023-07-25 2023-10-10 江西财经大学 基于逐步集成多层注意力的事件表示学习方法及系统
CN116821374A (zh) * 2023-07-27 2023-09-29 中国人民解放军陆军工程大学 一种基于情报的事件预测方法
CN117131944A (zh) * 2023-10-24 2023-11-28 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统
CN117131944B (zh) * 2023-10-24 2024-01-12 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统
CN117649117A (zh) * 2024-01-30 2024-03-05 浙江数洋科技有限公司 处置方案的确定方法、装置以及计算机设备
CN117649117B (zh) * 2024-01-30 2024-05-07 浙江数洋科技有限公司 处置方案的确定方法、装置以及计算机设备

Similar Documents

Publication Publication Date Title
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
Li et al. Incorporating stock prices and news sentiments for stock market prediction: A case of Hong Kong
CN110889556B (zh) 一种企业经营风险特征数据信息提取方法和提取系统
CN111428054A (zh) 一种网络空间安全领域知识图谱的构建与存储方法
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN103778215A (zh) 一种基于情感分析和隐马尔科夫模型融合的股市预测方法
Ansari Cost-based text understanding to improve maintenance knowledge intelligence in manufacturing enterprises
Zhang et al. Aspect-based sentiment analysis for user reviews
CN113255321B (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
Jagdish et al. Identification of end-user economical relationship graph using lightweight blockchain-based BERT model
Zhang et al. A hybrid neural network approach for fine-grained emotion classification and computing
Zhang et al. Modeling and prediction of stock price with convolutional neural network based on blockchain interactive information
Addepalli et al. A proposed framework for measuring customer satisfaction and product recommendation for ecommerce
Repke et al. Extraction and representation of financial entities from text
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
Skondras et al. Efficient Resume Classification through Rapid Dataset Creation Using ChatGPT
Ziv et al. CompanyName2Vec: Company Entity Matching Based on Job Ads
CN113361259A (zh) 一种服务流程抽取方法
Li et al. Industry chain graph building based on text semantic association mining
Yamashita et al. JAMES: Job Title Mapping with Multi-Aspect Embeddings and Reasoning
Qin et al. A Numeral and Affective Knowledge Enhanced Network for Aspect-based Financial Sentiment Analysis
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备
Meisenbacher et al. Creating Data from Unstructured Text with Context Rule Assisted Machine Learning (CRAML)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination