CN117670017A

CN117670017A - 一种基于事件的风险识别方法、装置以及电子设备

Info

Publication number: CN117670017A
Application number: CN202310777692.XA
Authority: CN
Inventors: 范宏婷; 薛利; 赵慧婷; 赵博; 王砚溱; 李子烨
Original assignee: Shanghai Futures Information Technology Co ltd
Current assignee: Shanghai Futures Information Technology Co ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2024-03-08

Abstract

本发明涉及一种基于事件的风险识别方法、装置以及电子设备。方法包括：基于全量知识图谱G1和已知指定企业的维度信息，获取指定业务场景下指定企业的第一子图G2；基于舆情数据和预先定义的事理关系、专家知识库，采用事件识别和分类策略进行处理，获取事理图谱G3；基于舆情数据、指定业务场景及风险分类标签，获取指定企业各业务场景的风险关注清单；基于历史风险库和所述第一子图G2、事理图谱G3、风险关注清单，获取以事件为起点的风险影响范围的推演分析结果。上述方法避免了现有知识抽取错误且能够实现风险因素识别‑风险粗筛‑风险精排‑风险重组的技术闭环，进而实现了对相似风险进行影响推演，传播相似性分析的目的。

Description

一种基于事件的风险识别方法、装置以及电子设备

技术领域

本发明实施例涉及计算机数据处理领域，具体涉及一种基于事件的风险识别方法、装置以及电子设备。

背景技术

现有技术中存在多个基于工商知识图谱或企业知识图谱对企业风险进行识别或预警的方法，但是这些方法在具体的实现过程中均存在片面性，由于舆情和事件之间存在较多的关联，在现有技术中仅仅是对舆情或某一个事件进行分析或归类处理，导致风险预警不准确。

另外，现有技术中公布号为CN114519524A的发明专利申请提供一种基于知识图谱的企业风险预警方法，具体方案包括：构建目标企业与关联企业之间的关系图谱；根据关系图谱，收集目标企业的新闻事件和关联企业的新闻事件，得到新闻事件集；通过预设风险事件类型识别模型对新闻事件集中存在风险的新闻事件进行风险类型标记处理，得到风险事件集；通过预设企业风险等级评估模型对目标企业进行风险等级评估，生成对目标企业的风险等级评估信息；按照预设风险等级预警规则生成对目标企业的预警信息。上述方案虽然可以实现对企业的风险预警实现一定程度的评估，但是在具体是实现过程中并不能解决一词多义的问题，故导致事件识别和处理中存在模型识别不准确，倒是风险预测不全面，预警信息存在较大误差的技术问题。

鉴于此，本发明实施例提供一种期货行业的基于事件实现的对风险进行全面分析的方法。

发明内容

为了解决现有技术存在的问题，本发明的至少一个实施例提供了一种基于事件的风险识别方法、装置以及电子设备。

第一方面，本发明实施例提出一种基于事件的风险识别方法，其包括：

S10：基于预先构建的全量知识图谱G1和已知指定企业的维度信息，获取指定业务场景下指定企业的第一子图G2；

其中，所述全量知识图谱G1为借助于具有感知外部知识所属路径的基础网格编码器所属的LSTM对已知的全量数据的字符向量进行实体抽取，构建的知识图谱；

S20、基于指定时间段内的舆情数据和预先定义的事理关系、专家知识库，采用事件识别和分类策略进行处理，获取事理图谱G3；

S30、基于指定时间段内的舆情数据、指定业务场景及风险分类标签，获取指定企业各业务场景的风险关注清单；

S40、基于历史风险库和所述第一子图G2、事理图谱G3、风险关注清单，采用传播路径分析策略，获取以事件为起点的风险影响范围的推演分析结果。

可选地，所述S10之前，所述方法还包括：

S00：借助于具有感知外部知识所属路径的基础网格编码器所属的LSTM对已知的全量数据的字符向量进行实体抽取，构建全量知识图谱G1；

全量数据至少包括：工商数据、司法数据、财务数据和舆情数据。

可选地，所述S00包括：

S01、通过Skip-gram模型对输入的全量数据中的句子进行映射，获取句子中各字符的语义向量；

S02、利用位置嵌入方式确定实体对，以定义当前实体对到头部和尾部实体的相对距离，获取各字符的位置向量；

S03、基于各字符的语义向量和位置向量，借助于具有感知外部知识所属路径的基础网格编码器所属的LSTM进行分词处理，并输出具有标签的字符信息；

S04、将具有标签的字符信息输入关系分类器，得到全量数据中抽取的实体；

S05、基于抽取的实体和全量数据中的关系，构建全量知识图谱G1。

可选地，所述S10中：

所述指定企业的维度信息包括：指定企业的疑似实控人关系、指定企业的产业链上下游关系、指定企业的模型、指定企业的质押/担保关系、指定企业的抵押关系；

所述指定企业包括一个以上的工商中注册的当前存活的企业；

所述第一子图G2相对全量知识图谱G1的企业主体信息减少，企业主体的关系和企业主体的维度信息多元化。

可选地，预先定义的事理关系包括下述的一种或多种：逻辑链关系、因果关系、并发关系、条件关系、反转关系、顺承关系、反因果关系；

所述S20包括：

S21、基于预先定义的舆情类别和指定时间段内的舆情数据，采用N元文法模型N-Gram、组块分析Chunking、SRL词性标注方式依序处理，获取舆情数据中所有的有效信息代表；

S22、基于TF-IDF、TextRank、相似度计算WSC方式依序计算有效信息代表之间的权重；

S23、针对有效信息代表之间的权重，采用最大边界相关法MMR过滤相似性的有效信息代表，获得重要目标实体短语集合；

S24、根据舆情数据中的句子，基于所述事理关系，获取逻辑关系句子集合；

S25、对逻辑关系句子集合中的每一句子进行句法分析，得到逻辑句子句法分析结果集合；

S26、根据所述重要目标实体短语集合和逻辑关系句子集合进行匹配，得到目标实体事理逻辑关系集合；

S27、判断目标实体事理逻辑关系集合内是否存在category标签实体，若存在，则在逻辑句子句法分析结果集合中获取category标签实体主谓/介宾关系短语，形成重要事件要素；

否则，计算每个逻辑关系句子集合中各句对category标签实体的情感指标，得到逻辑关系标签实体情感指标；

S28、利用指定信息的专家知识库、逻辑句子句法分析结果集合寻找得出重要事件要素对category标签实体的影响趋势，得到专家知识标签实体影响趋势；

结合事件要素、逻辑关系标签实体情感指标及专家知识标签实体影响趋势，计算得出舆情事件影响趋势的概率，形成作为事理图谱G3的舆情事理图谱。

可选地，所述S30包括：

S31、基于人工定义各业务场景下业务环节及每一环节风险分类标签、重点目标实体清单，和所述第一子图G2、事理图谱G3，对所述事件进行风险点排查，提取风险点的风险因素之间的权重；

S32、利用词频-逆文本频率指数TFIDF、文本排序TextRank依序计算风险因素之间的权重，获取多业务场景下的风险分级信息；

S33、基于风险点的风险因素之间的权重，利用MMR过滤具有相似性实体代表，获得重要风险集合；

S34、对重要风险集合中所有元素进行重要目标实体的关系挖掘，得到目标实体最短路径集合，获取所有有效风险数据对；

S35、根据不同业务场景需求从所有有效风险数据对回收部分未成对的风险因素；

S37、计算未成对的每个风险因素对目前重点目标实体的影响的评估指标，并基于多业务场景下的风险分级信息对所有有效风险数据对进行风险等级的粗筛，形成粗排序结果集合；

S38、根据重点目标实体在不同业务场景关注维度的不同，形成针对不同重点目标实体的个性化风险关注度的精排清单；

S39、根据精排清单，所有有效风险数据对和重要风险集合，进行重组，得到风险关注清单。

可选地，所述S40包括：

S41、基于风险关注清单，将事理图谱G3中的风险因素作为起点，计算到终点风险影响主体点的最短路径；风险传导的过程，起点到最终目标路径的过程；

S42、计算以风险关注清单中的风险影响主体点为传播源的反向传播路径分析；

S43、对正向传播与反向传播进行多路径的模拟传播概览分析，获得最终的路径；

S44、根据正向传播和反向传播路径计算路径形式的发生概率，形成风险传播概率图；

S45、基于历史风险库，并根据事件的相似性及风险因素的相似性得出历史事件与当前事件的相似性，分析历史风险的影响趋势，提供风险建议，得到传导路径，传导概率图；

将传导路径，传导概率图作为以事件为起点的风险影响范围的推演分析结果。

第二方面，本发明实施例提出一种基于事件的风险识别装置，其包括：

第一获取单元，用于基于预先构建的全量知识图谱G1和已知指定企业的维度信息，获取指定业务场景下指定企业的第一子图G2；

第二获取单元，用于基于指定时间段内的舆情数据和预先定义的事理关系、指定信息的专家知识库，采用事件识别和分类策略进行处理，获取事理图谱G3；

第三获取单元，用于基于指定时间段内的舆情数据、指定业务场景及风险分类标签，获取指定企业各业务场景的风险关注清单；

第四获取单元，同于基于历史风险库和所述第一子图G2、事理图谱G3、风险关注清单，采用传播路径分析策略，获取以事件为起点的风险影响范围的推演分析结果。

第三方面，本发明还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面任一所述的一种基于事件的风险识别方法。

第四方面，本发明还提供一种电子设备，其包括处理器、存储器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如第一方面任一所述的一种基于事件的风险识别方法。

由此，本发明实施例的至少一个实施例中，在实体抽取过程中，将字级信息合并到字符序列输入中，以避免分割错误，利用先验知识对专业术语的多义性进行建模，从而避免歧义的问题，由此，避免了知识图谱构建过程中因一多义或分词不当引起的知识抽取错误问题；

在构建事理图谱时，充分考虑了行业短语的应用，避免行业短语因分词不当而造成语义不完整；去除相似性短语，保证实体的独立性和无冗余性；实现基于并发、条件、反转、顺承、因果和反因果逻辑链分析句子逻辑关系；利用句法结构，形成重要事件要素，从根本上保证了整个事理图谱趋势模型的可解释性；利用行业知识库，补充在关键短语提取阶段未能被寻找到的关键事件实体以及其对应的变化状态。

基于自建风险图谱，计算风险因素与目标主体的路径，实现针对风险因素识别-风险粗筛-风险精排-风险重组的技术闭环。

引入自建历史风险知识库，利用单点传导和反传播链进行正反双向分析，对相似的风险进行影响推演，传播相似性分析。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于事件的风险识别方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱这个网络具备以下3种特性：一是由节点(Point)和边(Edge)组成；二是每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”；三是知识图谱是关系的最有效的表示方式。

知识图谱构建一般包含实体抽取、关系抽取、知识表示、知识融合、图数据库几个步骤，具体如下：

实体抽取：实体抽取是指对非结构数据进行命名实体识别，识别出文本当中特定意义的实体。可以利用深度学习方法，使用诸如BERT等深度神经网络模型等对其进行识别。

关系抽取：关系抽取旨在从未经标注的自由文本中抽取实体间的关系，进而将实体与关系结构化为世界知识，并相应地扩充到知识图谱中。可以采用基于对抗训练机制的神经关系抽取模型，通过对抗训练机制更深层地抽取语言的语义信息，构建统一的语义空间。

知识表示：知识表示是指把知识客体中的知识因子与知识关联起来，便于人们识别和理解知识。可以采用以深度学习为代表的表示学习技术将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联。

知识融合：知识融合是高层次的知识组织，可以通过实体对齐等使来自不同知识源的知识在同一框架下进行异构数据整合，消歧，加工，推理，更新等。

图数据库：图数据库应用图形理论存储实体之间的关系信息。可以采用图数据库如Neo4j将知识图谱进行可视化展示。

实施例一

如图1所示，图1示出了本发明一实施例提供的基于事件的风险识别方法的流程示意图，在本实施例中，基于事件的风险识别方法可包括下述的步骤：

其中，所述全量知识图谱G1为借助于具有感知外部知识所属路径的基础网格编码器所属的LSTM对已知的全量数据的字符向量进行实体抽取，构建的知识图谱。

本实施例中，指定企业的维度信息可包括：指定企业的疑似实控人关系、指定企业的产业链上下游关系、指定企业的模型、指定企业的质押/担保关系、指定企业的抵押关系；

通常，指定企业可包括一个以上的工商中注册的当前存活的企业；

本实施例中第一子图G2相对全量知识图谱G1的企业主体信息减少，企业主体的关系和企业主体的维度信息多元化。

S20、基于指定时间段内的舆情数据和预先定义的事理关系、专家知识库，采用事件识别和分类策略进行处理，获取事理图谱G3。

本步骤中，预先定义的事理关系可包括下述的一种或多种：逻辑链关系、因果关系、并发关系、条件关系、反转关系、顺承关系、反因果关系。

S30、基于指定时间段内的舆情数据、指定业务场景及风险分类标签，获取指定企业各业务场景的风险关注清单。

举例来说，在实际应用中，在步骤S10之前，上述图1所示的方法还包括：

可理解的是S00可包括下述的图中未出的子步骤：

本实施例图1所示的方法可以改善知识图谱实体抽取时面临的一词多义及分词问题；且在构建事理图谱时，本实施例克服了现有技术的缺陷，现有技术的缺陷是常常忽略的行业短语的影响，常常因为行业短语被误分词而造成语义不完整；金融等行业常常面临两个及以上的词语代表同一个实体，如不去除，会导致图谱不完整，甚至出现无法正确抽取实体间的关系；现有事理图谱未能形成完整的逻辑链，致使难以分析实体间的逻辑关系；缺乏句法结构分析，常常遗漏重要事件要素，无法保证整个事理图谱趋势模型的可解释性；缺少行业知识库提供辅助支持等问题。

本实施例借助于S20至S40实现风险因素识别-风险粗筛-风险精排-风险重组的技术闭环，同时，解决了现有技术在进行风险传导分析时，视角较为单一，未能充分利用先验知识，缺乏对相似的历史风险进行相似性分析的缺陷。

具体地，上述步骤S20可包括下述的图中未示出的子步骤：

S21、基于预先定义的舆情类别和指定时间段内的舆情数据，采用N元文法模型(N-Gram)、组块分析(Chunking)、词性标注方式(SRL)依序处理，获取舆情数据中所有的有效信息代表；

S22、基于TF-IDF、TextRank、相似度计算(WSC)方式依序计算有效信息代表之间的权重；

例如，TextRank方法本身内部就具有权重计算，本步骤中重要的是WSC，即相似度计算，将提取出来的有效信息代表利用TF-IDF转为词向量，再利用欧式距离进行计算，距离越小，相似度越大，表示提取的有效信息代表很相似，则只需要保留一个，另一个为重复的。N维空间的欧式距离计算公式：

本实施例的方法在构建事理图谱时，充分考虑了行业短语的应用，避免行业短语因分词不当而造成语义不完整；去除相似性短语，保证实体的独立性和无冗余性；实现基于并发、条件、反转、顺承、因果和反因果逻辑链分析句子逻辑关系；利用句法结构，形成重要事件要素，从根本上保证了整个事理图谱趋势模型的可解释性；利用行业知识库，补充在关键短语提取阶段未能被寻找到的关键事件实体以及其对应的变化状态。

进一步地，上述步骤S30可包括下述的图中未示出的子步骤：

S32、利用词频-逆文本频率指数(TFIDF)、文本排序(TextRank)依序计算风险因素之间的权重，获取多业务场景下的风险分级信息；

本实施例中事理图谱中没有风险因素，所有风险因素均是风险关注清单中的信息。

在实际处理中，可基于自建风险图谱，计算风险因素与目标主体的路径，实现针对风险因素识别-风险粗筛-风险精排-风险重组的技术闭环。

另外，上述的步骤S40还可包括下述的图中未示出的步骤：

该处的风险建议可为在对应业务场景下，重点关注清单是否有风险，历史类似风险的结果分析等信息。

上述各子步骤中引入自建历史风险知识库，利用单点传导和反传播链进行正反双向分析，对相似的风险进行影响推演，传播相似性分析。

实施例二

本实施例还提供一种基于事件的风险识别方法，该方法包括下述步骤：

A1：构建全量工商图谱，根据企业的工商数据、司法数据、财务数据、舆情数据构建全量知识图谱G1；

举例来说，在进行实抽取时包含如下子步骤A11至A13：

A11：输入表示：将基于字符的句子作为直接输入，即将每个输入句子视为一个字符序列。给定一个由M个字符组成的句子s＝{c₁，c₂，...，c_M}，通过Skip-gram模型将每个字符c₁映射到d^c维向量，表示为此外，利用位置嵌入来指定实体对，实体对定义为当前角色到头部和尾部实体的相对距离。具体而言，从第i个字符c_i到两个标记实体的相对距离表示为/>和/>计算/>如下：

其中b¹和e¹是头部实体的开始和结束索引。的计算类似于等式1。然后，通过查找位置嵌入表，将/>和/>转换为两个对应的向量，表示为/>和/>最后，字符c_i的输入表示形式表示为/>由字符嵌入/>位置嵌入/>和/>连接起来：

模型的输入即是

A12：多粒度网格编码：通过基础网格LSTM改善分词问题，然后通过多粒度编码改善一词多义问题；

基础网格编码器可以明显地利用字符和字信息，但它不能完全考虑汉语的歧义。例如，单词w_2，3(牛市)他有两种意思，代表‘股市行情好’，/>代表‘牲畜牛的市场’，但w_2，3在基础网格LSTM编码器中只有一个意思，即/>为了解决这个问题，需构建一个更全面的词典，在模型中添加感知级路径作为外部知识来改进模型。用/>表示单词w_b，e的第k个意义。对于每个单词w_b，e，如果在词典D可以匹配到，则把它的所有意思表示都纳入计算。单词w_b，e的第k个意思的计算如下；

由此得到K个语义向量，分别输送到编码器的前一时刻进行变码；然后将K个向量合并输送到后一时刻进行编码。

A13：输出层关系分类器；例如，在编码学习的隐藏状态后，采用字符级注意机制将h合并为句子级特征向量，表示为/>这里，d^h表示隐藏状态的维数，M表示序列长度。然后，将最后的句子表示h^*输入softmax分类器，计算每个关系的置信度。句子的表示形式h^*计算为h中所有字符特征向量的加权和：

H＝tanh(h)

α＝softmax(w^TH)

h^*＝hα^T

o＝Wh^*+b

P(y|S)＝softmax(o)

最终的损失函数为：

A2：根据不同的业务场景，筛选企业主体，对工商全量图进行裁剪，获与企业N度关系内的第一子图G2。

企业主体间的关系包括以下一种或几种关系：通过疑似实控人关系、产业链上下游关系、模型、质押/担保关系、抵押关系等。

A3：利用事件识别和事件分类，从指定时间段内的新闻舆情中识别风险事件，构建事理图谱G3。

举例来说，该步骤A3可包括A31至A312的子步骤：

A31、获取舆情数据(如事件eventNews)，预定义舆情类别；

A32、利用N-Gram+Chunking+SRL获取所有有效信息代表；

A33、利用TFIDF+TextRank+WSC计算有效信息代表之间的权重；A34、利用该权重+MMR过滤具有相似性实体代表，获得最终重要目标实体短语集合；

A35、切割eventNews句子，根据六种事理关系，提取逻辑关系句子集合(sentenceList)；

A36、对sentenceList_k进行重要目标实体短语匹配，得到目标实体事理逻辑关系集合；

A37、对sentenceList_k进行句法分析，形成逻辑句子句法分析结果集合(senAnList)；以及，对重要目标实体短语集合和逻辑关系句子集合进行匹配，得到目标实体事理逻辑关系集合；

A38、判断目标实体事理逻辑关系集合内是否有category标签实体，有，转A39；反之，转A310；

A39、在目标实体事理逻辑关系集合内有category标签实体时，根据senAnList寻找标签实体主谓/介宾关系短语，形成重要事件要素(eventElement)；

A310、在目标实体事理逻辑关系集合内没有category标签实体时，计算每个sentenceList_k对category标签实体的情感指标，，得到逻辑关系标签实体情感指标；

A311、引入专家知识库，并根据senAnList寻找得出eventElement对category标签实体的影响趋势，，得到专家知识标签实体影响趋势；

A312、根据A39和A310、A311结果，计算得出影响类别趋势的概率，并形成图谱，即得到趋势影响概率，构建Event_Relaton_Gram(事理图谱)。

A4：事件图谱与工商子图进行融合，生成新的时空事件风险图谱G4。

A5：基于时空事件风险图谱G4，构建风险分类模型，实现以事件为起点的风险影响范围的推演分析。

在步骤A5中，首先是获取多目标风险分类-用户关注度信息，接着获取风险传导与风险推演分析。

A51、获取事件(eventNews)和用户特征(target entity)；

A52、基于G2和G3对事件(eventNews)进行进行风险点排查，风险因素的识别提取，，提取风险点的风险因素之间的权重；

A53、TFIDF+TextRank计算风险因素的之间的权重，进行风险分级；

A54、利用权重+MMR过滤具有相似性实体代表，获得最终重要风险集合(RiskList)；

A55、对Risk List k进行重要目标实体的关系挖掘，得到目标实体最短路径集合，获取所有有效风险数据对，即(Risk List)-(target entity)；

A56、根据部分用户特征，从风险数据对里，快速召回部分未成对的风险因素；

A57、计算每个风险因素对目前重点目标实体的影响的评估指标，并基于多业务场景下的风险分级信息对所有有效风险数据对进行风险等级的粗筛，形成粗排序结果集合；

A58、根据重点目标实体的用户画像特征(即根据重点目标实体在不同业务场景关注维度的不同)，形成针对不同目标主体的个性化风险关注度的精排清单(Risk List-n)；

A59、根据Risk List-n，(Risk List)-(target entity)和Risk List，进行重组；得到风险关注清单。

进一步地，A60：基于事件(eventNews)，事理图谱G3和风险关注清单，预先构建的业务子图，计算到终点风险影响主体点的最短路径；风险传导的过程，起点到最终目标路径的过程。

该处是基于已有的工商数据的工商关系进行构图，利用边特征挖掘出图关系，包括：信贷、投资、担保、质押、仓储、交割；实现多图融合，事理图与工商子图进行融合，获得业务子图；

事件风险中提取到的事理图谱中的风险因素作为起点，计算到终点业务主体的最短路径；

A61、同时计算以业务主体为传播源的反传播路径分析即计算以风险关注清单中的风险影响主体点为传播源的反向传播路径分析；

A62、对正向传播与反向传播进行多路径的验证分析，获得最终的路径；

A63、根据正反路径计算路径形式的发生概率，形成风险传播概率图；

A64、引入历史风险库，并根据事件的相似性及风险因素的相似性得出历史事件与当前事件的相似性，分析历史风险的影响趋势，提供风险建议；得到传导路径，传导概率图，将传导路径，传导概率图作为以事件为起点的风险影响范围的推演分析结果。

上述方案中，在传统的TF-IDF算法上加入关键短语之间的权重计算，并引入WSC相似度计算，使得从舆情中提取的重要实体从词语级别提升至短语级别，保证被提取出短语的重要性，短语之间无冗余性，语义理解的完整性；例如提取的实体为“美元利率”这种短语级别，而不是“美元”或者“利率”这种词语级别，更好的保证语义被理解；

进一步地，利用权重+MMR最大边缘相关法，计算提取的重要短语之间的相似性，并去除具有一定相似性的短语，保证重要实体的独立性和无冗余性；例如提取的短语可能有“上海汇业律师事务所”以及“汇业律所”，但是这两个是一个意思，可以保留一个；

此外，简化六种事理逻辑，包括：并发、条件、反转、顺承、因果和反因果，利用规则，判断舆情中各句子之间的六种事理逻辑关系，并形成逻辑关系对，细化句子之间逻辑关系的同时，使事理逻辑关系提取过程标准化；

还有，对舆情中各句子的句法进行分析，创新地提出利用“主+谓”和“介+宾”的结构，提取重要短语实体的变化状态并拼合，形成重要事件要素，直观反映重要关系短语的变化状态，从根本上保证了整个事理图谱趋势模型的可解释性；例如提取的事件要素为“美元利率上升”或者“美元利率下降”，从根本上避免了模型无法获知重要短语实体变化状态的可能性；

创新地引入自建的期货行业专家知识库，补充在关键短语提取阶段未能被寻找到的关键事件实体以及其对应的变化状态，保证最终舆情类别变化趋势被充分找到的同时，从根本上保证了模型对于舆情类别趋势判断的准确性。

在处理中，还基于自建风险图谱，计算风险因素与目标主体的路径，实现针对风险因素识别-风险粗筛-风险精排-风险重组的技术闭环；并引入自建历史风险知识库，利用单点传导和反传播链进行正反双向分析，对相似的风险进行影响推演，传播相似性分析。

实施例三

根据本发明实施例的另一方面，本发明实施例还提供一种基于事件的风险识别装置，其包括：

根据本发明实施例的再一方面，本发明实施例还提供一种计算设备，该计算设备可包括：至少一个处理器、至少一个存储器、至少一个网络接口和/或其他的用户接口。计算设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本实施例的计算设备可以执行实施例一或实施例二所示的方法，其中，用户接口可以包括显示器、键盘或者点击设备(例如，鼠标或者触感板等。

可以理解，本实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

在本发明实施例中，处理器通过调用存储器存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器用于执行第一方面所提供的方法步骤。

上述本发明实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现成可编程门阵列(Field ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

另一方面，本发明实施例还提供一种计算机可读存储介质，其用于存储有计算机程序，所述计算机程序被处理器执行时实现上述任意实施例的方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，方法实施例的步骤之间除非存在明确的先后顺序，否则执行顺序可任意调整。所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于事件的风险识别方法，其特征在于，包括：

2.根据权利要求1所述的基于事件的风险识别方法，其特征在于，所述S10之前，所述方法还包括：

3.根据权利要求2所述的基于事件的风险识别方法，其特征在于，所述S00包括：

4.根据权利要求1所述的基于事件的风险识别方法，其特征在于，所述S10中：

5.根据权利要求1所述的基于事件的风险识别方法，其特征在于，预先定义的事理关系包括下述的一种或多种：逻辑链关系、因果关系、并发关系、条件关系、反转关系、顺承关系、反因果关系；

所述S20包括：

S23、针对有效信息代表之间的权重，采用最大边界相关法(MMR)过滤相似性的有效信息代表，获得重要目标实体短语集合；

6.根据权利要求1所述的基于事件的风险识别方法，其特征在于，所述S30包括：

7.根据权利要求1所述的基于事件的风险识别方法，其特征在于，所述S40包括：

8.一种基于事件的风险识别装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行如权利要求1-7任一所述的一种基于事件的风险识别方法。

10.一种电子设备，包括处理器、存储器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1-7任一所述的一种基于事件的风险识别方法。