CN111241300B

CN111241300B - 舆情预警以及风险传播分析方法、系统、设备及存储介质

Info

Publication number: CN111241300B
Application number: CN202010021613.9A
Authority: CN
Inventors: 季鹏; 闭思泽; 冯瑜; 范相儒; 程序
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2023-05-05
Anticipated expiration: 2040-01-09
Also published as: CN111241300A

Abstract

本发明提供一种基于知识图谱的实时负面舆情预警以及风险传播分析方法、系统、设备及存储介质，分析方法包括：S1.实时获取关注的不同领域板块的各类资讯，获取后封装成资讯数据流继续传递；S2.获取所述数据流中的资讯文本，然后对该资讯文本进行风险评级；S3.抽取数据流中资讯文本事件中的涉事主体；S4.根据所述涉事主体的相关信息，到构建的知识图谱中查询，获取该涉事主体的详细属性，同时识别风险通过该涉事主体可能扩散到的关联主体；S5.基于所述关联主体，计算其与所述涉事主体的关系强度，再结合风险等级，分析关联主体受风险传播的影响程度，得到关联风险评分；S6.将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。

Description

舆情预警以及风险传播分析方法、系统、设备及存储介质

技术领域

本发明涉及负面舆情预警以及风险传播领域，尤其涉及一种用在金融行业的基于知识图谱的实时负面舆情预警以及风险传播分析方法、系统、设备及存储介质。

背景技术

当前，为了应对市场风险，各大金融机构都会对各类新闻公告进行实时监控，对于其中负面舆情所涉及的公司或个人进行相应的重新评级和经营策略调整。这项任务通常都是由风险部门专业人员进行评估，但是需要整合处理的信息量巨大，几乎不可能短时间内找出所有可能的风险传播途径，因此人工预警缺乏实时性和全面性。

对新闻公告这类文本数据的风险评级属于自然语言处理(Natural LanguageProcessing,NLP)领域内最普遍的任务--文本分类。相关技术不断在迭代，从一开始的关键词词频统计到TF-IDF，再到SVM等机器学习方法。随着深度学习(Deep Learning)技术在不同研究领域获得突破，许多行业开始尝试采用该技术去学习数据的表示方式，发掘内在规律。

新闻公告数据中蕴含了很多实时信息，然而由于其非结构化的特点，导致计算机很难有效地使用。命名实体识别(Named Entity Recognition，NER)技术能够从非结构化文本中抽取出所需要的实体类型，比如人名、地名和组织机构名等，属于NLP领域的典型问题。抽取出的字段信息能够用于生成计算机可自动化处理的结构化文件。

如果说深度学习增强了计算机的感知能力，那么知识图谱(Knowledge Graph)则是增强了认知能力。知识图谱起源于上个世纪50年代，从引文网络开始到语义网，期间不断扩充和发展，吸收了哲学范畴中的“本体”概念用于知识组织和表达，逐渐使自然世界中的知识更易于计算机存储、加工和交互。知识图谱不仅仅是一个用三元组构建的图数据模型，它还包含了知识获取、知识表示、知识存储、知识融合、知识推理与挖掘等一系列技术。可以将多源异质的数据通过知识整合起来使得人工智能技术更贴合常识、更具可解释性。

图数据库能够作为知识图谱的载体，然而真实的图或者关系网络通常十分高维，难以计算。图嵌入(Graph Embedding)技术能够将图结构进行降维，根据实际情况构造低维向量空间，利用图嵌入算法将图的节点映射到该空间中。之后再进行图计算，只需很低的时间和空间复杂度。

上述现有技术存在以下缺陷：

1.文本分类预训练模型虽然不需要大量数据也能获得高准确度，但是比较“笨重”，模型体积大，计算占用资源多，比较耗时；而如果采用轻量模型，则需要大量的标注数据从零开始训练模型。

2.文本分类以及命名实体抽取算法都可以很好地代替人工，对负面舆情进行分类评级并从文章中找出事件的主体，从而量化该舆情对涉事主体的影响程度。然而，大多数情况下，风险分析人员除了需要了解该主体的风险级别之外，还需要知道舆情影响扩散之后，除涉事主体外，其他相关主体受影响的程度以及传播方式。

3.知识图谱可以很好地查询和展示出主体的直接关系(一度关系)和间接关系(二度关系)，但是很难找出没有联系却包含隐式关系的主体。比如，A、B企业具有类似的上下游供应商：C1→A→D1，C2→B→D2，C1、D1分别与C2、D2具有相似属性，B其实与A存在隐性的相似关系。如果某个负面舆情对A这类企业产生了影响，对C1、D1产生的影响可以通过查找知识图谱的实体关系得知，而对B产生的影响却无法挖掘到。

4.非结构化数据无法方便地用于模型计算，而用图嵌入技术得到的向量表示可解释性不足，在线计算用于服务出现异常难以快速修复。

5.当前针对舆情分析、风险传播以及评级调整中各技术大都是孤立或者少量配合使用，中间的数据交换通过人工完成，缺乏时效性和系统性。

发明内容

针对上述需求，本发明设计出了一种基于知识图谱的实时负面舆情预警以及风险传播分析方法，解决目前风险评估中效率低、时效性低、过于依赖专家经验、技术和数据未充分利用的问题。

本发明的一个方案是一种基于知识图谱的实时负面舆情预警以及风险传播分析方法，包括：

S1.实时获取关注的不同领域板块的各类资讯，获取后封装成资讯数据流继续传递；

S2.获取所述数据流中的资讯文本，然后对该资讯文本进行风险评级；

S3.抽取数据流中资讯文本事件中的涉事主体；

S4.根据所述涉事主体的相关信息，到构建的知识图谱中查询，获取该涉事主体的详细属性，同时识别风险通过该涉事主体可能扩散到的关联主体；

S5.基于所述关联主体，计算其与所述涉事主体的关系强度，再结合风险等级，分析关联主体受风险传播的影响程度，得到关联风险评分；

S6.将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。

本发明的方案中，步骤S2中，首先将未标注数据集分为小部分待手动标注数据集和大部分待自动标注数据集，对待自动标注数据集上进行推理预测，人工抽样审核预测结果，将所有可用的已标注数据用于训练小参数量模型，训练完的模型将其封装成接口等待调用。

本发明的方案中，步骤S3中，增加短期缓存，存储该段时间内处理过的新闻资讯文本向量，在一个新消息待处理之前，先和缓存内的文本向量计算相似度，相似度高于阈值则认为该新闻之前已经处理过，不再重复发送。

本发明的方案中，步骤S4中，基于所述知识图谱，形成多个真实实体-关系序列，基于这些序列，利用图嵌入算法，将高维不可进行数值计算的自然实体转化为低维可计算的实体向量。

本发明的方案中，所述关联主体包括显式关联主体和隐式关联主体；

所述显式关联主体为在知识图谱中与涉事主体有直接或间接关系的个体；

所述隐式关联主体为通过图嵌入计算，基于知识图谱中的关系图，利用图嵌入算法将实体向量化，得到embedding矩阵，然后查找到涉事主体的向量表示，计算出与涉事主体相似性最高的其他多个主体。

本发明的方案中，步骤S5中，显式关联主体与涉事主体之间的显式关系强度采用以下公式量化：

上式表示A对其他节点X的影响力，其中P(A，X)为A到X的所有关系路径p的集合，p为P(A，X)集合中的元素，也是一条关系序列；

其中，Q(A，X，r)表示AX之间关系r的取值，分母则表示所有与X存在关系r的取值总和。

本发明的方案中，步骤S5中，隐式关联主体与涉事主体之间的隐式关系强度的计算基于图嵌入算法获得的实体embedding矩阵，首先，查找涉事主体的向量表示V_A，然后利用以下公式涉事主体与其他各个主体的向量相似度：

选取相似度最高的多个主体作为隐式关联主体，相似度值即为AX之间的隐式关系强度；

显示关联主体与涉事主体之间也存在隐式联系，统一隐式关联与显示关联关系强度，采用关系强度计算公式：

S(A，X)＝λ_eSe(A，X)+λ_iSi(A，X)；

其中，S(A，X)代表AX之间关系总强度，λ_e与λ_i分别是显示关系强度和隐式关系强度系数。

本发明的另一个方案是一种基于知识图谱的实时负面舆情预警以及风险传播分析系统，包括：

实时资讯获取模块，用于实时获取关注的不同领域板块的各类资讯，获取后封装成资讯数据流传递给下一模块；

风险评级模块，从所述实时资讯获取模块中取出数据中的资讯文本，利用训练完成的风险评级模型对该资讯进行风险评级；

实体抽取模块，使用训练完成的实体识别模型抽取资讯文本事件中的涉事主体；

知识挖掘模块，该模块基于已构建的知识图谱，实现涉事主体详细属性查询和关联主体识别；

风险传播计算模块，其基于所述知识挖掘模块识别出的关联主体，计算其与涉事主体的关系强度，再结合风险评级模块推理得到的风险等级，分析关联主体受风险传播的影响程度，得到关联风险评分；

预警提示模块，将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。

本发明的再一种方案是一种分析设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述交易设备运行时，所述处理器与所述存储介质之间通过所述总线通信，所述处理器执行所述机器可读指令，以执行上述的分析方法的步骤。

本发明的再一种方案是一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的分析方法的步骤。

通过以上技术方案，基于知识图谱的实时负面舆情预警以及风险传播分析系统能够在线获取个人、企业等新闻公告内容；整合私有数据和公开数据构建知识图谱；抽取出新闻公告中的涉事主体；能够对新闻公告中的事件风险进行评级；结合知识图谱以及图嵌入技术，评估涉事主体受影响程度并找出风险传播路径；找出其他可能会受本事件影响的关联主体。

附图说明

图1为本发明的分析方法的流程图；

图2为本发明的分析方法的系统框架图；

图3为本发明的一种实施方式的模型蒸馏流程图；

图4为本发明的一种实施方式的知识图谱构建流程图。

具体实施方式

本发明涉及负面舆情预警以及风险传播领域在金融行业的应用，是一种基于企业工商、经营、交易、控股和投资等数据的知识图谱，通过实时获取负面舆情，进行涉事主体抽取、风险评级，从而分析相关企业受影响程度以及风险传播的方法。

图1为本发明的分析方法的流程图。如图1所示，本发明的基于知识图谱的实时负面舆情预警以及风险传播分析方法，包括：

S3.抽取数据流中资讯文本事件中的涉事主体；

此外，本发明的另一个方案是一种基于知识图谱的实时负面舆情预警以及风险传播分析系统，包括：

图2为本发明的分析方法的系统框架图。结合图1和图2，以下具体说明本发明通过上述分析系统实现上述分析方法的方案。

根据本发明的方案，实时资讯获取模块，用于实时获取关注板块(可以是金融、法律、经济等)的各类资讯，比如，新闻、公告、通告、处罚决议书、法律文书等多类型的公开信息。该模块主动获取之后封装成资讯数据流传递给下游。

风险评级模块，从实时资讯获取模块中取出数据中的资讯文本，利用训练完成的风险评级模型对该资讯进行评级，评级由低到高分为五级，代表对应的风险强度，最低为1，最高为5。设定一个风险阈值，当风险等级高于或等于该阈值之后，资讯数据流继续往下传递。如果风险低于阈值，可视为风险强度很小，不需要进行预警，结束该数据的处理流程。

实体抽取模块，该模块的输入也是数据流中的资讯文本，使用训练完成的实体识别模型抽取该文本事件中的涉事主体。

知识挖掘模块，该模块基于已构建的知识图谱，实现两个主要功能：涉事主体查询和关联主体识别。实体抽取模块能够从资讯文本汇总抽取出涉事主体的相关信息，比如公司名或机构号等。根据这些相关信息，到已有知识图谱中查询，获得该主体更详细的属性。另外，关联主体识别是指找出风险通过涉事主体传播可能扩散到的相关主体。

风险传播计算模块，改模块基于知识挖掘模块识别出的关联主体，计算其与涉事主体的关系强度，再结合风险评级模块推理得到的风险等级，分析关联主体受风险传播的影响程度，得到关联风险评分。

预警提示模块，通过前几个模块计算得出的高风险主体，关联主体以及关联风险评分，将这些信息通过短信、前端页面提示等途径提醒相关业务人员。

根据本发明的方案，进一步的，实时资讯获取模块从多个数据源在线抓取资讯，送入本系统的流式处理队列。然而，不同新闻源会在同一时段提供类似的或者完全相同的新闻，导致重复处理或者下游模块反复预警，因此需要在消息处理流程中增加去重功能。解决方案是增加一个短期缓存，存储该段时间内处理过的新闻资讯文本向量，在一个新消息待处理之前，先和缓存内的文本向量计算相似度，相似度高于阈值则认为该新闻之前已经处理过，不再重复发送。

风险评级模块分为训练以及推理两部分，运行在系统中的在线推理模型需要离线先训练好。背景技术中提到预训练模型对训练数据集的大小要求不高，且能取得较高的准确度。但是预训练模型的参数量级很大，在推理时需要占用大量的资源，而且通常推理速度也较慢。为了加快推理速度，增加并发度，通常在线部署参数量较少的模型。而这类模型要使用较多的标注数据从头开始训练，为了解决该问题，引入“模型蒸馏”进行参数训练。

模型蒸馏的整体流程见图3，首先将未标注数据集分为小部分待手动标注数据集和大部分待自动标注数据集。该方法只需标注少量数据，用于微调预训练模型。当预训练模型达到一定精度后，用它在待自动标注数据集上进行推理预测，人工抽样审核预测结果，将所有可用的已标注数据用于训练小参数量模型。训练完的模型将其封装成接口供主系统调用。

同理，由于命名实体识别也是预训练模型所具备的功能之一，因此实体抽取模块中的在线模型也可以采用模型蒸馏的方法进行训练。

知识挖掘模块依赖知识图谱支持，在本发明所涉及的场景中，需要构建有关企业、组织机构、个人以及金融产品的知识图谱。另外像集团拥有的子公司，组织具有的分支机构，可以视为子类。关系主要有控股、投资、交易、法人、任职、担保、转账、行政处罚、经营异常通报。属性因实体而异，一般而言，企业的工商信息(公司名称、公司法人、注册号、注册资金、统一社会信用代码、公司类型、注册地址、所在行政区划、经营范围、登记机关、从业人数、组织机构代码、邮编等)可以作为其基本属性；个人属性有姓名、性别、生日、籍贯以及证件号码等；组织机构包括政府机关、事业单位和社会团体，通常有名称、地址、邮编和联系方式等属性；金融产品的属性包含产品名称、产品描述、有效日期等。除了实体具有属性，某些关系也具有属性，比如：控股关系具有控股金额、控股比例、币种这些属性；任职包括职位、任职时间；交易关系包括交易频次、交易总额、交易均值等。根据应用场景不同，确定实体和关系的属性是否需要细化。

基于图谱，可以形成很多真实世界中的实体-关系序列，基于这些序列，利用图嵌入算法，能够将高维不可进行数值计算的自然实体转化为低维可计算的实体向量。比如，有些在图谱中没有联系却具有隐式相似性的实体，其向量相似度就会很高，从而挖掘出该实体对之间的隐含联系。

本发明中，知识图谱还能提供实体画像描述的附加功能，由于图谱整合了多源数据，各实体的属性以及关系能够很方便查询到，通过定义规则在不同维度上对个体进行聚类划分同时打上有含义的标签，从而增加了具有解释性的实体画像。

将构建完的知识图谱存入图数据库中。知识挖掘模块将实体抽取模块在线推理到的涉事主体送入图数据库中查询，得到该个体的所有属性，即该模块的涉事主体查询功能。并且，根据个体属性以及风险等级，可以评估出该个体受到风险影响的真实程度。

知识挖掘模块的另一个功能关联主体识别包括显式关联主体识别和隐式关联主体识别。显式关联主体是指在图谱中与涉事主体有直接或间接关系的个体。由于大型图谱中几乎所有节点都是相互连通的，为了减小计算的复杂度，将显式关联主体定义为与涉事主体关系距离小于等于N(N的值根据实际需求设置)的个体。关系距离是指能够将实体对连通的最短路径的中间节点数。比如A投资了B，A和B之间的关系距离就是0，直接相关；B投资了C，而A与C之间没有任何直接关系，则A与C的关系距离为1。以此类推，距离越远，涉事主体风险对相应显式关联主体影响越小。

隐式关联主体的识别需要借助图嵌入计算，基于图谱中的关系图，利用图嵌入算法将实体向量化，得到embedding矩阵。首先，查找到涉事主体的向量表示，然后计算出与涉事主体相似性最高的其他K个主体作为隐式关联主体。

当通过知识挖掘模块识别到显式关联和隐式关联主体，接下来需要借助风险传播计算模块计算涉事主体与关联实体之间的关系强度。

本发明中，用以下公式对显式关系强度进行量化：

上式表示A对其他节点X的影响力，其中P(A，X)为A到X的所有关系路径p的集合，因为两个实体之间可能不止一种关系。p为P(A，X)集合中的元素，也是一条关系序列。例如，p是A→X的间接路径，A到X需要经过中介B，AB之间关系强度为r1，BX之间关系强度为r2，则p＝{r1,r2}，AX之间的关系强度为r1乘以r2。根据定义，p的长度不能超过显性关系长度阈值N，否则，该路径提供的关系强度为0。不同关系在影响传播过程中的强度r不同，该数值可以根据实际场景、数据统计以及专家经验人为设定，r的取值范围为(0,1]。0到1之间的取值范围可以有效地表达关系在传递过程中的衰减现象，毕竟同等前提下，A直接与X交易，与A与B交易而B与X交易，这两种情况A对X的影响程度是不一样的。另外，除了每种关系具有不同的关系强度外，还有相应的个体关系权重。比如，A与X只有交易关系，但是交易金额只占X总交易金额的万分之一，显然，A对X产生不了太大的影响，因此给r加上权重项Q_r(A，X)使得关系强度更加合理，权重的计算方式如下：

其中，Qr(A，X，r)表示AX之间关系r的取值，分母则表示所有与X存在关系r的取值总和。至此，显示联系的关系强度便可进行量化计算。

隐式关系强度的计算基于图嵌入算法获得的实体embedding矩阵。首先，查找涉事主体的向量表示V_A，然后利用以下公式涉事主体与其他各个主体的向量相似度：

选取相似度最高的K个主体作为隐式关联主体，相似度值即为AX之间的隐式关系强度。

显然，显示关联主体与涉事主体之间也存在隐式联系，为了统一隐式关联与显示关联关系强度，引入关系强度计算公式：

S(A，X)＝λ_eSe(A，X)+λ_iSi(A，X)

其中S(A，X)代表AX之间关系总强度，λ_e与λ_i分别是显示关系强度和隐式关系强度系数。该系数可视具体场景进行调和，当更关注实体之间的直接联系时，可设置λe大于λ_i，反之则小于。

得出关系强度之后，结合舆情的风险评级可以计算出关联主体受该风险影响传播的关联风险评分。

预警提示模块会接受到上游模块反馈的涉事风险主体，关联主体以及关联风险评分。作为使用方与直接交互的模块，该模块可以有以下几个功能设置：

提示渠道设置：提示渠道包括短信、邮件、微信以及前端页面提醒等，可由使用者手动设定；

重点关注设置：设置若干主要关注的主体对象。

提示个数设置：设置提醒每次受风险影响程度最高的实体个数。

提醒频度设置：当未确认收到提示的情况下是否重复提醒，以及每隔多少时间提醒一次。

免打扰时段设置：处于休息时间时，可以选择不发送，直到下一个工作时间。

其他功能可根据实际需求额外扩充。

根据本发明的方案，本发明对比现有的风险预警系统有以下优势：

实时性，实时监控多个来源的新闻舆情，动态分析风险等级以及传播路径；

端到端，本发明技术方案在系统运行期间是一条完整的自动化流程，期间无需任何人为干预；

准确度高，本发明综合多种现有的前沿技术，基于多源数据，从不同角度分析建模，相比之前的技术更加可靠。

功能全面，本发明除了进行负面舆情预警以及风险传播分析以外，其中构建知识图谱以及图嵌入embedding矩阵还能衍生出其他功能。比如知识图谱能够描述企业画像，实体embedding向量能够应用于多种相似性匹配场景。

根据本发明的一种实施方式，在构建本发明系统过程中首先应该确定应用场景，然后基于该场景获取相应数据从而构建知识图谱。知识图谱构建的示例流程见图4。

首先是获取数据。将数据来源分为两大部分，一是金融机构积累的内部私有数据，通常包括客户注册信息，客户交易、转账以及使用产品的信息等，存储在关系型数据库或文件系统中。这类数据通常质量很高，由于是结构化的数据，也易于整理使用。在转化为知识图谱的过程中，有些数据表需要做相应的处理以提高图数据库的存储效率。比如，对于交易数据，在原始数据表中都是一条条交易记录，而如果在知识图谱中将每一条记录都视为一个交易关系，单个关系的信息价值不高，因此将该关系进行汇聚，将两个实体间的多条交易记录汇聚成具有交易频次，交易总金额，交易均值等属性的交易关系。另一类数据是公开数据，所有人都能够获取到。然而这类数据通常格式多样，包含文本、网页、表格、pdf和图片这些类型，想要从其中获取有效信息通常需要借助一些解析工具。在具体实施过程中，需要借助OCR技术将pdf和图片识别成文本信息，然后便可将其视为文本数据进行处理。在处理文本时，需要借助NLP中的关系抽取、指代消解等技术，从文本中抽取出三元组。处理网页数据时，首先分析网页结构，确定所需信息对应的标签名，将其抽取并整理成结构化的表格数据。对于表格数据，提取所需字段信息即可。

获取数据并处理之后，需要融合到同一图谱中。在真实的实施过程中，由于数据多源异质、参差不齐，合并通常会遇到实体对齐，属性融合的问题。对于该问题可以采用专家干预或者投票法，对实体和属性进行消歧。比如，某个企业在数据源1中显示法人为A，而其他两个数据源显示其法人为B，利用少数服从多数的原则进行消岐。至此，生成本发明中系统所依赖的知识图谱。

实时资讯获取模块为一个爬虫或者RPA系统，实时监控各类政企网站、新闻财经网站、公安法院网站、工商税务网站等。从这些数据源抓取新闻资讯存入Kafka，使用Flink这类流式处理框架进行实时消费。

具体实施例中，风险评级、实体抽取、知识挖掘、风险传播计算利用本发明提供的技术方案嵌入系统中即可，自动消费新闻资讯流，无需人工干预。将这几个模块的计算结果传递给预警模块即可。

最后，在预警提示模块中进行提示渠道设置、重点关注设置、提示个数设置、提醒频度设置以及免打扰时段设置，这样前端操作人员或相关风险部门人员便能实时获取到风险预警，及时做出应对策略。

根据本发明的上述方案，基于知识图谱的实时负面舆情预警以及风险传播分析系统能够在线获取个人、企业等新闻公告内容；整合私有数据和公开数据构建知识图谱；抽取出新闻公告中的涉事主体；能够对新闻公告中的事件风险进行评级；结合知识图谱以及图嵌入技术，评估涉事主体受影响程度并找出风险传播路径；找出其他可能会受本事件影响的关联主体。

以上所述仅为本发明的一个实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的实时负面舆情预警以及风险传播分析方法，包括：

S3.抽取数据流中资讯文本事件中的涉事主体；

所述关联主体包括显式关联主体和隐式关联主体；

所述隐式关联主体为通过图嵌入计算，基于知识图谱中的关系图，利用图嵌入算法将实体向量化，得到embedding矩阵，然后查找到涉事主体的向量表示，计算出与涉事主体相似性最高的其他多个主体；

2.如权利要求1所述的分析方法，其特征在于，步骤S2中，首先将未标注数据集分为小部分待手动标注数据集和大部分待自动标注数据集，对待自动标注数据集上进行推理预测，人工抽样审核预测结果，将所有可用的已标注数据用于训练小参数量模型，训练完的模型将其封装成接口等待调用。

3.如权利要求1所述的分析方法，其特征在于，步骤S3中，增加短期缓存，存储该段时间内处理过的新闻资讯文本向量，在一个新消息待处理之前，先和缓存内的文本向量计算相似度，相似度高于阈值则认为该新闻之前已经处理过，不再重复发送。

4.如权利要求1所述的分析方法，其特征在于，步骤S4中，基于所述知识图谱，形成多个真实实体-关系序列，基于这些序列，利用图嵌入算法，将高维不可进行数值计算的自然实体转化为低维可计算的实体向量。

5.如权利要求1所述的分析方法，其特征在于，步骤S5中，显式关联主体与涉事主体之间的显式关系强度采用以下公式量化：

6.如权利要求1或5所述的分析方法，其特征在于，步骤S5中，隐式关联主体与涉事主体之间的隐式关系强度的计算基于图嵌入算法获得的实体embedding矩阵，首先，查找涉事主体的向量表示V_A，然后利用以下公式涉事主体与其他各个主体的向量相似度：

S(A，X)＝λ_eSe(A，X)+λ_iSi(A，X)；

7.一种基于知识图谱的实时负面舆情预警以及风险传播分析系统，其特征在于，包括：

知识挖掘模块，该模块基于已构建的知识图谱，实现涉事主体详细属性查询和关联主体识别；所述关联主体包括显式关联主体和隐式关联主体；所述显式关联主体为在知识图谱中与涉事主体有直接或间接关系的个体；所述隐式关联主体为通过图嵌入计算，基于知识图谱中的关系图，利用图嵌入算法将实体向量化，得到embedding矩阵，然后查找到涉事主体的向量表示，计算出与涉事主体相似性最高的其他多个主体；

8.一种分析设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述分析设备运行时，所述处理器与所述存储介质之间通过所述总线通信，所述处理器执行所述机器可读指令，以执行权利要求1至6任一项所述的分析方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行权利要求1至6任一项所述的分析方法的步骤。