CN111241300B - 舆情预警以及风险传播分析方法、系统、设备及存储介质 - Google Patents
舆情预警以及风险传播分析方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN111241300B CN111241300B CN202010021613.9A CN202010021613A CN111241300B CN 111241300 B CN111241300 B CN 111241300B CN 202010021613 A CN202010021613 A CN 202010021613A CN 111241300 B CN111241300 B CN 111241300B
- Authority
- CN
- China
- Prior art keywords
- subject
- risk
- information
- subjects
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 230000005540 biological transmission Effects 0.000 claims abstract description 7
- 238000004806 packaging method and process Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000005065 mining Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004821 distillation Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/382—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Animal Behavior & Ethology (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于知识图谱的实时负面舆情预警以及风险传播分析方法、系统、设备及存储介质,分析方法包括:S1.实时获取关注的不同领域板块的各类资讯,获取后封装成资讯数据流继续传递;S2.获取所述数据流中的资讯文本,然后对该资讯文本进行风险评级;S3.抽取数据流中资讯文本事件中的涉事主体;S4.根据所述涉事主体的相关信息,到构建的知识图谱中查询,获取该涉事主体的详细属性,同时识别风险通过该涉事主体可能扩散到的关联主体;S5.基于所述关联主体,计算其与所述涉事主体的关系强度,再结合风险等级,分析关联主体受风险传播的影响程度,得到关联风险评分;S6.将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。
Description
技术领域
本发明涉及负面舆情预警以及风险传播领域,尤其涉及一种用在金融行业的基于知识图谱的实时负面舆情预警以及风险传播分析方法、系统、设备及存储介质。
背景技术
当前,为了应对市场风险,各大金融机构都会对各类新闻公告进行实时监控,对于其中负面舆情所涉及的公司或个人进行相应的重新评级和经营策略调整。这项任务通常都是由风险部门专业人员进行评估,但是需要整合处理的信息量巨大,几乎不可能短时间内找出所有可能的风险传播途径,因此人工预警缺乏实时性和全面性。
对新闻公告这类文本数据的风险评级属于自然语言处理(Natural LanguageProcessing,NLP)领域内最普遍的任务--文本分类。相关技术不断在迭代,从一开始的关键词词频统计到TF-IDF,再到SVM等机器学习方法。随着深度学习(Deep Learning)技术在不同研究领域获得突破,许多行业开始尝试采用该技术去学习数据的表示方式,发掘内在规律。
新闻公告数据中蕴含了很多实时信息,然而由于其非结构化的特点,导致计算机很难有效地使用。命名实体识别(Named Entity Recognition,NER)技术能够从非结构化文本中抽取出所需要的实体类型,比如人名、地名和组织机构名等,属于NLP领域的典型问题。抽取出的字段信息能够用于生成计算机可自动化处理的结构化文件。
如果说深度学习增强了计算机的感知能力,那么知识图谱(Knowledge Graph)则是增强了认知能力。知识图谱起源于上个世纪50年代,从引文网络开始到语义网,期间不断扩充和发展,吸收了哲学范畴中的“本体”概念用于知识组织和表达,逐渐使自然世界中的知识更易于计算机存储、加工和交互。知识图谱不仅仅是一个用三元组构建的图数据模型,它还包含了知识获取、知识表示、知识存储、知识融合、知识推理与挖掘等一系列技术。可以将多源异质的数据通过知识整合起来使得人工智能技术更贴合常识、更具可解释性。
图数据库能够作为知识图谱的载体,然而真实的图或者关系网络通常十分高维,难以计算。图嵌入(Graph Embedding)技术能够将图结构进行降维,根据实际情况构造低维向量空间,利用图嵌入算法将图的节点映射到该空间中。之后再进行图计算,只需很低的时间和空间复杂度。
上述现有技术存在以下缺陷:
1.文本分类预训练模型虽然不需要大量数据也能获得高准确度,但是比较“笨重”,模型体积大,计算占用资源多,比较耗时;而如果采用轻量模型,则需要大量的标注数据从零开始训练模型。
2.文本分类以及命名实体抽取算法都可以很好地代替人工,对负面舆情进行分类评级并从文章中找出事件的主体,从而量化该舆情对涉事主体的影响程度。然而,大多数情况下,风险分析人员除了需要了解该主体的风险级别之外,还需要知道舆情影响扩散之后,除涉事主体外,其他相关主体受影响的程度以及传播方式。
3.知识图谱可以很好地查询和展示出主体的直接关系(一度关系)和间接关系(二度关系),但是很难找出没有联系却包含隐式关系的主体。比如,A、B企业具有类似的上下游供应商:C1→A→D1,C2→B→D2,C1、D1分别与C2、D2具有相似属性,B其实与A存在隐性的相似关系。如果某个负面舆情对A这类企业产生了影响,对C1、D1产生的影响可以通过查找知识图谱的实体关系得知,而对B产生的影响却无法挖掘到。
4.非结构化数据无法方便地用于模型计算,而用图嵌入技术得到的向量表示可解释性不足,在线计算用于服务出现异常难以快速修复。
5.当前针对舆情分析、风险传播以及评级调整中各技术大都是孤立或者少量配合使用,中间的数据交换通过人工完成,缺乏时效性和系统性。
发明内容
针对上述需求,本发明设计出了一种基于知识图谱的实时负面舆情预警以及风险传播分析方法,解决目前风险评估中效率低、时效性低、过于依赖专家经验、技术和数据未充分利用的问题。
本发明的一个方案是一种基于知识图谱的实时负面舆情预警以及风险传播分析方法,包括:
S1.实时获取关注的不同领域板块的各类资讯,获取后封装成资讯数据流继续传递;
S2.获取所述数据流中的资讯文本,然后对该资讯文本进行风险评级;
S3.抽取数据流中资讯文本事件中的涉事主体;
S4.根据所述涉事主体的相关信息,到构建的知识图谱中查询,获取该涉事主体的详细属性,同时识别风险通过该涉事主体可能扩散到的关联主体;
S5.基于所述关联主体,计算其与所述涉事主体的关系强度,再结合风险等级,分析关联主体受风险传播的影响程度,得到关联风险评分;
S6.将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。
本发明的方案中,步骤S2中,首先将未标注数据集分为小部分待手动标注数据集和大部分待自动标注数据集,对待自动标注数据集上进行推理预测,人工抽样审核预测结果,将所有可用的已标注数据用于训练小参数量模型,训练完的模型将其封装成接口等待调用。
本发明的方案中,步骤S3中,增加短期缓存,存储该段时间内处理过的新闻资讯文本向量,在一个新消息待处理之前,先和缓存内的文本向量计算相似度,相似度高于阈值则认为该新闻之前已经处理过,不再重复发送。
本发明的方案中,步骤S4中,基于所述知识图谱,形成多个真实实体-关系序列,基于这些序列,利用图嵌入算法,将高维不可进行数值计算的自然实体转化为低维可计算的实体向量。
本发明的方案中,所述关联主体包括显式关联主体和隐式关联主体;
所述显式关联主体为在知识图谱中与涉事主体有直接或间接关系的个体;
所述隐式关联主体为通过图嵌入计算,基于知识图谱中的关系图,利用图嵌入算法将实体向量化,得到embedding矩阵,然后查找到涉事主体的向量表示,计算出与涉事主体相似性最高的其他多个主体。
本发明的方案中,步骤S5中,显式关联主体与涉事主体之间的显式关系强度采用以下公式量化:
上式表示A对其他节点X的影响力,其中P(A,X)为A到X的所有关系路径p的集合,p为P(A,X)集合中的元素,也是一条关系序列;
其中,Q(A,X,r)表示AX之间关系r的取值,分母则表示所有与X存在关系r的取值总和。
本发明的方案中,步骤S5中,隐式关联主体与涉事主体之间的隐式关系强度的计算基于图嵌入算法获得的实体embedding矩阵,首先,查找涉事主体的向量表示VA,然后利用以下公式涉事主体与其他各个主体的向量相似度:
选取相似度最高的多个主体作为隐式关联主体,相似度值即为AX之间的隐式关系强度;
显示关联主体与涉事主体之间也存在隐式联系,统一隐式关联与显示关联关系强度,采用关系强度计算公式:
S(A,X)=λeSe(A,X)+λiSi(A,X);
其中,S(A,X)代表AX之间关系总强度,λe与λi分别是显示关系强度和隐式关系强度系数。
本发明的另一个方案是一种基于知识图谱的实时负面舆情预警以及风险传播分析系统,包括:
实时资讯获取模块,用于实时获取关注的不同领域板块的各类资讯,获取后封装成资讯数据流传递给下一模块;
风险评级模块,从所述实时资讯获取模块中取出数据中的资讯文本,利用训练完成的风险评级模型对该资讯进行风险评级;
实体抽取模块,使用训练完成的实体识别模型抽取资讯文本事件中的涉事主体;
知识挖掘模块,该模块基于已构建的知识图谱,实现涉事主体详细属性查询和关联主体识别;
风险传播计算模块,其基于所述知识挖掘模块识别出的关联主体,计算其与涉事主体的关系强度,再结合风险评级模块推理得到的风险等级,分析关联主体受风险传播的影响程度,得到关联风险评分;
预警提示模块,将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。
本发明的再一种方案是一种分析设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述交易设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行上述的分析方法的步骤。
本发明的再一种方案是一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的分析方法的步骤。
通过以上技术方案,基于知识图谱的实时负面舆情预警以及风险传播分析系统能够在线获取个人、企业等新闻公告内容;整合私有数据和公开数据构建知识图谱;抽取出新闻公告中的涉事主体;能够对新闻公告中的事件风险进行评级;结合知识图谱以及图嵌入技术,评估涉事主体受影响程度并找出风险传播路径;找出其他可能会受本事件影响的关联主体。
附图说明
图1为本发明的分析方法的流程图;
图2为本发明的分析方法的系统框架图;
图3为本发明的一种实施方式的模型蒸馏流程图;
图4为本发明的一种实施方式的知识图谱构建流程图。
具体实施方式
本发明涉及负面舆情预警以及风险传播领域在金融行业的应用,是一种基于企业工商、经营、交易、控股和投资等数据的知识图谱,通过实时获取负面舆情,进行涉事主体抽取、风险评级,从而分析相关企业受影响程度以及风险传播的方法。
图1为本发明的分析方法的流程图。如图1所示,本发明的基于知识图谱的实时负面舆情预警以及风险传播分析方法,包括:
S1.实时获取关注的不同领域板块的各类资讯,获取后封装成资讯数据流继续传递;
S2.获取所述数据流中的资讯文本,然后对该资讯文本进行风险评级;
S3.抽取数据流中资讯文本事件中的涉事主体;
S4.根据所述涉事主体的相关信息,到构建的知识图谱中查询,获取该涉事主体的详细属性,同时识别风险通过该涉事主体可能扩散到的关联主体;
S5.基于所述关联主体,计算其与所述涉事主体的关系强度,再结合风险等级,分析关联主体受风险传播的影响程度,得到关联风险评分;
S6.将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。
此外,本发明的另一个方案是一种基于知识图谱的实时负面舆情预警以及风险传播分析系统,包括:
实时资讯获取模块,用于实时获取关注的不同领域板块的各类资讯,获取后封装成资讯数据流传递给下一模块;
风险评级模块,从所述实时资讯获取模块中取出数据中的资讯文本,利用训练完成的风险评级模型对该资讯进行风险评级;
实体抽取模块,使用训练完成的实体识别模型抽取资讯文本事件中的涉事主体;
知识挖掘模块,该模块基于已构建的知识图谱,实现涉事主体详细属性查询和关联主体识别;
风险传播计算模块,其基于所述知识挖掘模块识别出的关联主体,计算其与涉事主体的关系强度,再结合风险评级模块推理得到的风险等级,分析关联主体受风险传播的影响程度,得到关联风险评分;
预警提示模块,将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。
图2为本发明的分析方法的系统框架图。结合图1和图2,以下具体说明本发明通过上述分析系统实现上述分析方法的方案。
根据本发明的方案,实时资讯获取模块,用于实时获取关注板块(可以是金融、法律、经济等)的各类资讯,比如,新闻、公告、通告、处罚决议书、法律文书等多类型的公开信息。该模块主动获取之后封装成资讯数据流传递给下游。
风险评级模块,从实时资讯获取模块中取出数据中的资讯文本,利用训练完成的风险评级模型对该资讯进行评级,评级由低到高分为五级,代表对应的风险强度,最低为1,最高为5。设定一个风险阈值,当风险等级高于或等于该阈值之后,资讯数据流继续往下传递。如果风险低于阈值,可视为风险强度很小,不需要进行预警,结束该数据的处理流程。
实体抽取模块,该模块的输入也是数据流中的资讯文本,使用训练完成的实体识别模型抽取该文本事件中的涉事主体。
知识挖掘模块,该模块基于已构建的知识图谱,实现两个主要功能:涉事主体查询和关联主体识别。实体抽取模块能够从资讯文本汇总抽取出涉事主体的相关信息,比如公司名或机构号等。根据这些相关信息,到已有知识图谱中查询,获得该主体更详细的属性。另外,关联主体识别是指找出风险通过涉事主体传播可能扩散到的相关主体。
风险传播计算模块,改模块基于知识挖掘模块识别出的关联主体,计算其与涉事主体的关系强度,再结合风险评级模块推理得到的风险等级,分析关联主体受风险传播的影响程度,得到关联风险评分。
预警提示模块,通过前几个模块计算得出的高风险主体,关联主体以及关联风险评分,将这些信息通过短信、前端页面提示等途径提醒相关业务人员。
根据本发明的方案,进一步的,实时资讯获取模块从多个数据源在线抓取资讯,送入本系统的流式处理队列。然而,不同新闻源会在同一时段提供类似的或者完全相同的新闻,导致重复处理或者下游模块反复预警,因此需要在消息处理流程中增加去重功能。解决方案是增加一个短期缓存,存储该段时间内处理过的新闻资讯文本向量,在一个新消息待处理之前,先和缓存内的文本向量计算相似度,相似度高于阈值则认为该新闻之前已经处理过,不再重复发送。
风险评级模块分为训练以及推理两部分,运行在系统中的在线推理模型需要离线先训练好。背景技术中提到预训练模型对训练数据集的大小要求不高,且能取得较高的准确度。但是预训练模型的参数量级很大,在推理时需要占用大量的资源,而且通常推理速度也较慢。为了加快推理速度,增加并发度,通常在线部署参数量较少的模型。而这类模型要使用较多的标注数据从头开始训练,为了解决该问题,引入“模型蒸馏”进行参数训练。
模型蒸馏的整体流程见图3,首先将未标注数据集分为小部分待手动标注数据集和大部分待自动标注数据集。该方法只需标注少量数据,用于微调预训练模型。当预训练模型达到一定精度后,用它在待自动标注数据集上进行推理预测,人工抽样审核预测结果,将所有可用的已标注数据用于训练小参数量模型。训练完的模型将其封装成接口供主系统调用。
同理,由于命名实体识别也是预训练模型所具备的功能之一,因此实体抽取模块中的在线模型也可以采用模型蒸馏的方法进行训练。
知识挖掘模块依赖知识图谱支持,在本发明所涉及的场景中,需要构建有关企业、组织机构、个人以及金融产品的知识图谱。另外像集团拥有的子公司,组织具有的分支机构,可以视为子类。关系主要有控股、投资、交易、法人、任职、担保、转账、行政处罚、经营异常通报。属性因实体而异,一般而言,企业的工商信息(公司名称、公司法人、注册号、注册资金、统一社会信用代码、公司类型、注册地址、所在行政区划、经营范围、登记机关、从业人数、组织机构代码、邮编等)可以作为其基本属性;个人属性有姓名、性别、生日、籍贯以及证件号码等;组织机构包括政府机关、事业单位和社会团体,通常有名称、地址、邮编和联系方式等属性;金融产品的属性包含产品名称、产品描述、有效日期等。除了实体具有属性,某些关系也具有属性,比如:控股关系具有控股金额、控股比例、币种这些属性;任职包括职位、任职时间;交易关系包括交易频次、交易总额、交易均值等。根据应用场景不同,确定实体和关系的属性是否需要细化。
基于图谱,可以形成很多真实世界中的实体-关系序列,基于这些序列,利用图嵌入算法,能够将高维不可进行数值计算的自然实体转化为低维可计算的实体向量。比如,有些在图谱中没有联系却具有隐式相似性的实体,其向量相似度就会很高,从而挖掘出该实体对之间的隐含联系。
本发明中,知识图谱还能提供实体画像描述的附加功能,由于图谱整合了多源数据,各实体的属性以及关系能够很方便查询到,通过定义规则在不同维度上对个体进行聚类划分同时打上有含义的标签,从而增加了具有解释性的实体画像。
将构建完的知识图谱存入图数据库中。知识挖掘模块将实体抽取模块在线推理到的涉事主体送入图数据库中查询,得到该个体的所有属性,即该模块的涉事主体查询功能。并且,根据个体属性以及风险等级,可以评估出该个体受到风险影响的真实程度。
知识挖掘模块的另一个功能关联主体识别包括显式关联主体识别和隐式关联主体识别。显式关联主体是指在图谱中与涉事主体有直接或间接关系的个体。由于大型图谱中几乎所有节点都是相互连通的,为了减小计算的复杂度,将显式关联主体定义为与涉事主体关系距离小于等于N(N的值根据实际需求设置)的个体。关系距离是指能够将实体对连通的最短路径的中间节点数。比如A投资了B,A和B之间的关系距离就是0,直接相关;B投资了C,而A与C之间没有任何直接关系,则A与C的关系距离为1。以此类推,距离越远,涉事主体风险对相应显式关联主体影响越小。
隐式关联主体的识别需要借助图嵌入计算,基于图谱中的关系图,利用图嵌入算法将实体向量化,得到embedding矩阵。首先,查找到涉事主体的向量表示,然后计算出与涉事主体相似性最高的其他K个主体作为隐式关联主体。
当通过知识挖掘模块识别到显式关联和隐式关联主体,接下来需要借助风险传播计算模块计算涉事主体与关联实体之间的关系强度。
本发明中,用以下公式对显式关系强度进行量化:
上式表示A对其他节点X的影响力,其中P(A,X)为A到X的所有关系路径p的集合,因为两个实体之间可能不止一种关系。p为P(A,X)集合中的元素,也是一条关系序列。例如,p是A→X的间接路径,A到X需要经过中介B,AB之间关系强度为r1,BX之间关系强度为r2,则p={r1,r2},AX之间的关系强度为r1乘以r2。根据定义,p的长度不能超过显性关系长度阈值N,否则,该路径提供的关系强度为0。不同关系在影响传播过程中的强度r不同,该数值可以根据实际场景、数据统计以及专家经验人为设定,r的取值范围为(0,1]。0到1之间的取值范围可以有效地表达关系在传递过程中的衰减现象,毕竟同等前提下,A直接与X交易,与A与B交易而B与X交易,这两种情况A对X的影响程度是不一样的。另外,除了每种关系具有不同的关系强度外,还有相应的个体关系权重。比如,A与X只有交易关系,但是交易金额只占X总交易金额的万分之一,显然,A对X产生不了太大的影响,因此给r加上权重项Qr(A,X)使得关系强度更加合理,权重的计算方式如下:
其中,Qr(A,X,r)表示AX之间关系r的取值,分母则表示所有与X存在关系r的取值总和。至此,显示联系的关系强度便可进行量化计算。
隐式关系强度的计算基于图嵌入算法获得的实体embedding矩阵。首先,查找涉事主体的向量表示VA,然后利用以下公式涉事主体与其他各个主体的向量相似度:
选取相似度最高的K个主体作为隐式关联主体,相似度值即为AX之间的隐式关系强度。
显然,显示关联主体与涉事主体之间也存在隐式联系,为了统一隐式关联与显示关联关系强度,引入关系强度计算公式:
S(A,X)=λeSe(A,X)+λiSi(A,X)
其中S(A,X)代表AX之间关系总强度,λe与λi分别是显示关系强度和隐式关系强度系数。该系数可视具体场景进行调和,当更关注实体之间的直接联系时,可设置λe大于λi,反之则小于。
得出关系强度之后,结合舆情的风险评级可以计算出关联主体受该风险影响传播的关联风险评分。
预警提示模块会接受到上游模块反馈的涉事风险主体,关联主体以及关联风险评分。作为使用方与直接交互的模块,该模块可以有以下几个功能设置:
提示渠道设置:提示渠道包括短信、邮件、微信以及前端页面提醒等,可由使用者手动设定;
重点关注设置:设置若干主要关注的主体对象。
提示个数设置:设置提醒每次受风险影响程度最高的实体个数。
提醒频度设置:当未确认收到提示的情况下是否重复提醒,以及每隔多少时间提醒一次。
免打扰时段设置:处于休息时间时,可以选择不发送,直到下一个工作时间。
其他功能可根据实际需求额外扩充。
根据本发明的方案,本发明对比现有的风险预警系统有以下优势:
实时性,实时监控多个来源的新闻舆情,动态分析风险等级以及传播路径;
端到端,本发明技术方案在系统运行期间是一条完整的自动化流程,期间无需任何人为干预;
准确度高,本发明综合多种现有的前沿技术,基于多源数据,从不同角度分析建模,相比之前的技术更加可靠。
功能全面,本发明除了进行负面舆情预警以及风险传播分析以外,其中构建知识图谱以及图嵌入embedding矩阵还能衍生出其他功能。比如知识图谱能够描述企业画像,实体embedding向量能够应用于多种相似性匹配场景。
根据本发明的一种实施方式,在构建本发明系统过程中首先应该确定应用场景,然后基于该场景获取相应数据从而构建知识图谱。知识图谱构建的示例流程见图4。
首先是获取数据。将数据来源分为两大部分,一是金融机构积累的内部私有数据,通常包括客户注册信息,客户交易、转账以及使用产品的信息等,存储在关系型数据库或文件系统中。这类数据通常质量很高,由于是结构化的数据,也易于整理使用。在转化为知识图谱的过程中,有些数据表需要做相应的处理以提高图数据库的存储效率。比如,对于交易数据,在原始数据表中都是一条条交易记录,而如果在知识图谱中将每一条记录都视为一个交易关系,单个关系的信息价值不高,因此将该关系进行汇聚,将两个实体间的多条交易记录汇聚成具有交易频次,交易总金额,交易均值等属性的交易关系。另一类数据是公开数据,所有人都能够获取到。然而这类数据通常格式多样,包含文本、网页、表格、pdf和图片这些类型,想要从其中获取有效信息通常需要借助一些解析工具。在具体实施过程中,需要借助OCR技术将pdf和图片识别成文本信息,然后便可将其视为文本数据进行处理。在处理文本时,需要借助NLP中的关系抽取、指代消解等技术,从文本中抽取出三元组。处理网页数据时,首先分析网页结构,确定所需信息对应的标签名,将其抽取并整理成结构化的表格数据。对于表格数据,提取所需字段信息即可。
获取数据并处理之后,需要融合到同一图谱中。在真实的实施过程中,由于数据多源异质、参差不齐,合并通常会遇到实体对齐,属性融合的问题。对于该问题可以采用专家干预或者投票法,对实体和属性进行消歧。比如,某个企业在数据源1中显示法人为A,而其他两个数据源显示其法人为B,利用少数服从多数的原则进行消岐。至此,生成本发明中系统所依赖的知识图谱。
实时资讯获取模块为一个爬虫或者RPA系统,实时监控各类政企网站、新闻财经网站、公安法院网站、工商税务网站等。从这些数据源抓取新闻资讯存入Kafka,使用Flink这类流式处理框架进行实时消费。
具体实施例中,风险评级、实体抽取、知识挖掘、风险传播计算利用本发明提供的技术方案嵌入系统中即可,自动消费新闻资讯流,无需人工干预。将这几个模块的计算结果传递给预警模块即可。
最后,在预警提示模块中进行提示渠道设置、重点关注设置、提示个数设置、提醒频度设置以及免打扰时段设置,这样前端操作人员或相关风险部门人员便能实时获取到风险预警,及时做出应对策略。
本发明的再一种方案是一种分析设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述交易设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行上述的分析方法的步骤。
本发明的再一种方案是一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的分析方法的步骤。
根据本发明的上述方案,基于知识图谱的实时负面舆情预警以及风险传播分析系统能够在线获取个人、企业等新闻公告内容;整合私有数据和公开数据构建知识图谱;抽取出新闻公告中的涉事主体;能够对新闻公告中的事件风险进行评级;结合知识图谱以及图嵌入技术,评估涉事主体受影响程度并找出风险传播路径;找出其他可能会受本事件影响的关联主体。
以上所述仅为本发明的一个实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于知识图谱的实时负面舆情预警以及风险传播分析方法,包括:
S1.实时获取关注的不同领域板块的各类资讯,获取后封装成资讯数据流继续传递;
S2.获取所述数据流中的资讯文本,然后对该资讯文本进行风险评级;
S3.抽取数据流中资讯文本事件中的涉事主体;
S4.根据所述涉事主体的相关信息,到构建的知识图谱中查询,获取该涉事主体的详细属性,同时识别风险通过该涉事主体可能扩散到的关联主体;
所述关联主体包括显式关联主体和隐式关联主体;
所述显式关联主体为在知识图谱中与涉事主体有直接或间接关系的个体;
所述隐式关联主体为通过图嵌入计算,基于知识图谱中的关系图,利用图嵌入算法将实体向量化,得到embedding矩阵,然后查找到涉事主体的向量表示,计算出与涉事主体相似性最高的其他多个主体;
S5.基于所述关联主体,计算其与所述涉事主体的关系强度,再结合风险等级,分析关联主体受风险传播的影响程度,得到关联风险评分;
S6.将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。
2.如权利要求1所述的分析方法,其特征在于,步骤S2中,首先将未标注数据集分为小部分待手动标注数据集和大部分待自动标注数据集,对待自动标注数据集上进行推理预测,人工抽样审核预测结果,将所有可用的已标注数据用于训练小参数量模型,训练完的模型将其封装成接口等待调用。
3.如权利要求1所述的分析方法,其特征在于,步骤S3中,增加短期缓存,存储该段时间内处理过的新闻资讯文本向量,在一个新消息待处理之前,先和缓存内的文本向量计算相似度,相似度高于阈值则认为该新闻之前已经处理过,不再重复发送。
4.如权利要求1所述的分析方法,其特征在于,步骤S4中,基于所述知识图谱,形成多个真实实体-关系序列,基于这些序列,利用图嵌入算法,将高维不可进行数值计算的自然实体转化为低维可计算的实体向量。
7.一种基于知识图谱的实时负面舆情预警以及风险传播分析系统,其特征在于,包括:
实时资讯获取模块,用于实时获取关注的不同领域板块的各类资讯,获取后封装成资讯数据流传递给下一模块;
风险评级模块,从所述实时资讯获取模块中取出数据中的资讯文本,利用训练完成的风险评级模型对该资讯进行风险评级;
实体抽取模块,使用训练完成的实体识别模型抽取资讯文本事件中的涉事主体;
知识挖掘模块,该模块基于已构建的知识图谱,实现涉事主体详细属性查询和关联主体识别;所述关联主体包括显式关联主体和隐式关联主体;所述显式关联主体为在知识图谱中与涉事主体有直接或间接关系的个体;所述隐式关联主体为通过图嵌入计算,基于知识图谱中的关系图,利用图嵌入算法将实体向量化,得到embedding矩阵,然后查找到涉事主体的向量表示,计算出与涉事主体相似性最高的其他多个主体;
风险传播计算模块,其基于所述知识挖掘模块识别出的关联主体,计算其与涉事主体的关系强度,再结合风险评级模块推理得到的风险等级,分析关联主体受风险传播的影响程度,得到关联风险评分;
预警提示模块,将计算得出的高风险主体、关联主体以及关联风险评分发出进行相关业务提醒。
8.一种分析设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述分析设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行权利要求1至6任一项所述的分析方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行权利要求1至6任一项所述的分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010021613.9A CN111241300B (zh) | 2020-01-09 | 2020-01-09 | 舆情预警以及风险传播分析方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010021613.9A CN111241300B (zh) | 2020-01-09 | 2020-01-09 | 舆情预警以及风险传播分析方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241300A CN111241300A (zh) | 2020-06-05 |
CN111241300B true CN111241300B (zh) | 2023-05-05 |
Family
ID=70865296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010021613.9A Active CN111241300B (zh) | 2020-01-09 | 2020-01-09 | 舆情预警以及风险传播分析方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241300B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW202147207A (zh) * | 2020-06-08 | 2021-12-16 | 財團法人資訊工業策進會 | 風險檢測系統與風險檢測方法 |
CN111768231B (zh) * | 2020-06-24 | 2024-04-09 | 中国工商银行股份有限公司 | 产品信息推荐方法及装置 |
CN111950860B (zh) * | 2020-07-21 | 2024-04-16 | 中证征信(深圳)有限公司 | 一种企业舆情风险指数的监控方法及装置 |
CN111967249A (zh) * | 2020-07-24 | 2020-11-20 | 南京网感至察信息科技有限公司 | 从公开信息中针对特定目标实体预测其潜在风险的方法 |
CN111915206B (zh) * | 2020-08-11 | 2024-02-27 | 成都市食品药品检验研究院 | 一种识别食品风险传导的方法 |
CN111738532B (zh) * | 2020-08-14 | 2021-02-05 | 支付宝(杭州)信息技术有限公司 | 一种事件对对象影响度的获取方法和系统 |
CN112016850A (zh) * | 2020-09-14 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 业务评估方法以及装置 |
CN112015920A (zh) * | 2020-09-15 | 2020-12-01 | 重庆广播电视大学重庆工商职业学院 | 一种基于知识图谱和边缘计算智能辅助学习系统 |
CN112214614B (zh) * | 2020-10-16 | 2024-02-09 | 民生科技有限责任公司 | 基于知识图谱挖掘风险传播路径的方法及其系统 |
CN112395351A (zh) * | 2020-11-19 | 2021-02-23 | 平安普惠企业管理有限公司 | 可视化的识别群诉风险方法、装置、计算机设备及介质 |
CN112579773A (zh) * | 2020-12-16 | 2021-03-30 | 中国建设银行股份有限公司 | 风险事件分级方法及装置 |
CN112613762B (zh) * | 2020-12-25 | 2024-04-16 | 北京知因智慧科技有限公司 | 基于知识图谱的集团评级方法、装置和电子设备 |
CN112750028A (zh) * | 2020-12-30 | 2021-05-04 | 北京知因智慧科技有限公司 | 基于实体抽取的事件文本的风险预警方法和装置 |
CN112699249B (zh) * | 2020-12-31 | 2022-11-15 | 上海浦东发展银行股份有限公司 | 基于知识图谱的信息处理方法、装置、设备及存储介质 |
CN112966918A (zh) * | 2021-03-01 | 2021-06-15 | 北京明略软件系统有限公司 | 用于确定风险影响范围的方法及装置、设备 |
CN113177831B (zh) * | 2021-03-12 | 2024-05-17 | 西安理工大学 | 一种应用公开数据构建的金融预警系统及预警方法 |
CN113486345B (zh) * | 2021-07-16 | 2022-08-16 | 国电内蒙古东胜热电有限公司 | 具有风险识别的监督预警方法及系统 |
CN113850662A (zh) * | 2021-08-13 | 2021-12-28 | 厦门国际银行股份有限公司 | 一种舆情预警处理系统及方法 |
CN114020784A (zh) * | 2021-09-26 | 2022-02-08 | 天翼爱音乐文化科技有限公司 | 一种数据风险识别方法、系统、装置及存储介质 |
CN114090771B (zh) * | 2021-10-19 | 2024-07-23 | 广州数说故事信息科技有限公司 | 一种基于大数据的传播主张和消费者故事分析方法及系统 |
CN114328765B (zh) * | 2022-03-04 | 2022-05-31 | 四川大学 | 新闻传播预测方法及装置 |
CN115221416B (zh) * | 2022-08-18 | 2023-01-17 | 上海金仕达软件科技有限公司 | 一种声誉风险定位分析方法及系统 |
CN117670017B (zh) * | 2023-06-28 | 2024-07-05 | 上海期货信息技术有限公司 | 一种基于事件的风险识别方法、装置以及电子设备 |
CN117131944B (zh) * | 2023-10-24 | 2024-01-12 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213202A1 (en) * | 2012-09-13 | 2015-07-30 | Parkland Center For Clinical Innovation | Holistic hospital patient care and management system and method for patient and family engagement |
US10552468B2 (en) * | 2016-11-01 | 2020-02-04 | Quid, Inc. | Topic predictions based on natural language processing of large corpora |
CN108229806A (zh) * | 2017-12-27 | 2018-06-29 | 中国银行股份有限公司 | 一种分析企业风险的方法以及系统 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN108694469A (zh) * | 2018-06-08 | 2018-10-23 | 哈尔滨工程大学 | 一种基于知识图谱的关系预测方法 |
CN109657918B (zh) * | 2018-11-19 | 2023-07-18 | 平安科技(深圳)有限公司 | 关联评估对象的风险预警方法、装置和计算机设备 |
CN110458697A (zh) * | 2019-08-19 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于评估风险的方法和装置 |
-
2020
- 2020-01-09 CN CN202010021613.9A patent/CN111241300B/zh active Active
Non-Patent Citations (1)
Title |
---|
李燕 ; 卫志华 ; 徐凯 ; .基于Lasso算法的中文情感混合特征选择方法研究.计算机科学.2018,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111241300A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241300B (zh) | 舆情预警以及风险传播分析方法、系统、设备及存储介质 | |
US11790262B2 (en) | Data transformations for robotic process automation | |
Ahmed et al. | Sentiment analysis of online food reviews using big data analytics | |
Dhanalakshmi et al. | Opinion mining from student feedback data using supervised learning algorithms | |
CN111950932B (zh) | 基于多源信息融合的中小微企业综合质量画像方法 | |
Sun et al. | Deep Learning and the Future of Auditing: How an Evolving Technology Could Transform Analysis and Improve Judgment. | |
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
Alamsyah et al. | Dynamic large scale data on twitter using sentiment analysis and topic modeling | |
CN111914087B (zh) | 一种舆情分析方法 | |
CN113051365A (zh) | 一种产业链图谱构建方法及相关设备 | |
Yuan-jie et al. | Web service classification based on automatic semantic annotation and ensemble learning | |
Zhou et al. | Corporate communication network and stock price movements: insights from data mining | |
CN115238217B (zh) | 一种公告文本中抽取数值信息的方法及终端机 | |
CN114254126A (zh) | 一种基于大数据的供应链知识图谱分析方法 | |
CN109992661A (zh) | 一种面向证券行业的智能舆情监控方法及系统 | |
Brito et al. | A hybrid AI tool to extract key performance indicators from financial reports for benchmarking | |
CN116542800A (zh) | 基于云端ai技术的智能化财务报表分析系统 | |
US9165053B2 (en) | Multi-source contextual information item grouping for document analysis | |
CN116562785B (zh) | 审计迎审系统 | |
Swami et al. | Resume classifier and summarizer | |
CN115310869B (zh) | 一种督查事项的联合督查方法、系统、设备以及存储介质 | |
CN115545437A (zh) | 一种基于多源异构数据融合的金融企业经营风险预警方法 | |
CN114297223A (zh) | 一种基于大数据的中小企业信息化服务平台 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
Tirea et al. | Classifying and quantifying certain phenomena effect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |