CN112668836B - 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置 - Google Patents
一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置 Download PDFInfo
- Publication number
- CN112668836B CN112668836B CN202011439026.8A CN202011439026A CN112668836B CN 112668836 B CN112668836 B CN 112668836B CN 202011439026 A CN202011439026 A CN 202011439026A CN 112668836 B CN112668836 B CN 112668836B
- Authority
- CN
- China
- Prior art keywords
- risk
- event
- evidence
- index
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005065 mining Methods 0.000 title claims abstract description 89
- 238000012544 monitoring process Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000008520 organization Effects 0.000 claims abstract description 12
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003058 natural language processing Methods 0.000 claims abstract description 8
- 230000003068 static effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 claims description 6
- 230000009897 systematic effect Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 238000012806 monitoring device Methods 0.000 claims description 4
- 230000024121 nodulation Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000009412 basement excavation Methods 0.000 claims 1
- 230000007423 decrease Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 239000000306 component Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 239000008358 core component Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000010523 cascade reaction Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置。该方法的步骤包括:运用自然语言处理手段,将对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;根据资讯文本源和指标数据源两个数据来源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险事件证据挖掘和风险指标证据挖掘;将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,以供决策和汇报使用。本发明提出了一套面向风险图谱的关联风险证据高效挖掘与监控方案,拓宽了现有风险监控系统和方法的范围,可进一步推动风险监控的深度。
Description
技术领域
本发明涉及一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置,属于自然语言处理领域,属于一种风险管理和控制可解释方案。
背景技术
风险无处不在,针对已有风险点进行梳理,并尽可能地对所有能够获取到的信息来源实施监控,能够在最短的时间内,实现对风险点的判别和发现。这种风险监测技术,在金融领域、质量管理等领域中,规避技术或投资风险、及时制定风险应对决策等方面具有重要的应用前景。
为了完成以上的风险监控任务,需要:1)由业内专业人士对现有业务进行系统整理,形成的风险体系或具体的风险点集合,用于提供对待监控对象实施分析和考察的角度;2)可供风险监测和分析的数据来源及数据获取技术,以保证风险监控的成立性;3)风险证据的挖掘和分析方法,针对可用的数据源,经过挖掘,形成能够明确标示风险的事件描述片段、关联数据异动情况等在内的风险证据集。4)风险传导与预警技术。针对识别出的风险,通过风险传导推理,进一步地推断出风险后续所引起的级联反应,及时提出预警信息等重要的核心组件。
受限于当前的自然语言处理技术水平,目前在风险监控这一技术的研发和应用的探索上上还存在以下不足:
1、对多源数据风险监控还相对初步。在上述的四个核心组件的技术研究和应用开发上,目前均仍处于初步阶段,目前的方法大多集中于基于关键词的文本风险监控以及数据指标的数值监控。在风险监测数据获取、风险证据挖掘与分析、风险传导与预警技术等方面还较为初步。
2、对风险证据的挖掘和应用还相对空白。风险证据是有效验证风险类别和风险内容的信息来源,包括文本型的事件描述片段、关联数据异动的情况以及事件描述片段和关联数据异动情况两者之间的映射。这个在提高现有监控系统的可解释性和可靠性上具有很大的促进作用。
3、面向文本的监测层次较为初级和小规模。经调研发现,现有的风险监控系统,对于文本类的风险基本只到了篇章级或段落级别,针对风险点实现具体描述的句子进行定位以及针对大规模文本集合,尤其是历时的材料进行分析的系统相对较少,呈现出一种初级和小规模的特点。
发明内容
针对现有技术中存在的现状和问题,本发明的目的在于提出一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置。
本发明的一种面向风险图谱的关联风险证据高效挖掘与监控方法,由风险图谱构建、风险事件证据挖掘、风险指标证据挖掘、风险证据报告生成四个部分组成,该方法的主要步骤包括:
运用自然语言处理手段,将由业内专业人士对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;
分别从资讯文本源和指标数据源两个数据来源两个角度出发,选择历时和实时两个时间域,针对风险节点进行风险事件证据挖掘(事件风险的挖掘)以及风险指标证据挖掘(指标数据异动实证的挖掘);
按照业务需求,设定报告生成时间,定期地将挖掘形成的事件风险和指标数据异动风险证据自动整理成风险证据报告,以供决策和汇报使用。
所述风险图谱,指的是由业内专业人士对现有业务进行系统整理,形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险点的节点化和关联化形成的图谱结构。
所述风险的节点化,指的是将风险整理为一系列动作性的谓词性节点,如“GDP下跌”、“手持订单量下降”等。
所述以层级组织的方式组织,即风险节点层次化,指的是利用层次分组的思想,将具有高度相关性关联的事件分成若干个事件组。例如,将“营业收入”和“毛利率下降”归类为财务指标类事件,“居民消费下降”、“企业投资下降”、“政府购买力下降”、“出口量下降”、“进口量上涨”等归为“GDP增速下降因素”类事件。
所述风险节点的关联化,指的是将一系列谓词性节点之间的关联关系,如上下游传导关系进行组织和标记,通过传导式的组织方式,使得各个风险事件之间形成一个关联网络。例如,针对造船企业的监控中,由“新船成交量下降”、“造船完工量下降”等构成的“行业指标类”事件,与“企业手持船舶订单量”具有方向传导性,因此两个节点之间建立关联关系。
本发明的风险证据挖掘,由风险事件证据挖掘、风险指标证据挖掘两个部分组成,思想在于:分别从资讯文本源和指标数据源两个数据来源两个角度出发,针对风险节点进行事件风险的挖掘以及指标数据异动实证的挖掘。
所述风险事件证据挖掘,其思想在于:针对风险图谱中的风险节点,从后台大规模资讯文本中,进行历时和实时两个角度的事件挖掘处理,输出该风险节点风险的事件描述片段、事件来源文本、关联的文本情绪以及标签集合。
所述风险指标证据挖掘,其思想在于:针对风险图谱中的风险节点,从后台的数据指标库中进行人机互助的指标关联,将节点一对多地与库中的数据指标相联系。如“GDP下降”这一节点,从库中关联出“年度国民生产总值”这一数据指标。设定异动阈值和指标计算公式,从历时和实时两个角度出发,分别输出对应时间的异动信息。
本发明的风险证据报告生成,其思想在于:建立风险监控大屏,从历时和实时两个角度,对风险图谱中的各个风险节点或风险组的事件风险和指标风险进行数字化的监测预警。根据人工定义的时间范围,将收集到的事件风险证据信息和指标风险证据信息,按照给定的风险报告模板进行自动生成。
基于同一发明构思,本发明还提供一种采用上述方法的面向风险图谱的关联风险证据高效挖掘与监控装置,其包括:
风险图谱构建模块,用于运用自然语言处理手段,将对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;
风险事件证据挖掘模块,用于根据资讯文本源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险事件证据挖掘;
风险指标证据挖掘模块,用于根据指标数据源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险指标证据挖掘;
风险证据报告生成模块,用于将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,以供决策和汇报使用。
与现有技术相比,本发明具有以下优点:
1、本发明提出了一套面向风险图谱的关联风险证据高效挖掘与监控装置,进一步拓宽了现有风险监控系统和方法的范围,可进一步推动风险监控的深度。
2、本发明从资讯文本源和指标数据源两个数据来源两个角度出发,选择历时和实时两个时间域,针对风险节点进行了事件风险的挖掘以及指标数据异动实证的挖掘方法,可以为风险监控带来一种全息的效果。
3、本发明提出的事件风险证据挖掘方法,能够最大限度地保证风险图谱运行的性能,可以满足大规模节点和文本的并行计算处理。
4、本发明提出的风险指标证据挖掘,充分利用了指标之间的逻辑关联关系,并可与时间风险形成互动,增强了证据的可靠性和可解释性。
5、本发明提出的风险证据报告生成,利用大屏和报告模板的方式,可以快速、高效地对风险数据进行整合,产出的界面和报告,可以很容易地为报告撰写、日志回查等场景提供帮助。
附图说明
图1为系统构成图。
图2为风险云图构建流程示意图。
图3为风险事件证据挖掘模块构成图。
图4为历时风险事件证据挖掘流程图。
图5为实时风险事件证据挖掘模块流程图。
图6为历时风险指标证据挖掘模块流程图。
图7为实时风险指标证据挖掘模块流程图。
图8为实时风险报告生成模块流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
如图1所示,本发明包括风险图谱构建模块、风险事件证据挖掘模块、风险指标证据挖掘模块、风险证据报告生成模块四个模块。各个模块的技术流程遵循以下步骤:
一.风险图谱构建
1、风险图谱相关概念的界定
所述风险图谱,指的是由业内专业人士对现有业务进行系统整理,形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险点的节点化和关联化形成的图谱结构。
2、风险图谱的构建
如图2所示,风险图谱的构建主要包括业务专家风险梳理、风险节点化、风险节点层次化、风险事件关联化等几个关键步骤。其中:
所述风险节点化,指的是将风险整理为一系列动作性的谓词性节点,如“GDP下跌”、“手持订单量下降”等。
所述风险节点层次化,指的是利用层次分组的思想,将具有高度相关性关联的事件分成若干个事件组。例如,将“营业收入”和“毛利率下降”归类为财务指标类事件,“居民消费下降”、“企业投资下降”、“政府购买力下降”、“出口量下降”、“进口量上涨”等归为“GDP增速下降因素”类事件。
所述风险节点关联化,指的是将一系列谓词性节点之间的关联关系,如上下游传导关系进行组织和标记,通过传导式的组织方式,使得各个风险事件之间形成一个关联网络。例如,针对造船企业的监控中,由“新船成交量下降”、“造船完工量下降”等构成的“行业指标类”事件,与“企业手持船舶订单量”具有方向传导性,因此两个节点之间建立关联关系。
二.风险事件证据挖掘
所述风险事件证据挖掘,其思想在于:针对风险图谱中的风险节点,从后台大规模资讯文本中,进行历时和实时两个角度的事件挖掘处理,输出该风险节点风险的事件描述片段、事件来源文本、关联的文本情绪以及标签集合。如图3所示,从构成上看,分为历时风险事件证据挖掘和实时风险事件证据挖掘两个组成部分。
1、历时风险事件证据挖掘
所述历时风险事件证据挖掘,其思想在于针对网络公开文本以及用户自有文本数据形成的文本材料库,并利用建立索引的方式形成文本索引库。给定事先构建起的风险图谱,通过遍历获取其中的节点,经过节点扩展、节点搜索、候选事件句获取、事件句过滤、事件句聚类以及事件关键性判定等方式,联合事件关联信息,形成风险事件证据库。如图4所示,其中,算法步骤包括:
1)通过采集网络公开文本或接入用户本地自有数据,经过数据清洗等方式,形成文本材料库;
2)利用主流索引数据库,针对文本材料库建立索引,形成文本索引库。其中,为了提高后期搜索扩展的查全率,在建立索引的同时,添加静态同义词表。所述静态同义词表,指的是通用且较稳定的同义词表,如(“开心”,“快乐”)为一对同一词,通过加入该词表,可以对同义不同词的语言单位进行统一索引处理;
3)针对构建好的风险图谱,获取风险图谱中的所有节点集合,遍历所有集合中所有节点,执行步骤4)-10)
4)利用静态同义词表进行事件名称扩展,得到事件扩展列表。所述静态同义词,指用户根据实际业务需求,可自定义设定和动态配置的同义词集合,用以补充静态同义词。所述拓展的思想步骤为:
a)对事件进行分词处理,并根据词性过滤停用词的方式,去除虚词,最终得到事件词列表;
b)针对事件词中的每个词,分别从静态同义词表中找到其同义词集合,针对每个集合,进行排列组合,形成扩展后的事件列表;
5)将事件扩展列表进行查询query构造,在文本索引库中进行节点的短语搜索。将命中的文档记录进行分句处理,包含任意事件列表元素的句子进行保留,形成候选事件句集合;
6)对候选事件句集合中所有候选事件进行二分类,用来判断候选事件是否允以保留,选择二分类的事件成立性规则模型,最终输出候选事件句集合。其中二分类,算法思想在于标注成立和非成立标签,通过提取特征,并设计训练模型,进行训练,最终用于分类。其中:
a)模型选用的特征包括:候选句子的实体数量、候选句子的数量词占比、候选句子的时间分级、候选句子长度、候选句子是否包含因果等。
b)模型训练的方式,采用SVM模型进行分类。
7)针对步骤6)输出的候选事件句集合,使用single-pass聚类算法进行聚类,将同义不同形的事件句进行聚合,形成若干个事件句类,以及事件句类中的句子集合,标记为簇内句子集合,同时将事件句类中的中心事件句作为标准事件句;
8)借助关键性判定规则对步骤7)中输出的标准事件句进行关键性打分,其中关键性判定规则步骤为:
a)对事件句进行分词、词性标注以及实体识别,得到事件句的实体事件句的数量词占比、事件句的时间分级、事件句的词性分布得分;
b)对事件句进行情感强度和主观性强度计算,输出相应的得分;
c)将各项的得分进行相加,得到事件句的关键性得分;
9)将得到的事件相关信息进行组装。组装的信息包括事件句的原文描述、事件句的簇内句子集合、事件句的关键性得分、事件句来源的文档、事件句所在的时间等信息;
10)将组装得到的事件相关信息进行存储,得到最终的事件风险证据。
2、实时风险事件证据挖掘
所述实时风险事件证据挖掘,其思想在于针对网络公开文本,进行实时的文本采集,给定事先构建起的风险图谱,通过遍历获取其中的节点,针对采集到的文本,经过节点扩展、节点搜索、候选事件句获取、事件句过滤、事件句聚类以及事件关键性判定等方式,联合事件关联信息,形成风险事件证据库。如图5所示,该模块算法步骤与历时风险事件证据挖掘步骤略有差异,具体步骤如下:
1)针对网络文本数据源,进行实时的文本采集,并对文本进行清洗等操作,输出资讯文本流。
2)针对构建好的风险图谱,获取风险图谱中的所有节点集合,遍历所有集合中所有节点,执行步骤3)-5)
3)利用静态同义词表进行事件名称扩展,得到事件扩展列表。所述静态同义词,指用户根据实际业务需求,可自定义设定和动态配置的同义词集合,用以补充静态同义词。所述拓展的思想步骤为:
a)对事件进行分词处理,并根据词性过滤停用词的方式,去除虚词,最终得到事件词列表;
b)针对事件词中的每个词,分别从静态同义词表中找到其同义词集合,针对每个集合,进行排列组合,形成扩展后的事件列表;
4)将事件扩展列表,构造模式匹配actree(由模式串集合构建出的状态树,构建方法和AC自动机的构建方法相同),针对实时文本进行模式actree匹配,将包含任一事件扩展列表中元素的事件句进行保留,形成候选事件句;
5)执行历时风险事件证据挖掘步骤6)-10)。
三.风险指标证据挖掘
所述风险指标证据挖掘,其思想在于:针对风险图谱中的风险节点,从后台的数据指标库中进行人机互助的指标关联,将节点一对多地与库中的数据指标相联系。如“GDP下降”这一节点,从库中关联出“年度国民生产总值”这一数据指标。设定异动阈值和指标计算公式,从历时和实时两个角度出发,分别输出对应时间的异动信息。
1、历时风险指标证据挖掘
如图6所示,历时风险指标证据挖掘,其思想在于针对风险图谱,获取其中的图谱风险节点,并借助外部的数据指标库进行数据关联。同时,由风险历时事件证据库获取事件信息,并进行节点对齐、以及时间约束,最终通过对预先设定好的指标变动公式进行解析和数据比对,找出数据变动的具体情况,形成指标数据库。具体算法步骤为:
1)针对给定的风险图谱,获取其中的所有节点信息,形成事件节点列表;
2)借助形成的数据指标库,对事件节点列表中的节点进行数据关联,关联的步骤为:
a)获取数据指标库中的数据指标名称,并建立索引;
b)将事件节点进行分词和词性标注处理,并过滤其中的虚词成分,并重新拼接;
c)将拼接后的事件节点进行数据指标进行模糊搜索,得到top20的数据指标;
d)针对得到的top20数据指标,提取指标中的地点、时间、指标细项,与原先事件节点名称进行相似度计算,进一步得到top5的数据指标集合,作为推荐关联指标结果进行推荐;
e)将推荐后的指标供予人工进行选择,可以选择一个或多个关联指标,完成数据关联;
3)从风险历时事件证据库中,利用事件节点名称,进行事件对齐,查询得到对应的风险事件证据;
4)从风险历时事件证据库中,获取对应的时间点,进行时间约束;
5)将得到的时间约束条件在步骤2)中关联到的数据指标中,查找出对应时间节点的区间数据;
6)借助指标异动计算公式,根据事件名称所标记出的变动方向,解析出指标计算的方式,并进行计算,如对于“GDP环比下降”,该事件的公式即为y(GDP当期)-y(GDP上一期);
7)将计算后的数据变动情况与风险事件证据进行比对,将比对结果进行存储。
2、实时风险指标证据挖掘
实时风险指标挖掘,其思想在于针对风险图谱,获取其中的图谱风险节点,并借助外部的数据指标库进行数据关联。同时,通过对数据指标进行实时监控,形成数据实时指标,最终通过对预先设定好的指标变动公式进行解析和数据比对,找出数据变动的具体情况,形成指标数据库。该模块与历时风险指标证据挖掘存在差异,如图7所示,具体算法步骤为:
1)针对给定的风险图谱,获取其中的所有节点信息,形成事件节点列表;
2)及借助形成的数据指标库,对事件节点列表中的节点进行数据关联,关联的步骤为:
a)获取数据指标库中的数据指标名称,并建立索引;
b)将事件节点进行分词和词性标注处理,并过滤其中的虚词成分,并重新拼接;
c)将拼接后的事件节点进行数据指标进行模糊搜索,得到top20的数据指标;
d)针对得到的top20数据指标,提取指标中的地点、时间、指标细项,与原先事件节点名称进行相似度计算,进一步得到top5的数据指标集合,作为推荐关联指标结果进行推荐。
e)将推荐后的指标供予人工进行选择,可以选择一个或多个关联指标。完成数据关联。
3)针对实时监控得到的实时数据指标,并以当前时间点进行时间约束。
4)将得到的时间约束条件在步骤2)中关联到的数据指标中,查找出当前时间点与上一时间周期之间的区间数据;
5)借助指标异动计算公式,根据事件名称所标记出的变动方向,解析出指标计算的方式,并进行计算,如对于“GDP环比下降”,该事件的公式即为y(GDP当期)-y(GDP上一期。)
6)将计算后的数据变动比对情况,进行结果存储。
四.风险证据报告生成
所述风险证据报告生成,其思想在于:建立风险监控大屏,从历时和实时两个角度,对风险图谱中的各个风险节点或风险组的事件风险和指标风险进行数字化的监测预警。根据人工定义的时间范围,将收集到的事件风险证据信息和指标风险证据信息,按照给定的风险报告模板进行自动生成。如图8所示,其实施步骤为:
1)针对图谱中的每一个节点进行风险证据计算,得到其对应的指标证据集合和事件证据集合。
2)利用原先构建好的风险节点分组信息进行汇总计算,得到每个组的风险证据情况;
3)借助专业业务人员进行风险报告模板设计,包括风险监控的风险点分布、监控的项目、内容构成等;
4)根据指定的报告生成时间,将风险报告模板中所涉及到的风险点具体值进行获取,将具体统计值的计算,内容的选择进行规定,形成风险证据报告。
基于同一发明构思,基于同一发明构思,本发明的另一实施例提供一种采用上述方法的面向风险图谱的关联风险证据高效挖掘与监控装置,其包括:
风险图谱构建模块,用于运用自然语言处理手段,将对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;
风险事件证据挖掘模块,用于根据资讯文本源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险事件证据挖掘;
风险指标证据挖掘模块,用于根据指标数据源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险指标证据挖掘;
风险证据报告生成模块,用于将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,以供决策和汇报使用。
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
Claims (6)
1.一种面向风险图谱的关联风险证据高效挖掘与监控方法,其特征在于,包括以下步骤:
运用自然语言处理手段,将对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;
根据资讯文本源和指标数据源两个数据来源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险事件证据挖掘和风险指标证据挖掘;
将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,以供决策和汇报使用;
所述以层级组织的方式组织,是利用层次分组的思想,将具有高度相关性关联的事件分成若干个事件组;所述风险的节点化,是将风险整理为一系列动作性的谓词性节点;所述风险节点的关联化,是将一系列谓词性节点之间的关联关系进行组织和标记,通过传导式的组织方式,使得各个风险事件之间形成一个关联网络;
所述风险事件证据挖掘包括历时风险事件证据挖掘和实时风险事件证据挖掘;所述历时风险事件证据挖掘,包括:
1)通过采集网络公开文本或接入用户本地自有数据,形成文本材料库;
2)利用主流索引数据库,针对文本材料库建立索引,形成文本索引库;在建立索引的同时,添加静态同义词表;
3)获取风险图谱中的所有节点集合,遍历所有集合中所有节点,执行步骤4)-10);
4)利用静态同义词表进行事件名称扩展,得到事件扩展列表;
5)将事件扩展列表进行查询构造,在文本索引库中进行节点的短语搜索;将命中的文档记录进行分句处理,包含任意事件列表元素的句子进行保留,形成候选事件句;
6)对候选事件句集合中所有候选事件进行二分类,用来判断候选事件是否允以保留,选择二分类的事件成立性规则模型,最终输出候选事件句集合;
7)针对步骤6)输出的候选事件句集合进行聚类,将同义不同形的事件句进行聚合,形成若干个事件句类,以及事件句类中的句子集合,标记为簇内句子集合,同时将事件句类中的中心事件句作为标准事件句;
8)借助关键性判定规则对步骤7)输出的标准事件句进行关键性打分;
9)将得到的事件相关信息进行组装,组装的信息包括事件句的原文描述、事件句的簇内句子集合、事件句的关键性得分、事件句来源的文档、事件句所在的时间;
10)将组装得到的事件相关信息进行存储,得到最终的事件风险证据;
所述实时风险事件证据挖掘包括:
1)针对网络文本数据源进行实时的文本采集,输出资讯文本流;
2)获取风险图谱中的所有节点集合,遍历所有集合中所有节点,执行步骤3)-5);
3)利用静态同义词表进行事件名称扩展,得到事件扩展列表;
4)将事件扩展列表,构造模式匹配actree,针对实时文本进行模式匹配,将包含任一事件扩展列表中元素的事件句进行保留,形成候选事件句;
5)执行历时风险事件证据挖掘的步骤6)-10);
所述风险指标证据挖掘,针对风险图谱中的风险节点,从后台的数据指标库中进行人机互助的指标关联,将节点一对多地与数据指标库中的数据指标相联系,设定异动阈值和指标计算公式,从历时和实时两个角度出发,分别输出对应时间的异动信息;所述风险指标证据挖掘包括历时风险指标证据挖掘和实时风险指标证据挖掘。
2.根据权利要求1所述的方法,其特征在于,所述历时风险指标证据挖掘包括:获取风险图谱中的风险节点,借助外部的数据指标库进行数据关联,同时由风险历时事件证据库获取事件信息,并进行节点对齐以及时间约束,最终通过对预先设定好的指标变动公式进行解析和数据比对,找出数据变动的具体情况,形成指标数据库;所述实时风险指标挖掘包括:获取风险图谱中的风险节点,借助外部的数据指标库进行数据关联,同时通过对数据指标进行实时监控,形成数据实时指标,最终通过对预先设定好的指标变动公式进行解析和数据比对,找出数据变动的具体情况,形成指标数据库。
3.根据权利要求1所述的方法,其特征在于,所述将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,包括:建立风险监控大屏,从历时和实时两个角度,对风险图谱中的各个风险节点或风险组的事件风险和指标风险进行数字化的监测预警;根据人工定义的时间范围,将收集到的事件风险证据信息和指标风险证据信息,按照给定的风险报告模板自动生成风险证据报告。
4.一种采用权利要求1~3中任一权利要求所述方法的面向风险图谱的关联风险证据高效挖掘与监控装置,其特征在于,包括:
风险图谱构建模块,用于运用自然语言处理手段,将对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;
风险事件证据挖掘模块,用于根据资讯文本源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险事件证据挖掘;
风险指标证据挖掘模块,用于根据指标数据源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险指标证据挖掘;
风险证据报告生成模块,用于将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,以供决策和汇报使用。
5.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~3中任一权利要求所述方法的指令。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~3中任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011439026.8A CN112668836B (zh) | 2020-12-07 | 2020-12-07 | 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011439026.8A CN112668836B (zh) | 2020-12-07 | 2020-12-07 | 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112668836A CN112668836A (zh) | 2021-04-16 |
CN112668836B true CN112668836B (zh) | 2024-04-05 |
Family
ID=75401897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011439026.8A Active CN112668836B (zh) | 2020-12-07 | 2020-12-07 | 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668836B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069938B (zh) * | 2023-04-06 | 2023-06-20 | 中电科大数据研究院有限公司 | 一种文本关联性分析方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2216667A1 (en) * | 1997-09-24 | 1999-03-24 | Curtis Hrischuk | A method of determining causal connections between events recorded during process execution |
CA2335801A1 (en) * | 1998-04-29 | 2002-05-14 | Justin Winfield | A system and method for text mining |
AU2001291248A1 (en) * | 2000-09-28 | 2002-06-20 | Oracle International Corporation | Enterprise web mining system and method |
CA2594112A1 (en) * | 2006-07-21 | 2008-01-21 | Solido Design Automation Inc. | Data-mining-based knowledge extraction and visualization of analog/mixed-signal/custom digital circuit design flow |
CN101308496A (zh) * | 2008-07-04 | 2008-11-19 | 沈阳格微软件有限责任公司 | 大规模文本数据的外部聚类方法及系统 |
JP2009064274A (ja) * | 2007-09-06 | 2009-03-26 | Fujitsu Ten Ltd | 歩行者認識装置 |
CA2620982A1 (en) * | 2008-02-13 | 2009-08-13 | Camouflage Software Inc. | Method and system for masking data in a consistent manner across multiple data sources |
CA2668306A1 (en) * | 2009-06-08 | 2010-12-08 | Stephen R. Germann | Method and system for applying metadata to data sets of file objects |
CA2823406A1 (en) * | 2010-12-30 | 2012-07-05 | Primal Fusion Inc. | System and method for performing a semantic operation on a digital social network |
CN102750282A (zh) * | 2011-04-19 | 2012-10-24 | 北京百度网讯科技有限公司 | 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置 |
CN103678670A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种微博热词与热点话题挖掘系统及方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CA2956627A1 (en) * | 2016-01-29 | 2017-07-29 | Thomson Reuters Global Resources Unlimited Company | System and engine for seeded clustering of news events |
CN107566179A (zh) * | 2017-09-07 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 一种节点处理方法及装置 |
CN109583620A (zh) * | 2018-10-11 | 2019-04-05 | 平安科技(深圳)有限公司 | 企业潜在风险预警方法、装置、计算机设备和存储介质 |
CN110245165A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 风险传导关联图谱优化方法、装置和计算机设备 |
CN110738388A (zh) * | 2019-09-02 | 2020-01-31 | 深圳壹账通智能科技有限公司 | 关联图谱评估风险传导的方法、装置、设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1360608A2 (en) * | 2000-09-28 | 2003-11-12 | Oracle Corporation | Enterprise web mining system and method |
US20060059073A1 (en) * | 2004-09-15 | 2006-03-16 | Walzak Rebecca B | System and method for analyzing financial risk |
US11375984B2 (en) * | 2018-08-31 | 2022-07-05 | Seno Medical Instruments, Inc. | Method and system for managing feature reading and scoring in ultrasound and/or optoacoustic images |
-
2020
- 2020-12-07 CN CN202011439026.8A patent/CN112668836B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2216667A1 (en) * | 1997-09-24 | 1999-03-24 | Curtis Hrischuk | A method of determining causal connections between events recorded during process execution |
CA2335801A1 (en) * | 1998-04-29 | 2002-05-14 | Justin Winfield | A system and method for text mining |
AU2001291248A1 (en) * | 2000-09-28 | 2002-06-20 | Oracle International Corporation | Enterprise web mining system and method |
CA2594112A1 (en) * | 2006-07-21 | 2008-01-21 | Solido Design Automation Inc. | Data-mining-based knowledge extraction and visualization of analog/mixed-signal/custom digital circuit design flow |
JP2009064274A (ja) * | 2007-09-06 | 2009-03-26 | Fujitsu Ten Ltd | 歩行者認識装置 |
CA2620982A1 (en) * | 2008-02-13 | 2009-08-13 | Camouflage Software Inc. | Method and system for masking data in a consistent manner across multiple data sources |
CN101308496A (zh) * | 2008-07-04 | 2008-11-19 | 沈阳格微软件有限责任公司 | 大规模文本数据的外部聚类方法及系统 |
CA2668306A1 (en) * | 2009-06-08 | 2010-12-08 | Stephen R. Germann | Method and system for applying metadata to data sets of file objects |
CA2823406A1 (en) * | 2010-12-30 | 2012-07-05 | Primal Fusion Inc. | System and method for performing a semantic operation on a digital social network |
CN102750282A (zh) * | 2011-04-19 | 2012-10-24 | 北京百度网讯科技有限公司 | 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置 |
CN103678670A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种微博热词与热点话题挖掘系统及方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CA2956627A1 (en) * | 2016-01-29 | 2017-07-29 | Thomson Reuters Global Resources Unlimited Company | System and engine for seeded clustering of news events |
CN107566179A (zh) * | 2017-09-07 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 一种节点处理方法及装置 |
CN109583620A (zh) * | 2018-10-11 | 2019-04-05 | 平安科技(深圳)有限公司 | 企业潜在风险预警方法、装置、计算机设备和存储介质 |
CN110245165A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 风险传导关联图谱优化方法、装置和计算机设备 |
CN110738388A (zh) * | 2019-09-02 | 2020-01-31 | 深圳壹账通智能科技有限公司 | 关联图谱评估风险传导的方法、装置、设备和存储介质 |
Non-Patent Citations (6)
Title |
---|
"基于灰色关联分析的相似洪水动态展延方法";吴业楠等;《南水北调与水利科技》;第12卷(第1期);126-130 * |
"知识关联视角下的金融知识表示及风险识别";唐旭丽等;《情感学报》;第38卷(第3期);286-298 * |
易会满等.《商业银行事后监督 理论实务与战略转型》.中国金融出版社,2013,(第1版),第148-149页. * |
王信等.《全面风险管理体系的构建与实践——衮矿集团全面风险管理研究报告》.煤炭工业出版社,2012,(第1版),第103页. * |
王勇等.《金融风险管理》.机械工业出版社,2020,(第1版),第288页. * |
邵理煜等.《商业银行大数据治理研究与实践》.机械工业出版社,2020,(第1版),第174-177页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112668836A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN111428054B (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
Gong et al. | Hierarchical graph transformer-based deep learning model for large-scale multi-label text classification | |
CN106919689A (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
CN113987212A (zh) | 一种数控加工领域工艺数据的知识图谱构建方法 | |
Zhou et al. | A deep learning framework to early identify emerging technologies in large-scale outlier patents: An empirical study of CNC machine tool | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN114003791B (zh) | 基于深度图匹配的医疗数据元自动化分类方法及系统 | |
CN110442728A (zh) | 基于word2vec汽车产品领域的情感词典构建方法 | |
CN109300042A (zh) | 一种基于大数据的风控系统 | |
CN110704577A (zh) | 一种电网调度数据的搜索方法及系统 | |
CN108304382A (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
Zhang | Application of data mining technology in digital library. | |
Hu et al. | EGC: A novel event-oriented graph clustering framework for social media text | |
CN111666499A (zh) | 一种基于大数据的舆情监测云服务平台 | |
Sandhiya et al. | A review of topic modeling and its application | |
CN112668836B (zh) | 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置 | |
CN116821376B (zh) | 煤矿安全生产领域的知识图谱构建方法及系统 | |
Zhañay et al. | A Text Mining Approach to Discover Real-Time Transit Events from Twitter | |
Jiang et al. | Research on BIM-based Construction Domain Text Information Management. | |
CN116432965B (zh) | 基于知识图谱的岗位能力分析方法及树状图生成方法 | |
CN116401338A (zh) | 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法 | |
CN116467291A (zh) | 一种知识图谱存储与搜索方法及系统 | |
Khekare et al. | Design of Automatic Key Finder for Search Engine Optimization in Internet of Everything |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |