计算机执行的事件风险评估的方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及利用机器学习对事件风险进行评估的方法和装置。
背景技术
随着计算机技术的发展,机器学习已经应用到各种各样的技术领域,用于分析、预测各种业务数据。在许多应用场景中,需要对各种业务事件进行分析和预测,特别是预测各类事件的风险度,例如舆情风险度,安全风险度等,以便于提前预警,辅助相关业务人员进行业务准备。
因此,希望提供改进的方案,能够有效地对事件风险度进行评估。
发明内容
本说明书一个或多个实施例描述了计算机执行的事件风险评估方法和装置,通过扩展事件的要素而构建事件特征,并训练GBDT模型,实现事件风险度的有效评估,并可以对评估的风险值提供相应的特征解释。
根据第一方面,提供了一种计算机执行的事件风险评估方法,包括:
采用自然语言处理模型,从内容文本库中提取多个样本事件,所述多个样本事件包括第一样本事件,所述提取多个样本事件包括,识别第一样本事件及其对应的第一事件类型,并根据第一事件类型,提取所述第一样本事件的至少一个第一事件要素;
在与所述第一样本事件相关联的至少一个领域所对应的至少一个知识图谱中,获取与所述至少一个第一事件要素相关联的至少一个第一关联要素;
根据所述第一事件类型,所述至少一个第一事件要素,以及所述至少一个第一关联要素,确定所述第一样本事件的事件特征;
根据所述多个样本事件中各个样本事件的事件特征,以及各个样本事件的标定风险值,训练梯度提升决策树GBDT模型,得到训练的GBDT模型;
利用所述训练的GBDT模型,对待分析的第二事件进行风险评估。
在一个实施例中,通过以下方式提取第一样本事件的至少一个事件要素:
确定所述第一事件类型对应的第一模板;利用所述第一模板,从所述内容文本库中提取所述第一样本事件的至少一个第一事件要素。
在一个实施例中,至少一个第一事件要素包括以下中的至少一个:事件时间、事件地点、实施主体、事件客体、事实类型、事件等级。
根据一种实施方式,通过以下方式获取关联要素:
将所述至少一个第一事件要素映射为所述至少一个知识图谱中的第一节点;将所述至少一个知识图谱中与所述第一节点直接连接的节点作为所述至少一个关联要素。
在一个实施例中,上述知识图谱可以包括:企业知识图谱,产品知识图谱,人物知识图谱,信息知识图谱,股票知识图谱,基金知识图谱,机构知识图谱。
根据一种实施方式,在训练GBDT模型之后,对待分析的第二事件进行风险评估具体包括:
获取第二事件的事件类型,以及至少一个第二事件要素;
在所述至少一个知识图谱中,获取与所述至少一个第二事件要素相关联的至少一个第二关联要素;
根据所述第二事件的事件类型,所述至少一个第二事件要素,以及所述至少一个第二关联要素,确定所述第二事件的事件特征;
将所述第二事件的事件特征输入所述训练的GBDT模型,根据模型输出确定所述第二事件的风险值。
进一步的,在一个实施例中,通过以下方式获取第二事件要素:
从输入文本中识别出所述第二事件以及第二事件类型;
根据第二事件类型,从所述输入文本中提取所述至少一个第二事件要素。
或者,可以直接接收输入的第二事件,以及所述至少一个第二事件要素。
在一个实施例中,训练的GBDT模型包括至少一棵决策树,所述决策树包括枝干节点和叶子节点,每个枝干节点对应一项特征,并具有训练得到的风险分值以及节点权重,其中节点权重基于该枝干节点以及分裂后节点各自的节点损失值确定,所述节点损失值基于落入该节点的样本事件的标定风险值与该节点的风险分值之差而确定。在这样的情况下,对待分析的第二事件进行风险评估还包括:
根据所述第二事件的事件特征确定所述第二事件在所述决策树中的决策路径;
确定所述决策路径所经过的各个枝干节点,并获取各个枝干节点对应的特征以及节点权重;
对于所述第二事件的事件特征中包含的第一特征,根据所述各个枝干节点中对应于该第一特征的至少一个枝干节点的节点权重,确定该第一特征的特征权重,作为该第一特征对于所述风险值的重要性。
根据另一种实施方式,训练得到的GBDT模型包括至少一棵决策树,所述决策树包括枝干节点和叶子节点;在得到这样的GBDT模型后,对待分析的第二事件进行风险评估具体包括:
获取第二事件的至少一个第二事件要素;
根据所述至少一个第二事件要素在所述决策树中对第二事件进行划分,基于划分的停止节点确定所述决策树的子树;
确定所述子树中满足预定条件的第一叶子节点,以及从根节点到该第一叶子节点的条件路径;
获取所述条件路径中包含的枝干节点所对应的特征组合,将所述特征组合作为所述第二事件在所述预定条件下的影响特征。
进一步的,在一个实施例中,决策树中每个叶子节点通过训练得到有风险分值,每个枝干节点对应一项特征,并具有训练得到的风险分值以及节点权重,其中节点权重基于该枝干节点以及分裂后节点各自的节点损失值确定,所述节点损失值基于落入该节点的样本事件的标定风险值与该节点的风险分值之差而确定;相应的,在一个实施例中,对待分析的第二事件进行风险评估还包括以下中的一项或多项:
确定所述第一叶子节点对应的第一风险分值,作为所述预定条件下第二事件的风险值;
根据所述条件路径中各个枝干节点的节点权重,确定所述特征组合中与所述各个枝干节点对应的各项特征的重要度。
根据第二方面,提供一种计算机执行的事件风险评估装置,包括:
提取单元,配置为采用自然语言处理模型,从内容文本库中提取多个样本事件,所述多个样本事件包括第一样本事件,所述提取多个样本事件包括,识别第一样本事件及其对应的第一事件类型,并根据第一事件类型,提取所述第一样本事件的至少一个第一事件要素;
关联单元,配置为在与所述第一样本事件相关联的至少一个领域所对应的至少一个知识图谱中,获取与所述至少一个第一事件要素相关联的至少一个第一关联要素;
特征确定单元,配置为根据所述第一事件类型,所述至少一个第一事件要素,以及所述至少一个第一关联要素,确定所述第一样本事件的事件特征;
训练单元,配置为根据所述多个样本事件中各个样本事件的事件特征,以及各个样本事件的标定风险值,训练梯度提升决策树GBDT模型,得到训练的GBDT模型;
评估单元,配置为利用所述训练的GBDT模型,对待分析的第二事件进行风险评估。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
根据本说明书实施例提供的方法和装置,通过在相关领域的知识图谱中对事件要素进行扩展,构建更为全面的事件特征。基于样本事件的事件特征和标定风险值,可以训练得到包含决策树的GBDT模型。利用这样的GBDT模型,不仅可以对未知风险的待评估事件进行风险值的评估,还可以对风险值进行特征解释,如此,在实现定量预测的同时,还可以使得预测结果具有更强的逻辑表达和可解释性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施过程示意图;
图2示出根据一个实施例的事件风险评估方法的流程图;
图3示出根据一个实施例训练得到的决策树;
图4示出在一个实施例中对第二事件进行风险评估的流程图;
图5示出在一个实施例中第二事件在决策树中的划分过程;
图6示出在一个实施例中进行特征解释的步骤流程;
图7示出根据一个实施例对第二事件进行评估的步骤流程图;
图8示出根据一个实施例的事件评估装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,在多种应用场景中,需要对各类事件进行研究和风险评估,例如,确定某互联网公司用户信息泄露事件对网络安全方面的影响度和风险度等等。总体来说,在这样的事件研究领域进行分析的方法主要包括两类:定量的方法和定性的方法。定量的方法常常使用量化方式进行舆情因子挖掘,构建基于AI算法的舆情量化因子,也就是,先将事件因子化,并通过一些定量指标,例如该事件后预定时间内历史投资收益的高低,来衡量事件的影响和风险度。然而,这样的方案往往缺少对事件类型的细致划分,丢失了事件的逻辑脉络,可解释性不强。并且,事件的影响和风险度依赖于因子化时事件的划分粒度,往往由于事件定义中没有区分事件的某个关键属性特征,导致难以发掘出真正有意义的因子或特征。
定性的方法往往通过人工标注的方式,由人工完成事件的定义、风险程度分析。这个过程需要很强的专业分析,需要逐个事件单独分析,未能系统化、自动化,导致分析效率低。并且,分析结果是否正确依赖于分析人员的主观经验是否能覆盖事件的关键属性特征。此外,定性分析的结论往往只能到正负面的方向判断,对于影响程度的判断无法量化,带有很强的主观性。
在此基础上,本说明书的实施例提供改进的方案对事件风险进行评估,在提供客观、定量预测分析的同时,还可以使得预测结果有更强的可解释性。
图1为本说明书披露的一个实施例的实施过程示意图。如图1所示,根据实施例的方案,首先抽取样本事件,并为样本事件构建特征。在对事件进行特征构建时,不仅考虑事件本身的要素,还结合相关领域的知识图谱,从知识图谱中挖掘出相关要素,共同构成事件特征,如此使得事件特征更加全面更加丰富。在此基础上,利用多个样本事件的事件特征和标定的风险度训练梯度提升决策树GBDT模型,通过训练得到决策树。在该决策树中,从根节点到叶子节点的路径对应一种特征组合。如此,不仅可以使用训练得到的GBDT模型对于待分析事件评估出其风险度,还可以通过决策树中决策路径所对应的特征组合,对各种特征对事件风险度的贡献和影响进行解释,使得事件分析具有更强的逻辑脉络和可解释性。下面具体描述以上构思的实现方式。
图2示出根据一个实施例的事件风险评估方法的流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该风险评估方法至少包括以下步骤:步骤21,采用自然语言处理模型,从内容文本库中提取多个样本事件,所述多个样本事件包括第一样本事件,所述提取多个样本事件包括,识别第一样本事件及其对应的第一事件类型,并根据第一事件类型,提取所述第一样本事件的至少一个第一事件要素;步骤22,在与所述第一样本事件相关联的至少一个领域所对应的至少一个知识图谱中,获取与所述至少一个第一事件要素相关联的至少一个第一关联要素;步骤23,根据所述第一事件类型,至少一个第一事件要素,以及所述至少一个第一关联要素,确定所述第一样本事件的事件特征;步骤24,根据所述多个样本事件中各个样本事件的事件特征,以及各个样本事件的标定风险值,训练梯度提升决策树GBDT模型,得到训练的GBDT模型;步骤25,利用所述训练的GBDT模型,对待分析的第二事件进行风险评估。
可以理解,在以上步骤中,步骤21-24涉及对用于事件评估的GBDT模型的训练过程,步骤25涉及使用训练得到的模型进行预测和评估的过程。下面结合具体例子,描述以上各个步骤的执行方式。
首先,在步骤21,采用自然语言处理模型,从内容文本库中提取多个事件作为样本事件,用于模型训练。根据要分析事件的领域,上述内容文本库可以包括,财经新闻,科技新闻,科研文章,等等。可以理解,已经存在多种基于自然语言处理的事件提取模型,这些模型都可以用于在步骤21中进行事件提取。
一般的,事件提取过程至少包含以下步骤:首先基于自然语言处理对文本中的句子进行分词,去停用词等预处理,得到分词集合;可选的,还对分词集合中的分词进行实体识别;然后,从分词集合中确定出事件的触发词。一般的,触发词的类型与事件类型相对应,一旦确定出触发词以及触发词类型,就可以确定出事件类型。进一步地,为了对事件进行表述,还从分词集合中确定出作为论元的论元词,以及各个论元词的角色。通过提取和确定触发词和论元词,就可以识别出一个事件,并确定出该事件的事件类型。
根据本说明书的实施例,在步骤21,提取各个事件还包括,提取各个事件的要素。下面以其中的任意一个事件,下文称为第一样本事件为例,描述提取事件要素的过程。需要理解,本文中的“第一”、“第二”的描述,仅仅是用于区分相似的对象,而不具有其他限定意义。
如前所述,通过从内容文本库提取和确定触发词和论元词,可以识别出第一样本事件,同时确定出该第一样本事件的事件类型。相应地,根据第一样本事件的事件类型,以下称为第一事件类型,从前述的内容文本库提取第一样本事件的事件要素。事件要素可以包括,事件时间、事件地点、实施主体、事件客体、事实类型、事件等级等等。根据一个实施例,要提取的事件要素与事件类型相关,不同事件类型对应于不同的事件要素。
例如,在一个具体例子中,从内容文本库中识别出的第一样本事件为“XY公司疫苗造假事件”,该事件对应的事件类型为“产品造假”。对于这样的事件类型,需要提取的事件要素可以包括,实施主体,产品类别,事件等级,等等。
在另一个具体例子中,识别出的第一样本事件为“传某某人增持AB公司股票”,该事件对应的事件类型为“高管增持”。对于这样的事件类型,需要提取的事件要素可以包括,事件时间,人物,事实类型,数值要素(增持比例),等等。
根据一个实施例,可以预先针对各个事件类型提供要素模板,该要素模板可以定义对应事件类型下要提取的各个要素。可选的,要素模板还可以定义各个要素的数据格式。于是,对于上述第一样本事件,可以确定上述第一事件类型对应的要素模板;利用该要素模板,从内容文本库中提取第一样本事件的事件要素。
如此,从内容文本库中识别出第一样本事件和对应的事件类型,并提取出与该事件类型对应的各个事件要素。下文中,将从内容文本库中提取的第一样本事件的事件要素称为第一事件要素。
为了更全面更丰富地表征该第一样本事件,在步骤22,在与第一样本事件相关联的领域所对应的至少一个知识图谱中,获取与第一事件要素相关联的关联要素。
可以理解,现有技术中已经针对各种领域或各种主题,整理有各种形式的知识图谱。这些知识图谱可以包括,企业知识图谱,产品知识图谱,人物知识图谱,信息知识图谱,股票知识图谱,基金知识图谱,机构知识图谱,等等。在步骤22,可以根据第一样本事件所关联的领域,选择出至少一个知识图谱。例如,在第一样本事件为“产品造假”类事件时,可以获取的相关领域的知识图谱包括,企业知识图谱,机构知识图谱,产品知识图谱,等等。在第一样本事件为“高管增持”类事件时,可以获取的相关领域的知识图谱可以包括,人物知识图谱,企业知识图谱,股票知识图谱,基金知识图谱,等等。
如此,在确定出与第一样本事件相关联的领域所对应的知识图谱后,就可以在这些知识图谱中,对事件要素进行扩展,得到与步骤21提取的第一事件要素相关联的关联要素。
一般的,知识图谱可以整理为节点连接图的形式,其中包括多个节点,每个节点对应一个知识点,具有关联关系的知识点所对应的节点之间,通过连接边进行连接。从某个节点出发,通过一条连接边可以到达的节点称为该节点的一度关联节点,通过至少k条连接边可以到达的节点称为k度关联节点,或k阶邻居节点。
基于此,在步骤22中,可以将步骤21中提取的第一事件要素映射为上述知识图谱中的节点,称为第一节点;然后,从第一节点出发,将知识图谱中与第一节点相关联的节点作为第一样本事件的关联要素。
具体的,在一个实施例中,可以选择与第一节点直接连接的节点,也就是一度关联节点,作为关联要素。在另一实施例中,还可以选择与第一节点最大k度关联的节点作为关联要素,其中k的值可以根据需要预先设定,例如k=3。
例如,假定第一样本事件为“产品造假”类事件,提取的事件要素包括实施主体:公司,产品类别:医药,等等。对于“公司”这一事件要素,在企业知识图谱中可以确定出其一度关联的节点包括,例如“板块”、“地域”,对于“医药”这一事件要素,在产品知识图谱中可以确定出其一度关联的节点包括,例如“副作用”等,于是,可以将以上关联的节点:“板块”、“地域”,“副作用”等,作为第一样本事件的关联要素。
如此,通过相关领域的知识图谱,扩展了第一样本事件的要素表达。
接着,在步骤23,根据上述第一样本事件的事件类型,步骤21中提取的第一事件要素,以及步骤22中扩展得到的关联要素,确定第一样本事件的事件特征。
具体地,在一个实施例中,可以将第一样本事件的事件特征通过特征向量F来表示,F=<f1,f2,f3,…,fn>。特征向量F中的n项特征f1-fn中,包括第一样本事件的事件类型,也包括与步骤21中提取的第一事件要素对应的特征,还包括与步骤22得到的关联要素对应的特征。这些特征既可以是离散型特征,也可以是连续型特征。如此,为第一样本事件构建了全面的事件特征。
另一方面,还可以获取该第一样本事件的标定风险值作为该样本的标签,该标定风险值用于反映,该第一样本事件历史上真实的事件影响程度。在一个实施例中,标定风险值通过人工标注确定,也就是,人为衡量该第一样本事件所造成的影响程度,并给出影响程度/风险程度的等级或打分。在另一实施例中,将一些已有的指标值作为标定风险值。例如,对于经济领域的事件,可以通过对应企业股价的变动反映事件的影响,相应的,可以将一些股价指标作为标定风险值。更具体的,例如,可以将事件发生后3天内的累积股价涨/跌幅作为标定风险值,或者将事件发生后,5日最大回撤指标作为标定风险值。
如此,还获取了第一样本事件的标定风险值作为样本的标签。第一样本事件的事件特征与标签,共同构成一个训练样本。
如前所述,第一样本事件为前述多个样本事件中的任意一个样本事件。因此,对于上述多个样本事件的每一个,均可以采用前述步骤21-23的过程,确定各个样本事件的事件特征,以及各个样本事件的标定风险值,如此获得多个训练样本。
于是,在步骤24,根据上述各个样本事件的事件特征,以及各个样本事件的标定风险值,训练梯度提升决策树GBDT模型。
GBDT模型包括至少一颗决策树,这些决策树通过以下过程训练得到。首先,根据前述步骤,已经获取到训练样本集其中N为样本事件的数目。其中,F(i)为第i个样本事件的特征向量,其例如为n维向量,即F=(f1,f2,…,fn),y(i)为第i个样本事件的标定风险值。然后,通过决策树对所述N个样本事件进行分割,在决策树的每个枝干节点设定分裂特征和特征阈值,通过在枝干节点处将样本事件的对应特征与特征阈值比较而将样本事件分割到相应的子节点中。通过这样的过程,最后将N个样本事件分割到各个叶子节点中。于是,可以得到各个叶子节点的分值,即为该叶子节点中各个样本事件的标定风险值(即y(i))的均值。
在此基础上,还可以在残差减小的方向继续训练进一步的决策树。即,在获取上述决策树之后,通过将每个样本事件的标定风险值与该样本事件在前述决策树中的叶子节点的分值相减,获取每个样本事件的残差r(i),以为新的训练集,其与D1对应于相同的样本事件集合。以与上述相同的方法,可获取进一步的决策树,在该决策树中,N个样本事件同样被分割到各个叶子节点中,并且每个叶子节点的分值为各个样本事件的残差值的均值。类似地,可顺序获取多个决策树,每个决策树都基于前一个决策树的残差获得。从而可获得包括多个决策树的GBDT模型。
图3示出根据一个实施例训练得到的决策树。如图3所示,训练得到的决策树包括枝干节点和叶子节点,每个枝干节点设定有分裂特征和特征阈值,各个样本事件通过在枝干节点处将分裂特征与特征阈值进行比较,而进入下一枝干节点,最终被划分到叶子节点。例如,节点0通向节点1的箭头上标出“f1≤0.5”,节点0通向节点2的箭头上标出“f1>0.5”,这里的f1表示特征1,更具体的,特征1例如是“事件类型”,其为节点0的分裂特征,0.5就是节点0的分裂阈值。
可以看到,在训练得到的决策树中,从根节点到叶子节点的路径经过若干枝干节点的组合,每个枝干节点对应有分裂特征,于是该路径对应一种特征组合,该特征组合反映出,一个样本事件被划分到对应叶子节点所基于的特征。
一般的,决策树中的叶子节点通过训练会得到对应分值,该分值例如是该叶子节点中各个样本事件的标定风险值的均值,或残差的均值。
根据本说明书的实施例,为每个枝干节点也赋予一定的分值,该分值基于该枝干节点所覆盖的叶子节点的分值而确定。例如,在一个实施例中,枝干节点的分值可以确定为,该枝干节点所覆盖的叶子节点的分值的平均值。
在另一个实施例中,基于以下公式确定枝干节点的分值:
其中,Nc1和Nc2为在模型训练中分别落入该枝干节点的子节点c1和c2的样本数。即,父节点的分值为其两个子节点的分值的加权平均值,所述两个子节点的权重为模型训练过程中落入其中的样本数。如此,可以从叶子节点开始,逐层向上确定出各个枝干节点的分值。
为了示例的目的,图3在部分节点下方标出了该节点的分值,其中,枝干节点的分值为覆盖的叶子节点的分值的平均。
如此,为每个枝干节点也赋予相应分值。以上分值也可以称为节点的风险分值。
在此基础上,还可以通过训练过程为各个枝干节点赋予节点权重。对于某个枝干节点A,可以基于该枝干节点A分裂前后的各个节点各自的节点损失值而确定,所述节点损失值基于落入该节点的样本事件的标定风险值与该节点的风险分值的差值而确定。
具体的,假定从枝干节点A分裂为两个子节点L和R(L和R可以是叶子节点,也可以是枝干节点)。那么,节点A的权重可以定义为:
节点L的损失值+节点R的损失值-A的损失值。
其中,节点L的损失值基于落入节点L的样本事件的标定风险值与节点L的风险分值的差值而确定。更具体的,该损失值可以是各个样本的标定风险值与节点的风险分值的差值的平方和。或者,在其他例子中,也可以是上述差值的方均根。类似可以得出节点R的损失值,节点A的损失值,进而得到节点A的权重。
通过以上方式为每个枝干节点赋予了节点权重。由于每个枝干节点还对应一项特征,节点权重可以从一定意义上反映,在本次分裂时,该特征所起的作用,并在一定程度上反映该特征对决策路径的贡献度。
基于以上训练得到的GBDT模型,就可以对未知结果的事件进行风险评估。并且,由于以上GBDT模型中决策树的特点,还可以更好地对风险评估结果进行解释。
下面描述使用GBDT模型进行风险评估的过程。也就是,在图2的步骤25,利用训练得到的GBDT模型,对待分析的事件进行风险评估。为了描述的清楚和简单,将待分析的事件称为第二事件。
图4示出在一个实施例中对第二事件进行风险评估的流程图,也就是上述步骤25的子步骤。可以理解,为了对第二事件进行评估,首先要构建第二事件的事件特征,事件特征的构建过程与GBDT模型训练阶段中样本事件的事件特征的构建方式相对应。
具体的,在步骤251,获取第二事件的事件类型,以及至少一个第二事件要素。
在一个实施例中,可以由用户直接输入第二事件的事件类型和事件要素。例如,当用户想要查询或评估某个事件的风险度或影响度时,可以直接在查询接口中输入第二事件的描述,例如“FF公司用户数据泄露”,然后选择事件类型“信息泄露”,接着,在根据事件类型提供的要素模版中,输入该事件的事件要素,例如,实施主体,数据类别,事件等级,等等。
在另一实施例中,可以将描述第二事件的文本输入到评估系统,由评估系统进行事件识别和要素提取。上述输入文本例如可以是财经资讯等新闻报道,或者互联网上的各种文章等等。事件识别和要素提取的过程与前述的步骤21相似。也就是,采用自然语言处理模型,从输入文本中识别出第二事件以及第二事件类型;并根据第二事件类型,从所述输入文本中提取第二事件的事件要素。
在得到第二事件的事件要素后,在步骤252,在与第二事件的领域相关的至少一个知识图谱中,获取与第二事件的事件要素相关联的关联要素。具体的,可以在知识图谱中,将第二事件的事件要素映射为第二节点,然后将与第二节点关联的节点作为关联要素。这个过程与前述步骤22相似,不再赘述。
然后,在步骤253,根据第二事件的事件类型,事件要素,以及关联要素,确定第二事件的事件特征,下文称为第二事件特征。第二事件特征可以表示为特征向量V。如此,为第二事件构建了事件特征。
接着,在步骤254,将第二事件的事件特征V输入到前述训练得到的GBDT模型,根据模型输出确定第二事件的风险值。
如前所述,训练得到的GBDT模型包括至少一棵决策树,决策树中的枝干节点对应有分裂特征和特征阈值。在将第二事件特征V输入GBDT模型后,在决策树的每个枝干节点i处,将特征向量V中与枝干节点的分裂特征对应的特征的特征值与特征阈值比对,根据比对结果,将第二事件划分到下一层级的节点,直到划分到叶子节点。
图5示出在一个实施例中第二事件在决策树中的划分过程,该决策树与图3所示的决策树相同。具体的,假定节点0处的分裂特征为f1“事件类型”,特征阈值为0.5;节点2处的分裂特征为f3“实施主体”,特征阈值为0.6。将第二事件的事件特征向量V输入该决策树。在节点0处,假定第二事件特征V中,“事件类型”对应的特征值为0.8,大于该分裂特征的特征阈值0.5,于是第二事件从节点0被划分到节点2。接着,在节点2处,判断分裂特征“实施主体”。假定第二事件特征向量V中“实施主体”这一特征的特征值为0.2,小于该分裂特征的特征阈值0.6,于是,第二事件被接着划分到节点5。如此继续,直到第二事件被划分到叶子节点16。
如前所述,通过训练,每个叶子节点得到有对应分值,因此,GBDT模型可以输出第二事件所划分到的叶子节点的分值,于是,在步骤254,可以将模型输出的叶子节点的分值作为第二事件的风险值。例如,图5中叶子节点16的分值0.062即可作为第二事件的风险值。在GBDT模型包括多个决策树的情况下,在每棵决策树中第二事件都会被划分到对应叶子节点。此时,GBDT模型可以确定出在各个决策树中第二事件所在的叶子节点的对应分值,并将各个叶子节点对应分值的和值,即总分值,作为输出结果。于是,可以将GBDT模型输出的该总分值作为第二事件的风险值。
以上,通过将第二事件的事件特征输入训练的GBDT模型,即可根据模型输出确定出第二事件的风险值,从而对第二事件进行定量的风险评估。
此外,在一个实施例中,步骤25中对第二事件进行风险评估还可以包括,在步骤254给出第二事件的风险值之后,对第二事件的风险值进行特征解释。
图6示出在一个实施例中进行特征解释的步骤流程。如图6所示,在步骤61,根据第二事件的事件特征确定第二事件在决策树中的决策路径。如前所述,为了给出第二事件的风险值,在决策树的各个枝干节点处,根据第二事件的对应特征的特征值,将第二事件划分到子节点,直到到达叶子节点。如此,在决策树中从根节点到第二事件所划分到的叶子节点所经过的路径即为决策路径。
例如,如图5所示,第二事件最终被划分到了叶子节点16,从根节点0,经过节点2,节点5,节点11,到达节点16的路径即为第二事件的决策路径。
可以理解,在GBDT模型包含多个决策树的情况下,可以在每个决策树中都确定出对应的决策路径。
接着在步骤62,确定决策路径所经过的各个枝干节点,并获取各个枝干节点对应的特征以及节点权重。
可以理解,决策路径的起点为决策树的根节点,终点为第二事件所划分到的叶子节点,除叶子节点之外的节点可以作为枝干节点。如此,可以确定出决策路径所包含的各个枝干节点。在决策路径为多条路径的情况下,确定出多条路径中包含的各个枝干节点。
如前所述,根据本说明书的实施例,为决策树中的各个枝干节点赋予了一定的节点权重。如此,可以确定出决策路径中各个枝干节点的节点权重。
于是,在步骤63,对于第二事件的事件特征中包含的某项特征,称为第一特征,根据上述各个枝干节点中对应于该第一特征的至少一个枝干节点的节点权重,确定该第一特征的特征权重,作为该第一特征对于所述风险值的重要性。
需要理解的是,决策树中每个枝干节点对应一项特征,但是一项特征可以出现在多个决策树的多个枝干节点中,甚至同一棵决策树的多个枝干节点中。因此,对于上述第一特征,可以首先从决策路径包含的枝干节点中确定出与该第一特征对应的至少一个枝干节点,获取该至少一个枝干节点的节点权重,据此确定该特征的特征权重。具体的,在一个例子中,第一特征的特征权重可以是,与该第一特征对应的上述至少一个枝干节点的节点权重的平均值。如此,获取到了第一特征的特征权重,该特征权重就可以反映第一特征对于第二事件的风险值的贡献度或重要性。相应的,可以获取第二事件的事件特征中各个特征的特征权重,作为对第二事件的风险值的贡献度或重要性。
在一个实施例中,可以根据各个特征的特征权重的排序,对相应的特征进行排序,从而表示出,对第二事件的风险值产生影响的特征的重要性排序。
例如,在一个具体例子中,第二事件为“上市公司历史财务造假”。通过以上实施例的方法,可以得出,对该事件的风险值产生影响的特征按照重要性依次为:“处罚类型”,“事实类型”,“股票表现”和“处罚组织”。
简而言之,在GBDT模型包含的决策树中,第二事件经由决策路径被划分到叶子节点,进而通过叶子节点的分值确定出第二事件的风险值。此外,决策路径经过多个枝干节点,每个枝干节点对应一项特征,因此决策路径可以对应于,所经过的各个枝干节点的分裂特征的特征组合。通过各个枝干节点的节点权重,可以衡量对应特征对于最终的风险值结果的贡献度或重要性,也就是,对风险值结果进行了特征解释。因此,在以上过程中,不仅通过GBDT模型确定出第二事件的风险值,还可以对该风险值进行特征解释,也就是说明,得出这样的风险值,各项特征所起的作用的大小。
以上描述了对于待评估的第二事件,通过知识图谱对事件要素进行扩展后得到第二事件的全面的事件特征,将事件特征输入训练好的GBDT模型得到第二事件的风险值的过程。在此基础上,还可以利用GBDT模型中的参数对得到的风险值进行特征解释。以上评估过程适用于能够获得第二事件的对应要素,进而能够构建事件特征的情况。
根据一种实施方式,以上训练得到的GBDT模型还可以适用于,对于无法获得完整事件特征的事件进行条件预测,也就是,当只能获得事件的很少一部分要素时,给出不同条件或不同情况下事件的不同风险走向的评估。
例如,想要评估“某公司疫苗造假”事件的可能影响。假定只能获得该事件的事件类型为“产品造假”,实施主体为某公司,其他要素难以获取。此时,也可以利用以上训练得到的GBDT模型,给出该事件在不同情况下的风险走向评估,例如,在满足什么条件的情况下,该事件会产生极大的舆论风险影响,在满足什么条件的情况下,该事件的影响会最小化。下面描述对于这样的第二事件的评估过程。
图7示出根据一个实施例对第二事件进行评估的步骤流程图。
如图7所示,首先,在步骤71,获取第二事件的至少一个事件要素。如上所述,该步骤流程适用于第二事件要素不完整的情况,因此,该步骤71中获取的事件要素可以是少量的、不完整的事件要素,例如只有实施主体,甚至只能得到事件类型。例如,对于上述“某公司疫苗造假”事件,假定只能获得该事件的事件类型为“产品造假”,实施主体为某公司。
接着,在步骤72,根据所述至少一个事件要素,在决策树中对第二事件进行划分,基于划分的停止节点确定决策树的子树。
可以理解,由于事件要素不完整,事件特征不完整,因此,往往无法在决策树中得到从根节点到叶子节点的完整的决策路径。此时,可以根据已得到的要素,在决策树中对第二事件进行划分,确定出无法继续划分而划分停止的停止节点,并基于该停止节点确定出决策树的子树,该子树即为停止节点所覆盖的节点区域。
结合图3的决策树示意图进行描述。首先在节点0处,判断分裂特征“事件类型”。假定第二事件“某公司疫苗造假”的事件类型为0.3,小于特征阈值0.5,于是,第二事件被划分到节点1。节点1处的分裂特征为f2“处罚类型”。然而,如上所述,由于第二事件的要素不完整,无法获得到该项特征,于是第二事件无法继续划分,节点1即为停止节点。节点1覆盖的节点区域即为上述的子树。
然后,在步骤73,确定上述子树中满足预定条件的第一叶子节点,以及从根节点到该第一叶子节点的条件路径。
上述预定条件可以根据评估需要设定,例如可以是,风险最大,风险最小,风险值满足一定阈值,等等。
如果预定条件为风险最大,那么,就从子树所包含的各个叶子节点中,选择分值最大的叶子节点作为上述第一叶子节点。从根节点到该叶子节点的路径即为上述条件路径。
沿用上例并结合图3,停止节点为节点1,确定出的子树包含叶子节点7,8,9,10,假定其中节点8的分值最大,那么可以将节点8确定为风险最大条件下的叶子节点,将从节点0到节点8的路径,即包含节点0,1,3,8的路径作为上述条件路径。
其他预定条件的情况下,则相应地根据各个叶子节点的分值选择出相应的叶子节点作为第一叶子节点。
接着在步骤74,获取所述条件路径中包含的枝干节点所对应的特征组合,将所述特征组合作为所述第二事件在所述预定条件下的影响特征。
可以理解,条件路径对应于,在假设出现的预定条件下,第二事件的划分路径。因此,该路径中包含的枝干节点对应的特征组合即为,对第二事件产生影响、使其满足上述预定条件的那些特征。例如,如果预定条件为风险最大,那么此时条件路径对应的特征组合即为,导致第二事件出现最大风险的影响特征。如此,对第二事件进行条件预测和解释,给出不同条件下的不同影响特征,帮助预测事件的后续走向。
进一步的,根据一种实施方式,还可以提供以下信息作为第二事件的评估。例如,在一个实施例中,可以提供上述第一叶子节点的分值,作为预定条件下第二事件的风险值。例如,在预定条件为风险最大的情况下,可以提供节点8的分值,作为第二事件的可能的最大风险值。
在一个实施例中,可以根据上述条件路径中枝干节点的节点权重,确定上述特征组合中各项特征的重要度。这一过程与前述步骤63类似。
通过以上方式,可以对于要素较少、特征不完整的第二事件进行评估,给出出现不同风险结果时第二事件对应满足的特征条件,从而更好地利用GBDT模型的特点,对事件未来的风险性进行解释和预测。
根据另一方面的实施例,提供了一种事件风险评估的装置,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图8示出根据一个实施例的事件评估装置的示意性框图。如图8所示,该评估装置800包括:
提取单元81,配置为采用自然语言处理模型,从内容文本库中提取多个样本事件,所述多个样本事件包括第一样本事件,所述提取多个样本事件包括,识别第一样本事件及其对应的第一事件类型,并根据第一事件类型,提取所述第一样本事件的至少一个第一事件要素;
关联单元82,配置为在与所述第一样本事件相关联的至少一个领域所对应的至少一个知识图谱中,获取与所述至少一个第一事件要素相关联的至少一个第一关联要素;
确定单元83,配置为根据所述第一事件类型,所述至少一个第一事件要素,以及所述至少一个第一关联要素,确定所述第一样本事件的事件特征;
训练单元84,配置为根据所述多个样本事件中各个样本事件的事件特征,以及各个样本事件的标定风险值,训练梯度提升决策树GBDT模型,得到训练的GBDT模型;
评估单元85,配置为利用所述训练的GBDT模型,对待分析的第二事件进行风险评估。
在一个实施例中,所述提取单元81具体配置为:确定所述第一事件类型对应的第一模板;利用所述第一模板,从所述内容文本库中提取所述第一样本事件的至少一个第一事件要素。
根据一个实施例,上述第一事件要素包括以下中的至少一个:事件时间、事件地点、实施主体、事件客体、事实类型、事件等级。
在一个实施例中,所述关联单元82具体配置为:
将所述至少一个第一事件要素映射为所述至少一个知识图谱中的第一节点;将所述至少一个知识图谱中与所述第一节点直接连接的节点作为所述至少一个第一关联要素。
根据一个实施例,上述知识图谱可以包括以下中的一个或多个:企业知识图谱,产品知识图谱,人物知识图谱,信息知识图谱,股票知识图谱,基金知识图谱,机构知识图谱。
根据一种实施方式,所述评估单元85包括:
要素获取模块851,配置为获取第二事件的事件类型,以及至少一个第二事件要素;
要素关联模块852,配置为在所述至少一个知识图谱中,获取与所述至少一个第二事件要素相关联的至少一个第二关联要素;
第一确定模块853,配置为根据所述第二事件的事件类型,所述至少一个第二事件要素,以及所述至少一个第二关联要素,确定所述第二事件的事件特征;
第二确定模块854,配置为将所述第二事件的事件特征输入所述训练的GBDT模型,根据模型输出确定所述第二事件的风险值。
具体的,在一个实施例中,所述要素获取模块851配置为:
从输入文本中识别出所述第二事件以及第二事件类型;
根据第二事件类型,从所述输入文本中提取所述至少一个第二事件要素。
在另一实施例中,所述要素获取模块851配置为:
接收输入的第二事件,以及所述至少一个第二事件要素。
根据一个实施例,训练得到的GBDT模型包括至少一棵决策树,所述决策树包括枝干节点和叶子节点,每个枝干节点对应一项特征,并具有训练得到的风险分值以及节点权重,其中节点权重基于该枝干节点以及分裂后节点各自的节点损失值确定,所述节点损失值基于落入该节点的样本事件的标定风险值与该节点的风险分值之差而确定;
相应的,在一个实施例中,评估单元85还包括(未示出):
决策路径确定模块,配置为根据所述第二事件的事件特征确定所述第二事件在所述决策树中的决策路径;
节点权重确定模块,配置为确定所述决策路径所经过的各个枝干节点,并获取各个枝干节点对应的特征以及节点权重;
重要性确定模块,配置为对于所述第二事件的事件特征中包含的第一特征,根据所述各个枝干节点中对应于该第一特征的至少一个枝干节点的节点权重,确定该第一特征的特征权重,作为该第一特征对于所述风险值的重要性。
根据另一种实施方式,评估单元85包括(未示出):
要素获取模块,配置为获取第二事件的至少一个第二事件要素;
子树确定模块,配置为根据所述至少一个第二事件要素在所述决策树中对第二事件进行划分,基于划分的停止节点确定所述决策树的子树;
条件路径确定模块,配置为确定所述子树中满足预定条件的第一叶子节点,以及从根节点到该第一叶子节点的条件路径;
特征确定模块,配置为获取所述条件路径中包含的枝干节点所对应的特征组合,将所述特征组合作为所述第二事件在所述预定条件下的影响特征。
在一个实施例中,所述决策树中每个叶子节点通过训练得到有风险分值,每个枝干节点对应一项特征,并具有训练得到的风险分值以及节点权重,其中节点权重基于该枝干节点以及分裂后节点各自的节点损失值确定,所述节点损失值基于落入该节点的样本事件的标定风险值与该节点的风险分值之差而确定;
相应的,所述评估单元还包括以下中的一项或多项:
第三确定模块,配置为确定所述第一叶子节点对应的第一风险分值,作为所述预定条件下第二事件的风险值;
第四确定模块,配置为根据所述条件路径中各个枝干节点的节点权重,确定所述特征组合中与所述各个枝干节点对应的各项特征的重要度。
通过以上的装置,实现GBDT模型的训练和使用,对事件风险进行有效的评估和解释。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2,所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2和图4所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。