CN114331122A

CN114331122A - 重点人员风险等级评估方法及相关设备

Info

Publication number: CN114331122A
Application number: CN202111626116.2A
Authority: CN
Inventors: 朵思惟; 余梓飞; 张程华; 张艳丽
Original assignee: Tianjin Huizhi Xingyuan Information Technology Co ltd
Current assignee: Tianjin Zhonghuan System Construction Co ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-12
Also published as: CN116205482A

Abstract

本申请提供一种重点人员风险等级评估方法及相关设备，该方法包括采用基于预训练模型的实体‑关系联合抽取方式，获取到目标人员及其相关的实体、实体属性及关系，构建目标人员知识图谱，并根据预先构建的风险评估指标体系对给定类别目标人员风险影响因素的特征值进行填充。基于知识推理中混合推理的方法，对已构建知识图谱中的隐关系变量及特征进行知识推理和挖掘，进而补全实体及边关系，然后基于补全的知识图谱进一步对风险评估指标体系数据缺失值进行补全。最后，基于补全的风险指标数据通过风险研判模型输出目标人员的风险得分，从而确定目标人员的风险等级。本申请能够有效提高目标人员管理过程中的工作效率，同时降低人力管理成本。

Description

重点人员风险等级评估方法及相关设备

技术领域

本申请涉及机器学习技术领域，尤其涉及一种重点人员风险等级评估方法及相关设备。

背景技术

在近些年改革开放不断深化的影响下，中国对外开放水平不断提高，人民生活水平大幅度改善，人口流动愈加频繁，人员流动的机会和频率大大增加，治安管理的复杂性和艰巨性日益凸显，公共安全和治安秩序面临新的挑战。有效评估并及时预警干预目标人员可能对社会造成的伤害，能够极大增强社会治安效果。

预警和打击干预是有效控制目标人员潜在风险不可偏废的两个方面，然而在实践中“重打击轻预警”的问题普遍存在，治安风险评估缺少足够的科学方法支撑，在实际治安工作中多为犯罪行为发生后的被动式调查工作，完整意义上的提前判断潜在风险的预警工作仍偏少。因此，迫切需要应用大数据、机器学习和深度学习等领域的相关技术从海量且复杂的数据源中提取有效信息，并根据历史研判经验进行建模，推动预警模式的转型，对目标人员的潜在违法行为实施有效的风险预警，进而降低目标人员给社会治安带来的潜在危害。

发明内容

有鉴于此，本申请的目的在于提出一种重点人员风险等级评估方法及相关设备。

基于上述目的，本申请提供了重点人员风险等级评估方法，包括：

根据目标人员的相关信息构建风险评估指标体系；

根据所述风险评估指标体系对所述目标人员的相关信息进行数据标注，以得到第一风险指标数据；

基于所述第一风险指标数据通过知识抽取和知识融合构建第一目标人员知识图谱；

基于预设的抽象规则库对所述第一目标人员知识图谱进行补全，以得到第二目标人员知识图谱；

基于所述第二目标人员知识图谱对所述第一风险指标数据进行补全，以得到第二风险指标数据；

基于所述第二风险指标数据通过预先构建的风险研判模型得到所述目标人员的风险得分；

基于所述风险得分和预设阈值确定所述目标人员的风险等级。

进一步的，所述基于所述第一风险指标数据通过知识抽取和知识融合构建第一目标人员知识图谱，包括：

通过预训练模型Bert对所述第一风险指标数据进行实体关系抽取，确定第一实体关系三元组；

通过实体对齐和实体链接对所述第一实体关系三元组进行知识融合；

将经过知识融合的所述第一实体关系三元组与预设的结构化知识体系进行结合，以构建所述第一目标人员知识图谱。

进一步的，所述基于预设的抽象规则库对所述第一目标人员知识图谱进行补全，以得到第二目标人员知识图谱，包括：

遍历所述第一目标人员知识图谱中的全部第二实体关系三元组，将全部满足所述抽象规则库的所述第二实体关系三元组对应的实例规则合并作为初始实例规则库；

根据所述第二实体关系三元组构建负例实体关系三元组；

将所述第二实体关系三元组和所述负例实体关系三元组输入预先构建的知识图谱嵌入模型中，输出实体的向量嵌入表示和关系的矩阵嵌入表示；

基于所述实体的向量嵌入表示和所述关系的矩阵嵌入表示，通过计算得到所述初始实例规则库中每个所述实例规则的置信度得分；

将全部所述置信度得分超过预设置信度阈值的所述实例规则合并作为合理实例规则库；

基于第二实体关系三元组，根据所述合理实例规则库推理得到补充实体关系三元组；

将所述补充实体关系三元组补入所述第一目标人员知识图谱中，以得到所述第二目标人员知识图谱。

进一步的，所述根据所述第二实体关系三元组构建负例实体关系三元组，包括：

将所述第二实体关系三元组中的实体替换为所述第一目标人员知识图谱中的任一实体，

和/或将所述第二实体关系三元组中的关系替换为所述第一目标人员知识图谱中的任一关系，以得到所述负例实体关系三元组。

进一步的，所述风险研判模型是通过极限梯度提升XGBoost算法进行预训练的。

进一步的，所述基于所述第二风险指标数据通过预先构建的风险研判模型得到所述目标人员的风险得分，包括：

将所述第二风险指标数据通过独热one-hot编码方法进行编码后输入所述风险研判模型中，以输出所述目标人员的风险得分。

基于同一发明构思，本公开还提供了一种重点人员风险等级评估方法装置，包括：

体系构建模块，被配置为根据目标人员的相关信息构建风险评估指标体系；

数据标注模块，被配置为根据所述风险评估指标体系对所述目标人员的相关信息进行数据标注，以得到第一风险指标数据；

知识图谱构建模块，被配置为基于所述第一风险指标数据通过知识抽取和知识融合构建第一目标人员知识图谱；

知识图谱补全模块，被配置为基于预设的抽象规则库对所述第一目标人员知识图谱进行补全，以得到第二目标人员知识图谱；

数据补全模块，被配置为基于所述第二目标人员知识图谱对所述第一风险指标数据进行补全，以得到第二风险指标数据；

风险研判模块，被配置为基于所述第二风险指标数据通过预先构建的风险研判模型得到所述目标人员的风险得分；

风险等级确定模块，被配置为基于所述风险得分和预设阈值确定所述目标人员的风险等级。

进一步的，所述知识图谱构建模块，具体被配置为：

所述基于所述第一风险指标数据通过知识抽取和知识融合构建第一目标人员知识图谱，包括：

基于同一发明构思，本公开还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上所述的方法。

基于同一发明构思，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如上所述的方法。

从上面所述可以看出，本申请提供的一种重点人员风险等级评估方法及相关设备，针对不同来源的原始数据信息，本申请采用基于预训练模型的实体-关系联合抽取方式，获取到目标人员及其相关的实体、实体属性及关系，从不同来源的数据中提取有效信息并将其以“三元组”结构化的形式进行储存，形成目标人员知识图谱，并根据预先构建的风险评估指标体系对给定类别目标人员风险影响因素的特征值进行填充。基于知识推理中混合推理的方法，对已构建知识图谱中的隐关系变量及特征进行知识推理和挖掘，进而补全实体及边关系，然后基于补全的知识图谱进一步对风险评估指标体系数据缺失值进行补全。最后，基于补全的风险指标数据通过风险研判模型输出目标人员的风险得分，从而确定目标人员的风险等级。本申请能够有效提高目标人员管理过程中的工作效率，同时降低人力管理成本。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的重点人员风险等级评估方法的流程示意图；

图2为本申请实施例的第一目标人员知识图谱的示意图；

图3为本申请实施例的知识图谱补全的流程示意图；

图4为本申请实施例的重点人员风险等级评估装置的结构图；

图5为本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

目前，针对目标人员风险预警的研究主要依据不同类别目标人员的风险评分指标，由技术人员凭借实践判断对给定目标人员的不同风险因子进行评分，再根据线性加权得分和预设的阈值确定最终是否预警。在实际应用中，由于不同风险因子对最终预警得分的影响往往是以非线性的组合方式呈现的，这种以目标人员为单位的评分机制，只考虑到了不同风险因子的线性相关性，无法准确评估目标人员的风险程度，且缺乏对“人员-人员”、“事件-人员”、“事件-事件”等关联因素的考虑，未形成和建立一个共识度高的预警方法和体系。针对上述问题，本申请基于机器学习算法极限梯度提升XGBoost(eXtremeGradient Boosting)建立预警模型，对目标人员的风险预警进行研究，实现对目标人员的风险等级评估。在设定风险量化赋值、建立动态预警模型，以及确定高危人员不同风险的预警标准时，涉及形成规则、有效测算的问题，如何选择科学的测算方法得出合理的风险测度结果，是提高动态风险预警能力、加强高危人员风险控制的现实需求。

以下结合附图来详细说明本申请的实施例。

本申请提供了一种重点人员风险等级评估方法，参考图1，包括以下几个步骤：

步骤S101、根据目标人员的相关信息构建风险评估指标体系。

本实施例中根据不同类别目标人员的历史信息和行业专家的建议，构建不同类别目标人员的风险评估指标体系，涵盖目标人员的基本信息，基本信息主要包含目标个人和家庭情况维度的因素，以及不同类别目标人员的特异性风险评估指标。具体风险评估指标体系如表1所示。

表1风险评估指标体系

步骤S102、根据所述风险评估指标体系对所述目标人员的相关信息进行数据标注，以得到第一风险指标数据。

根据上述已构建的目标人员风险评估指标体系，对目标人员数据进行标注，具体如表2所示，展示了标注后的数据形式，由于收集到的数据可能出现部分指标值缺失的情况，在后续的流程中需要尽可能地对这类数据进行缺失值补全。

表2第一风险指标数据

步骤S103、基于所述第一风险指标数据通过知识抽取和知识融合构建第一目标人员知识图谱。

知识图谱的构建是指从原始数据出发，采用一系列自动或半自动的技术手段，从原始数据中提取出知识要素，并将其存入知识库的过程。知识图谱的关键技术为知识抽取，也称为三元组要素提取，通过该技术，可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。

具体的，对于本实施例中的第一风险指标数据，通过知识抽取和知识融合以构建第一目标人员知识图谱。对于表格类数据，通过数据整合之后可以进行初步知识表示，如果存在文本类数据，需要对其进行知识抽取，也即分别进行实体抽取、关系抽取和属性抽取，再进行初步知识表示。

知识抽取技术主要分为两部分，一部分是实体抽取，又命名实体识别，识别出给定数据中的实体，另一部分是关系抽取。更细致的划分将要素提取划分为三部分，除了上述的实体识别和关系抽取，还包括属性抽取。由于实体的属性可以视作实体与属性值之间的一种特殊的名词关系，这里我们将属性抽取看作是关系抽取的一种特殊情况，处理方式和算法同关系抽取一致。本实施例中定义的实体类型如表3所示。

表3实体类型

定义的关系类型主要包括人物关系，各种实体间的修饰关系等。

在一些实施例中，所述基于所述第一风险指标数据通过知识抽取和知识融合构建第一目标人员知识图谱，包括：通过预训练模型Bert对所述第一风险指标数据进行实体关系抽取，确定第一实体关系三元组；通过实体对齐和实体链接对所述第一实体关系三元组进行知识融合；将经过知识融合的所述第一实体关系三元组与预设的结构化知识体系进行结合，以构建所述第一目标人员知识图谱。

目前要素提取的方案包括基于规则的要素提取技术、基于深度学习的要素提取技术和基于预训练模型的要素提取技术。基于规则的要素提取技术主要是采取正则的方式对规则明确的要素信息进行提取，比如身份证号、手机号码等等，缺点在于针对每种要素都需要编写提取规则，且适应性和容错性极差。基于深度学习的要素提取技术，主流是基于BiLSTM+CRF模型，其由一个从前端到后端的LSTM和后端到前端的LSTM构成。长短期记忆网络LSTM(Long Short Term Memory)是在循环神经网络RNN的基础上改进而来，用以解决梯度爆炸问题，其使用输入门、忘记门以及输出门3种门结构来保持和更新状态，但应用该模型需要进行大规模的数据标注，不同领域的数据差异很大，因此将其应用到新的领域需要重新进行训练。

为了解决上述问题，本申请基于BERT-Chinese模型，该模型是一个强大的中文预训练语言模型，由谷歌于2018年公布，其在11项自然语言处理任务中刷新纪录。通过双向训练Transformer编码器从海量的无标注语料中学习短语信息特征、语言学特征和一定程度的语义信息特征，BERT可以将丰富的语言学知识进行迁移学习，可以很方便的将已有的模型快速应用到新的领域中，对于已支持的要素信息只需要针对新领域进行微调即可。在此基础上，本申请采用实体-关系联合抽取框架，该框架最核心的思想是将关系建模为将头实体映射到尾实体的函数，区别于以往将关系视为实体对上的标签的框架。这种框架下，实体关系三元组的抽取过程被分解为首先抽取出数据中所有可能的头实体，然后针对每个头实体和给定的关系标签识别出所对应的尾实体。基于这种框架的实体和关系识别可以很好的解决传统框架不能处理的实体关系三元组重叠的问题。

经过数据的知识抽取，得到了初步的知识表示，实体、实体属性及实体间的关系。进一步，我们需要将抽取到的实体、关系和属性结合整合后的表格类数据进行知识融合，这里主要包含实体对齐和实体链接。

实体对齐也称为实体匹配或实体解析，是判断相同或不同数据中的两个实体是否指向真实世界中的同一个对象的过程。实体对齐目的是发现在不同知识库中具有不同实体名称，但却代表着现实世界中同一事物的实体，将这些实体进行合并，且用唯一标识对该实体进行标识，最后将该实体添加到相应的知识图谱中。常用的实体对齐算法有：基于传统概率模型的实体对齐算法、基于机器学习的实体对齐算法、基于相似性传播的实体对齐算法、基于LDA模型的实体对齐算法、基于CRF模型的实体对齐算法、基于Markov逻辑网的实体对齐算法等。本申请采用基于相似性传播的实体对齐方法将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模。该问题属于二元分类问题，可通过贪婪优化算法求得近似解。

实体链接是指将从数据中抽取得到的实体对象链接到知识图谱中对应的正确实体对象的操作。本申请采用基于约束向量嵌入转换的算法，获得实体链接的预测结果。无约束的向量嵌入转换算法的基本思想是：将知识图谱中的实体和关系，通过嵌入的方式投影到低维向量空间，并在该向量空间中通过对向量的平移，计算头、尾实体及关系在向量空间中的损失函数值，实现头尾实体的关系链接。而基于约束的向量嵌入转换算法是在原有算法的基础上增加了关系语义的约束条件，使得所预测出实体间的关系需满足关系语义的约束条件，从而使得实体链接更为合理。

最后，将融合后的知识图谱和专家构建的结构化知识体系进行结合，形成标准的知识表示，为后续构建知识图谱及风险指标数据集提供标准化素材。

步骤S104、基于预设的抽象规则库对所述第一目标人员知识图谱进行补全，以得到第二目标人员知识图谱。

具体的，基于上述步骤构建的第一目标人员知识图谱(部分)如图2所示，这里得到的图谱中可能存在缺失值，在后续流程中需要通过知识推理进行第一目标人员知识图谱的补全。通过预设的抽象规则库中设定的规则对第一目标人员知识图谱中缺失的关系进行推理，从而完善第一目标人员知识图谱，以得到第二目标人员知识图谱。

步骤S105、基于所述第二目标人员知识图谱对所述第一风险指标数据进行补全，以得到第二风险指标数据。

第一目标人员知识图谱与表格形式的第一风险指标数据相比具有更加丰富的“人-人”关系以及“人-物”关系信息，这些信息都可以通过知识抽取得到，并通过相应的知识体系建立相互关系。第一目标人员知识图谱的构建是对第一风险指标数据进行补全的重要一步，对构建的第一目标人员知识图谱进行补全后，将相应的补全值映射回第一风险指标数据，再对缺失值进行补全，以得到第二风险指标数据。

步骤S106、基于所述第二风险指标数据通过预先构建的风险研判模型得到所述目标人员的风险得分。

将第二风险指标数据输入风险研判模型中，通过模型进行计算，输出目标人员的风险得分。

步骤S107、基于所述风险得分和预设阈值确定所述目标人员的风险等级。

根据风险得分和预设阈值响应相应的预警机制。本实施例中，具体的预设阈值需要根据目标人员类型和具体数据结合实际场景的历史纪录和行业专家建议进行确定。通过不同目标人员的风险得分和其对应的预设阈值可以判断该目标人员的风险等级，从而达到预警的目的。

在一些实施例中，所述基于预设的抽象规则库对所述第一目标人员知识图谱进行补全，以得到第二目标人员知识图谱，包括：

遍历所述第一目标人员知识图谱中的全部第二实体关系三元组，将全部满足所述抽象规则库的所述第二实体关系三元组对应的实例规则合并作为初始实例规则库；根据所述第二实体关系三元组构建负例实体关系三元组；将所述第二实体关系三元组和所述负例实体关系三元组输入预先构建的知识图谱嵌入模型中，输出实体的向量嵌入表示和关系的矩阵嵌入表示；基于所述实体的向量嵌入表示和所述关系的矩阵嵌入表示，通过计算得到所述初始实例规则库中每个所述实例规则的置信度得分；将全部所述置信度得分超过预设置信度阈值的所述实例规则合并作为合理实例规则库；基于第二实体关系三元组，根据所述合理实例规则库推理得到补充实体关系三元组；将所述补充实体关系三元组补入所述第一目标人员知识图谱中，以得到所述第二目标人员知识图谱。

本实施例基于知识图谱混合推理补全知识图谱，进而完善目标人员信息，构建更加全面的标注数据样本。一般来讲，目标人员信息可能存在一定的刻意或非刻意的隐蔽性，这些隐蔽性造成了信息的缺失，而这些缺失信息很难在大量样本信息中通过人工的方式直接推理得到。这些隐蔽性反映在知识图谱中对应于图结构中的路径关系，本申请基于知识推理中混合推理的方法，对现有的知识图谱中的隐关系变量及特征进行实体及实体边关系补全，然后基于补全的知识图谱进一步对第一风险指标数据缺失值进行补全。

具体的，对第一目标人员知识图谱进行嵌入表示。嵌入的模型可通过训练常见的知识图谱嵌入模型ANALOGY、RESCAL等，通过最小化如下损失函数得到

其中，L为损失函数，n为输入三元组的总数，σ(·)为sigmoid函数，

表示三元组中主题s和客体o的嵌入表示，

表示三元组中关系r的矩阵嵌入，m为嵌入维度，l_sro为嵌入的三元组对应的标签。

嵌入学习的输入为一个三元组和其对应标签的集合：

I＝{((s,r,o),l_sro)|(s,r,o)∈G∪G_neg}

标签的取值定义如下：

集合中的三元组包含第一目标人员知识图谱中的“实体-关系-实体”三元组(s,r,o)∈G和构建的三元组负例(s,r,o)∈G_neg。其中，三元组负例可以将原图谱中三元组的s和o替换为图谱中的任意实体或将关系r替换成图谱关系中的任意关系得到。以图3为例，(目标人员1,居住地,北京)∈G属于第一目标人员知识图谱中的三元组，(目标人员2,夫妻,北京)∈G_neg属于三元组负例。

如图3所示，遍历第一目标人员知识图谱中的全部第二实体关系三元组，将全部满足所述抽象规则库的所述第二实体关系三元组对应的实例规则合并作为初始实例规则库。抽象规则库如表4所示，

表4抽象规则库

对于上述表4中定义的某给定抽象规则，遍历图谱中的所有边关系，如果存在符合该抽象规则的实例则将其添加到实例规则库中。以抽象规则“对称属性”为例，图谱中满足该抽象规则实例的三元组推理表示为：

(目标人员1,夫妻,目标人员2)→(目标人员2,夫妻,目标人员1)

其对应的实例规则为：对称属性(夫妻)，将该实例放入初始实例规则库中。表5中列举了初始实例规则库中的部分实例规则

表5初始实例规则库

由于上述得到的初始实例规则库中某些实例规则并不符合逻辑，例如“朋友”在某些情况下不一定满足传递属性，我们需要对上述初始实例规则库进行进一步筛选，得到更加通用、合理的实例规则库。给定第一目标人员知识图谱中所有关系的嵌入表示和上述初始实例规则库，为了筛选出合理的实例规则库，我们需要给出初始实例规则库中每个实例对于其所属抽象规则的置信度得分。

该置信度得分计算公式如下

其中，||·||_F为Frobenius范数，用来度量两个矩阵之间的相似程度，矩阵

和

分别代表表4第3列中等价符号

右侧等号两边的部分。例如，对于“对称属性”，矩阵

矩阵

置信度得分s_a∈[0,1]，实际应用中选取0.9为阈值，最终将全部置信度得分满足s_a≥0.9的实例规则组成的合理实例规则库作为输出，如表6所示。

表6合理实例规则库

合理实例规则库
	对称属性(夫妻)
对称属性(朋友)
	等价属性(出生于，出生日期)
可逆属性(子女，父母)
	属性链包含((夫妻，居住地),居住地)
……

基于得到的合理实例规则库，根据其中每条实例规则对应的三元组推理规则可以推理得到补充实体关系三元组。例如，实例规则“((夫妻，居住地),居住地)”对应的三元组推理表示为

(x₀,r₁,x₁),(x₁,r₂,x₂)→(x₀,r₂,x₂)

因此，由第一目标人员知识图谱中的三元组(目标人员2，夫妻，目标人员1),(目标人员1，居住地，北京)，可以推断出补充实体关系三元组(目标人员2，居住地，北京)。

图3中的第二目标人员知识图谱(包含虚线)为对第一目标人员知识图谱(不包含虚线)进行知识推理后补全的知识图谱。在原有的第一风险指标数据中，目标人员2的“居住环境”一项的值缺失，通过知识图谱中该目标人员和其妻子的关系以及其妻子(目标人员1)的居住地及居住地的治安环境可推理出该目标人员的“居住环境”，得到更为全面的目标人员信息。

基于补全后的第二目标人员知识图谱，将相应的补全值映射回第一风险指标数据，对缺失值进行补全，表7为补全后的第二风险指标数据。

表7第二风险指标数据

在一些实施例中，所述风险研判模型是通过极限梯度提升XGBoost算法进行预训练的。

将每个人作为一个样本，针对不同类型的目标人员，将对应风险指标数据作为该样本的特征，将总样本的80％作为测试集、20％作为验证集输入回归模型，应用极限梯度提升XGBoost(eXtreme Gradient Boosting)算法对模型进行训练。这一算法除了精度很高之外，由于整个模型背后使用的是C++，因此其训练的速度也非常快，并且该模型在算法上也做了很多的调整，如高度利用CPU进行多核并行运算等。XGBoost本质上就是机器学习算法中的梯度提升决策树GBDT(Gradient Boosting Decision Tree)，但是在该算法的基础上把速度和效率发挥到了极致，可以视为GBDT算法的工程实现。

在一些实施例中，基于所述第二风险指标数据通过预先构建的风险研判模型得到所述目标人员的风险得分，包括：

由于XGBoost算法的数据输入要求为数值型格式，而决定目标人员风险级别的各指标中存在离散的类别型变量(或称为定性变量)。这里我们并不需要将类别特征(离散的)和数值型特征(连续的)分开进行处理，而是可以通过one-hot编码将离散的特征类别映射到数值型。如“婚姻状况”变量，其值有“已婚”或“未婚”两类，其处理方法为将“已婚/未婚”转换成“1/0”。如果类别比较多，向量会比较稀疏，但是这个算法也很擅长处理稀疏的数据。

假设用于模型训练的数据包含n个目标样本，p个特征，即输入为

其中X_i＝(x_i,1,x_i,2,…,x_i,p)。令y_i表示第i个样本的真实得分值，

表示预测的第i类样本的得分值。使用XGBoost算法进行累加训练，学习K课树，采用以下函数对样本进行预测

这里

为假设空间，

其中f(X)为CART回归树，q(X)表示将样本X分到了某个叶子节点上，w是叶子节点的分数，w_q(X)表示回归树对样本的预测值。

XGBoost的目标函数为

其中，

为误差函数，Ω(f_k)为正则项，用于对每棵树的复杂度进行惩罚。用于衡量树的复杂度的指标包括：树的深度，树的内部节点个数，叶子节点个数T，叶子节点的分数w。XGBoost算法所采用的正则项为

用于对叶子节点个数T和叶节点分数w进行惩罚，可视作在训练过程中做了剪枝。

XGBoost算法在第t次迭代之后，模型的的预测等于前t-1次的模型预测加上第t棵树的预测：

此时目标函数可写作：

上述公式中的

为已知量，模型需要学习的只有第t棵树f_t。将误差函数在

处进行二阶泰勒展开得到：

这里

最后，将公式中的常数项去掉，得到:

把

代入上述目标函数中可得：

上式中的第一项是对样本的累加，第三项是对节点的累加。定义每个叶子节点j上的样本集合为I_j＝{i|q(x_i)＝j}，则目标函数按叶子节点累加的形式可以表示为：

其中

如果确定了树的结构，即q(x)确定，为了使目标函数最小，令其导数为0，可解得每个叶子节点的最优预测分数为:

带入目标函数可得损失函数的最小值为：

上式中的

部分衡量了每个叶子节点对总体损失的的贡献，我们希望损失越小越好，也就是说上式求和部分的值越大越好。对一个叶子节点进行分裂，分裂前后的增益定义为：

增益的值越大，分裂后目标函数减小越多。所以当对一个叶子节点分割时，计算所有候选(特征,值)对应的增益，选取增益最大的进行分割。

基于上述原理，XGBoost的算法主流程总结如下：

输入：训练集样本D＝{(X₁,y₁),(X₂,y₂),…,(X_n,y_n)}，最大迭代次数T,损失函数L，正则化系数λ，γ。

输出：强学习器f(x)

训练过程：对迭代轮数t＝1,2,...T有

a)计算第i个样本(i＝1,2,..n)在当前轮损失函数L基于f_t-1(X_i)的一阶导数g_ti，二阶导数h_ti；计算所有样本的一阶导数和

二阶导数和

b)基于当前节点尝试分裂决策树，默认分数score＝0，G和H为当前需要分裂的节点的一阶二阶导数之和。

对特征序号k＝1,2...K:

i)G_L＝0,H_L＝0；

ii)将样本按特征k从小到大排列，依次取出第i个样本，依次计算当前样本放入左子树后，左右子树一阶和二阶导数和：

G_L＝G_L+g_ti,G_R＝G-G_L

H_L＝H_L+h_ti,H_R＝H-H_L

iii)尝试更新最大的分数：

c)基于最大score对应的划分特征和特征值分裂子树。

如果最大score为0，则当前决策树建立完毕，计算所有叶子区域的w_tj,得到弱学习器h_t(x)，更新强学习器f_t(x),进入下一轮弱学习器迭代。如果最大score不是0，则转到b)步继续尝试分裂决策树。

经过上述训练过程，最终输出基于XGBoost的风险研判模型。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种重点人员风险等级评估方法装置。

参考图4，所述重点人员风险等级评估方法装置，包括：

体系构建模块401，被配置为根据目标人员的相关信息构建风险评估指标体系；

数据标注模块402，被配置为根据所述风险评估指标体系对所述目标人员的相关信息进行数据标注，以得到第一风险指标数据；

知识图谱构建模块403，被配置为基于所述第一风险指标数据通过知识抽取和知识融合构建第一目标人员知识图谱；

知识图谱补全模块404，被配置为基于预设的抽象规则库对所述第一目标人员知识图谱进行补全，以得到第二目标人员知识图谱；

数据补全模块405，被配置为基于所述第二目标人员知识图谱对所述第一风险指标数据进行补全，以得到第二风险指标数据；

风险研判模块406，被配置为基于所述第二风险指标数据通过预先构建的风险研判模型得到所述目标人员的风险得分；

风险等级确定模块407，被配置为基于所述风险得分和预设阈值确定所述目标人员的风险等级

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的重点人员风险等级评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的重点人员风险等级评估方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的重点人员风险等级评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的重点人员风险等级评估方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的重点人员风险等级评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种重点人员风险等级评估方法，其特征在于，包括：

根据目标人员的相关信息构建风险评估指标体系；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一风险指标数据通过知识抽取和知识融合构建第一目标人员知识图谱，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于预设的抽象规则库对所述第一目标人员知识图谱进行补全，以得到第二目标人员知识图谱，包括：

根据所述第二实体关系三元组构建负例实体关系三元组；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二实体关系三元组构建负例实体关系三元组，包括：

5.根据权利要求1所述的方法，其特征在于，所述风险研判模型是通过极限梯度提升XGBoost算法进行预训练的。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二风险指标数据通过预先构建的风险研判模型得到所述目标人员的风险得分，包括：

7.一种重点人员风险等级评估方法装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述知识图谱构建模块，具体被配置为：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至6任一所述方法。