CN117171141A

CN117171141A - 一种基于关系图谱的数据模型建模方法

Info

Publication number: CN117171141A
Application number: CN202311433931.6A
Authority: CN
Inventors: 万俊
Original assignee: Guangzhou Zhongchangkangda Information Technology Co ltd
Current assignee: Guangzhou Zhongchangkangda Information Technology Co ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2023-12-05
Anticipated expiration: 2043-11-01
Also published as: CN117171141B

Abstract

本发明公开了一种基于关系图谱的数据模型建模方法，所述方法包括：对基于大数据技术获取到的目标数据的样本进行数据特征提取，得到目标数据特征；对目标数据特征进行聚类分析，得到聚类结果；对聚类结果中的每个聚类样本进行异常检测，得到每个聚类样本的异常数据点；对异常数据点中的目标数据进行实体识别、实体属性抽取和关系抽取，得到异常数据点的目标数据的实体、属性和关系；根据异常数据点的目标数据的实体、属性和关系，构建异常行为的关系图谱；根据异常行为的关系图谱，构建异常行为监督模型。本发明能够提高监督模型的训练效果，从而提高监督模型对异常行为的识别效果。

Description

一种基于关系图谱的数据模型建模方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于关系图谱的数据模型建模方法。

背景技术

监督模型是一种机器学习模型，其目标是根据输入数据和相应的标签（标记或类别）之间的关系进行预测或分类。目前，监督模型广泛应用于异常检测场景中，例如应用于汽车保险欺诈骗赔的识别场景中。其中，汽车保险欺诈骗赔现象是国内外汽车保险行业都面临的一个问题，因此，可以通过构建监督模型来预测识别出汽车保险欺诈骗赔行为。

目前的用于识别汽车保险欺诈骗赔等异常行为的监督模型的构建过程往往是利用已有的数据样本进行特征提取，然后基于提取的数据特征进行模型训练，从而得到训练好的监督模型。但是这种监督模型的构建过程所利用到的数据样本比较少，无法有效提取出异常数据样本来训练监督模型，导致监督模型的模型构建效果不是很理想，这样训练好的监督模型无法很准确地识别出汽车保险欺诈骗赔等异常行为。

发明内容

本发明实施例提供一种基于关系图谱的数据模型建模方法，能够提高监督模型的训练效果，从而提高监督模型对异常行为的识别效果。

本发明一实施例提供一种基于关系图谱的数据模型建模方法，包括以下步骤：

对基于大数据技术获取到的目标数据的样本进行数据特征提取，得到目标数据特征；

对所述目标数据特征进行聚类分析，得到聚类结果；

对所述聚类结果中的每个聚类样本进行异常检测，得到每个聚类样本的异常数据点；

对所述异常数据点中的目标数据进行实体识别、实体属性抽取和关系抽取，得到所述异常数据点的目标数据的实体、属性和关系；

根据所述异常数据点的目标数据的实体、属性和关系，构建异常行为的关系图谱；

根据异常行为的关系图谱，构建异常行为监督模型；所述异常行为监督模型用于识别待分析的目标数据是否存在异常行为。

作为上述方案的改进，所述目标数据包括交通事故出险数据，所述交通事故出险数据包括：双方当事人身份、事故类型和保险理赔金额；所述异常行为包括交通事故出险涉诈行为。

作为上述方案的改进，所述对所述目标数据特征进行聚类分析，得到聚类结果包括：

以双方当事人身份特征作为聚类的数据节点，以事故类型特征的种类数量作为核心点所需的最小邻居数量MinPts值，以保险理赔金额特征作为聚类的分析对象，并预设保险理赔金额的邻域半径；

对于每个所述数据节点，根据各自所述保险理赔金额特征，计算在所述邻域半径内具有同类的事故类型特征的其他数据节点的数量，得到每个所述数据节点在同类的事故类型特征下的邻居数量；

若所述数据节点的邻居数量大于或等于所述MinPts值，将所述数据节点标记为核心点，反之则标记为边界点；

从任意一个所述核心点出发，根据预设的密度直达关系，寻找与该核心点连通的密度直达点，将它们组成一个簇，通过不断扩展和连接具有密度直达关系的数据点，形成各个聚类。

作为上述方案的改进，所述对所述聚类结果中的每个聚类样本进行异常检测，得到每个聚类样本的异常数据点，包括：

识别每个聚类结果的聚类样本中的离群点，得到每个聚类样本的异常数据点。

作为上述方案的改进，所述根据所述异常数据点的目标数据的实体、属性和关系，构建异常行为的关系图谱，包括：

将异常数据点中的双方当事人身份作为实体节点、将事故类型作为实体节点的连接边，将保险理赔金额的数额大小作为连接边的距离大小，构建异常行为的关系图谱。

本发明另一实施例对应提供了一种基于关系图谱的数据模型建模装置，包括：

特征提取模块，用于对基于大数据技术获取到的目标数据的样本进行数据特征提取，得到目标数据特征；

聚类模块，用于对所述目标数据特征进行聚类分析，得到聚类结果；

异常检测模块，用于对所述聚类结果中的每个聚类样本进行异常检测，得到每个聚类样本的异常数据点；

数据抽取模块，用于对所述异常数据点中的目标数据进行实体识别、实体属性抽取和关系抽取，得到所述异常数据点的目标数据的实体、属性和关系；

关系图谱构建模块，用于根据所述异常数据点的目标数据的实体、属性和关系，构建异常行为的关系图谱；

模型构建模块，用于根据异常行为的关系图谱，构建异常行为监督模型；所述异常行为监督模型用于识别待分析的目标数据是否存在异常行为。

作为上述方案的改进，所述聚类模块具体用于：

作为上述方案的改进，所述异常检测模块具体用于：

本发明另一实施例提供了一种基于关系图谱的数据模型建模设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述发明实施例所述的基于关系图谱的数据模型建模方法。

相比于现有技术，本发明实施例具有如下有益效果：

通过利用大数据技术来获取目标数据的样本，这样增加数据样本的丰富性，同时通过对获取到的丰富的数据样本进行聚类，这样可以将相似的数据样本放在同一个聚类中，可以揭示它们之间的共性和联系，从而更有利于在大量的数据样本中去找到异常数据；然后通过利用样本相对比较丰富的异常数据来构建关系图谱，这样可以更好地帮助理清这些异常数据的数据结构，并且通过利用关系图谱来建立监督模型可以提供丰富的上下文信息、多层次特征表示、关系推理能力以及支持相关性分析和模式发现，从而可以帮助改进监督模型的性能和泛化能力，提高对复杂的异常行为数据的预测和分类能力。综上所述，本发明实施例通过结合大数据、聚类、关系图谱等手段来构建监督模型，这样能够提高监督模型的训练效果，从而提高监督模型对异常行为的识别效果。

附图说明

图1是本发明一实施例提供的一种基于关系图谱的数据模型建模方法的流程示意图；

图2是本发明一实施例提供的一种基于关系图谱的数据模型建模装置的结构示意图；

图3是本发明一实施例提供的一种基于关系图谱的数据模型建模设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种基于关系图谱的数据模型建模方法的流程示意图。所述基于关系图谱的数据模型建模方法由基于关系图谱的数据模型建模设备执行，所述方法包括以下步骤S10至步骤S15：

S10，对基于大数据技术获取到的目标数据的样本进行数据特征提取，得到目标数据特征。

作为举例的，需要构建的监督模型用于预测识别汽车保险欺诈骗赔的异常行为，所述目标数据包括交通事故出险数据，所述交通事故出险数据包括：双方当事人身份、事故类型和保险理赔金额。

其中，特征提取的目的是将原始数据样本转换为更具代表性和有效表示的特征，以便用于机器学习和模型训练。通过特征提取，我们可以减少数据的维度，捕捉数据中的关键信息，并消除冗余和噪声。特征提取的方式可以有：对于数值型数据（如保险理赔金额），可以直接使用原始数值作为特征。同时，也可以进行一些数值处理技术，如标准化（使数据均值或者方差限定为一个设定值）、归一化（将数据缩放到固定区间）等。对于类别型数据（如事故类型），可以采用独热编码（One-Hot Encoding）的方式将其转换为二进制形式的特征。独热编码将每个类别表示为一个唯一的二进制向量，其中只有一个元素为1，其他元素为0。对于文本数据（如双方当事人身份），通常需要进行文本预处理和特征提取。常见的方法包括词袋模型（Bag-of-Words）、TF-IDF（Term Frequency-Inverse DocumentFrequency）等。

S11，对所述目标数据特征进行聚类分析，得到聚类结果。

作为示例的，所述步骤S11包括步骤S110至步骤S113：

S110，以双方当事人身份特征作为聚类的数据节点，以事故类型特征的种类数量作为核心点所需的最小邻居数量MinPts值，以保险理赔金额特征作为聚类的分析对象，并预设保险理赔金额的邻域半径。

S111，对于每个所述数据节点，根据各自所述保险理赔金额特征，计算在所述邻域半径内具有同类的事故类型特征的其他数据节点的数量，得到每个所述数据节点在同类的事故类型特征下的邻居数量。

S112，若所述数据节点的邻居数量大于或等于所述MinPts值，将所述数据节点标记为核心点，反之则标记为边界点。

S113，从任意一个所述核心点出发，根据预设的密度直达关系，寻找与该核心点连通的密度直达点，将它们组成一个簇，通过不断扩展和连接具有密度直达关系的数据点，形成各个聚类。

在本实施例中，可以利用基于密度的聚类算法DBSCAN来进行上述的聚类过程。通过上述聚类过程，不需要事先指定聚类的个数，并且可以发现具有复杂形状的聚类结构，如环形聚类或不规则形状的聚类。同时通过定义样本的邻域密度来确定核心对象和边界对象，从而可以有效地过滤噪声数据和孤立点，这样对于含有噪声或具有离群点的数据集有良好的鲁棒性。此外，不需要事先指定聚类的个数，并且仅有两个核心参数: ε（半径）和MinPts（密度阈值），这些参数的选择通常可以基于测试经验来进行调整。

作为举例的，假设有10个交通事故出险记录，其中保险理赔金额是感兴趣的特征。以下是示例数据：

在此例中，根据保险理赔金额对交通事故出险记录进行聚类分析。

假设设置邻域半径ε=3000，由于事故类型特征的种类数量为3种，设置MinPts=3。可以理解的是，通过将MinPts与事故类型特征的种类数量进行关联仅是一种示例，在本实施例中，这种关联能够便于进行聚类分析，不需要人工设置MinPts值。同时，数据样本越多，事故类型特征的种类数量一般也越多，这样将MinPts值设置相对较大，有利于对这么多不同的数据情况进行更合理地聚类，避免聚类仅有少数几种而导致不能合理反映出数据之间的差异性。反之，数据样本越少，事故类型特征的种类数量一般也越少，则没有必要将MinPts值设置的比较大。

首先，计算邻域密度：对每个数据节点计算其以ε=3000为半径内的邻居点数。

接着，标记核心点和边界点：基于MinPts=3的要求，标记在相同的事故类型特征下每个数据节点为核心点或边界点。通过计算每个数据节点在相同的事故类型特征下且在以ε=3000为半径内的邻居点数，并确定是否满足MinPts的要求（MinPts=3）。

在以上示例中，可以看到，A、C、G和I这些数据节点的邻居点数量在碰撞事故类型中都达到或超过MinPts=3的要求，因此它们被标记为核心点，且它们的事故类型特征都属于碰撞，因此A、C、G和I这些数据节点可以作为同一个聚类。其他数据节点的邻居点数量小于MinPts的要求，所以它们被标记为边界点。

然后，构建聚类：从任意一个核心点开始构建聚类。结合连通性关系，寻找与该核心点连通的密度直达点，将它们组成一个簇（聚类）。通过不断扩展和连接具有密度直达关系的数据点，形成各个聚类。

在以上示例中，作为其中1种举例，从核心点A开始构建聚类，找到与A直接或间接相连通的数据节点C、G和I。这些数据点将组成一个聚类：聚类1：{A, C, G，I}。

接下来，继续按同样的步骤从其他核心点开始构建并扩展聚类，直至没有可连接的点。可能的结果是，以其他核心点作为起点，形成了额外的聚类，或者将边界点归入某个聚类中。

从核心点A开始构建聚类，该单个的聚类例子的最终的聚类结果可能如下所示：

聚类1：{A, C, G，I}，对应于碰撞事故的聚类结果。

需要说明的是，上述过程仅是用于作为示例说明，仅是一种可能的聚类结果，在实际应用中的结果会根据具体数据集和参数选择而有所不同。至于其余数据的聚类过程可以参考上述聚类方案原理，在此不做赘述。

S12，对所述聚类结果中的每个聚类样本进行异常检测，得到每个聚类样本的异常数据点。

具体的，识别每个聚类结果的聚类样本中的离群点，得到每个聚类样本的异常数据点。其中，可以利用基于密度的局部离群因子LOF算法来进行离群点检测，具体的异常检测过程可以参考现有技术，在此不做赘述。

S13，对所述异常数据点中的目标数据进行实体识别、实体属性抽取和关系抽取，得到所述异常数据点的目标数据的实体、属性和关系。

其中，关于数据的实体识别、属性和关系的抽取可以参考现有技术，在此不做赘述。

S14，根据所述异常数据点的目标数据的实体、属性和关系，构建异常行为的关系图谱。

具体的，将异常数据点中的双方当事人身份作为实体节点、将事故类型作为实体节点的连接边，将保险理赔金额的数额大小作为连接边的距离大小，构建异常行为的关系图谱。其中，关于关系图谱的具体构建方式和过程可以参考现有技术，在此不做赘述。

S15，根据异常行为的关系图谱，构建异常行为监督模型；所述异常行为监督模型用于识别待分析的目标数据是否存在异常行为。

作为举例的，所述异常行为包括交通事故出险涉诈行为。

其中，具体的，监督模型的构建过程可以为：1.特征提取：从关系图谱中提取目标特征；2.标注异常样本：根据已知的异常行为样本对数据进行标注；这些样本可以是由专家手动标注的，或者基于已知异常数据的自动标注；3.模型训练和评估：使用带有标注数据的监督学习算法（如分类器或神经网络）对异常行为进行建模；训练模型并根据评估指标（如准确率、召回率等）对模型性能进行评估和调优。需要说明的是，相关的特征提取、样本标注、监督模型训练和监督模型评估的每个步骤可以单独参考现有技术，在此不做赘述。

监督模型构建好后，可以使用训练好的异常行为监督模型对新的数据进行异常检测和预测。

综上所述，通过利用大数据技术来获取目标数据的样本，这样增加数据样本的丰富性，同时通过对获取到的丰富的数据样本进行聚类，这样可以将相似的数据样本放在同一个聚类中，可以揭示它们之间的共性和联系，从而更有利于在大量的数据样本中去找到异常数据；然后通过利用样本相对比较丰富的异常数据来构建关系图谱，这样可以更好地帮助理清这些异常数据的数据结构，并且通过利用关系图谱来建立监督模型可以提供丰富的上下文信息、多层次特征表示、关系推理能力以及支持相关性分析和模式发现，从而可以帮助改进监督模型的性能和泛化能力，提高对复杂的异常行为数据的预测和分类能力。综上所述，本发明实施例能够提高监督模型的训练效果，从而提高监督模型对异常行为的识别效果。

参见图2，是本发明一实施例提供的一种基于关系图谱的数据模型建模设备的结构示意图。所述基于关系图谱的数据模型建模装置包括：

特征提取模块10，用于对基于大数据技术获取到的目标数据的样本进行数据特征提取，得到目标数据特征；

聚类模块11，用于对所述目标数据特征进行聚类分析，得到聚类结果；

异常检测模块12，用于对所述聚类结果中的每个聚类样本进行异常检测，得到每个聚类样本的异常数据点；

数据抽取模块13，用于对所述异常数据点中的目标数据进行实体识别、实体属性抽取和关系抽取，得到所述异常数据点的目标数据的实体、属性和关系；

关系图谱构建模块14，用于根据所述异常数据点的目标数据的实体、属性和关系，构建异常行为的关系图谱；

模型构建模块15，用于根据异常行为的关系图谱，构建异常行为监督模型；所述异常行为监督模型用于识别待分析的目标数据是否存在异常行为。

本发明实施例通过利用大数据技术来获取目标数据的样本，这样增加数据样本的丰富性，同时通过对获取到的丰富的数据样本进行聚类，这样可以将相似的数据样本放在同一个聚类中，可以揭示它们之间的共性和联系，从而更有利于在大量的数据样本中去找到异常数据；然后通过利用样本相对比较丰富的异常数据来构建关系图谱，这样可以更好地帮助理清这些异常数据的数据结构，并且通过利用关系图谱来建立监督模型可以提供丰富的上下文信息、多层次特征表示、关系推理能力以及支持相关性分析和模式发现，从而可以帮助改进监督模型的性能和泛化能力，提高对复杂的异常行为数据的预测和分类能力。综上所述，本发明实施例能够提高监督模型的训练效果，从而提高监督模型对异常行为的识别效果。

作为上述方案的改进，所述聚类模块具体用于：

作为上述方案的改进，所述异常检测模块具体用于：

需要说明的是，上述的基于关系图谱的数据模型建模装置实施例的相关方案内容可以参考上述的基于关系图谱的数据模型建模方法实施例内容，在此不做赘述。

参见图3，是本发明一实施例提供的基于关系图谱的数据模型建模设备的示意图。该实施例的基于关系图谱的数据模型建模设备包括：处理器100、存储器101以及存储在所述存储器101中并可在所述处理器100上运行的计算机程序，例如基于关系图谱的数据模型建模程序。所述处理器100执行所述计算机程序时实现上述各个基于关系图谱的数据模型建模方法实施例中的步骤。或者，所述处理器100执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于关系图谱的数据模型建模设备中的执行过程。

所述基于关系图谱的数据模型建模设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于关系图谱的数据模型建模设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是基于关系图谱的数据模型建模设备的示例，并不构成对基于关系图谱的数据模型建模设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于关系图谱的数据模型建模设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于关系图谱的数据模型建模设备的控制中心，利用各种接口和线路连接整个基于关系图谱的数据模型建模设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于关系图谱的数据模型建模设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于关系图谱的数据模型建模设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于关系图谱的数据模型建模方法，其特征在于，包括以下步骤：

对所述目标数据特征进行聚类分析，得到聚类结果；

2.如权利要求1所述的基于关系图谱的数据模型建模方法，其特征在于，所述目标数据包括交通事故出险数据，所述交通事故出险数据包括：双方当事人身份、事故类型和保险理赔金额；所述异常行为包括交通事故出险涉诈行为。

3.如权利要求2所述的基于关系图谱的数据模型建模方法，其特征在于，所述对所述目标数据特征进行聚类分析，得到聚类结果包括：

4.如权利要求2所述的基于关系图谱的数据模型建模方法，其特征在于，所述对所述聚类结果中的每个聚类样本进行异常检测，得到每个聚类样本的异常数据点，包括：

5.如权利要求2所述的基于关系图谱的数据模型建模方法，其特征在于，所述根据所述异常数据点的目标数据的实体、属性和关系，构建异常行为的关系图谱，包括：

6.如权利要求1至5任意一项所述的基于关系图谱的数据模型建模方法，其特征在于，所述建模方法应用于一种基于关系图谱的数据模型建模装置，该装置包括：

7.如权利要求6所述的基于关系图谱的数据模型建模方法，其特征在于，所述聚类模块具体用于：

8.如权利要求6所述的基于关系图谱的数据模型建模方法，其特征在于，所述异常检测模块具体用于：

9.如权利要求1至5任意一项所述的基于关系图谱的数据模型建模方法，其特征在于，所述建模方法通过一种基于关系图谱的数据模型建模设备运行，该设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的基于关系图谱的数据模型建模方法。