CN117633864A

CN117633864A - 操作行为的检测方法、装置、设备及存储介质

Info

Publication number: CN117633864A
Application number: CN202311368473.2A
Authority: CN
Inventors: 赵钧; 黄磊
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-03-01

Abstract

本申请公开一种操作行为的检测方法、装置、设备及存储介质。该方法包括：针对目标用户对目标数据的当前操作行为，获取当前操作行为之前的多个操作行为的行为信息，以及多个操作行为对应的多个指定类型数据的数据信息；然后进行特征提取，得到多个指定类型数据各自的第一特征向量和多个操作行为各自的第二特征向量；基于第一特征向量和第二特征向量，对多个操作行为进行聚类分析，得到多个操作行为各自对应的聚类类别；基于多个操作行为各自对应的聚类类别，对多个操作行为进行概率预测，得到多个操作行为中与当前操作行为的行为类型相同的操作行为的预测概率值；基于当前操作行为的预测概率值和预设概率阈值，确定当前操作行为的检测结果。

Description

操作行为的检测方法、装置、设备及存储介质

技术领域

本申请涉及网络安全技术领域，尤其涉及一种操作行为的检测方法、装置、设备及存储介质。

背景技术

在互联和数字化转型场景下，网络上每时每刻都有海量的用户个人数据被采集、存储和使用，侵犯用户个人数据的操作行为也表现出多样性、隐蔽性、复杂性的特点，这些都给监管带来巨大挑战。

随着移动互联网、云计算等科技的发展，文本、图片、视频等数据大量在网络上传播、共享的同时，也带来了严重的用户个人数据泄露问题，当前对用户个人数据监管的研究，主要针对图片、文本以及视频等单一模态的数据进行模态内用户个人数据的检测与发现，缺少多模态内用户个人数据的监管能力。

同时，传统的监管方法是基于预先配置的侵权规则，对侵犯用户个人数据的操作行为直接进行一一规则匹配，在侵权规则多、侵犯用户个人数据的操作行为频繁、数据量大的场景下，对侵犯用户个人数据的操作行为的检测效率较低，难以适应对跨行业多业态的侵犯用户个人数据的操作行为的快速识别和监管需求。

发明内容

本申请实施例提供一种操作行为的检测方法、装置、设备及存储介质，用以解决基于预先配置的侵权规则，对侵犯用户个人数据的操作行为直接进行一一规则匹配，在侵权规则多、侵犯用户个人数据的操作行为频繁、数据量大的场景下，对侵犯用户个人数据的操作行为的检测效率较低的问题。

第一方面，本申请实施例提供一种操作行为的检测方法，所述方法包括：

针对目标用户对目标数据的当前操作行为，获取所述当前操作行为之前的多个操作行为的行为信息，以及所述多个操作行为对应的多个指定类型数据的数据信息；所述多个指定类型数据中包括所述目标数据；

对所述多个指定类型数据的数据信息分别进行特征提取，得到所述多个指定类型数据各自的第一特征向量；

对所述多个操作行为的行为信息分别进行特征提取，得到所述多个操作行为各自的第二特征向量；

基于所述第一特征向量和所述第二特征向量，对所述多个操作行为进行聚类分析，得到所述多个操作行为各自对应的聚类类别；

基于所述多个操作行为各自对应的聚类类别，对所述多个操作行为进行概率预测，得到所述多个操作行为各自对应的预测概率值；

根据同类型操作行为的预测概率值，确定所述当前操作行为的预测概率值；所述同类型操作行为指，所述多个操作行为中与所述当前操作行为的行为类型相同的操作行为；

基于所述当前操作行为的预测概率值和预设概率阈值，确定所述当前操作行为的检测结果。

在一些实施例中，所述对所述多个指定类型数据的数据信息分别进行特征提取，得到所述多个指定类型数据各自的第一特征向量，包括：

将所述多个指定类型数据的数据信息分别输入预先训练的多模态分类模型中，得到所述多个指定类型数据的数据信息各自的第一特征向量；每个第一特征向量用于表征对应的指定类型数据的数据类型。

在一些实施例中，所述多模态分类模型的训练过程如下：

获取多个样本数据的数据信息以及所述多个样本数据对应的标注信息；每个标注信息用于表征对应的样本数据的目标数据类型；

将所述多个样本数据的数据信息输入待训练的多模态分类模型中，得到所述多个样本数据的参考数据类型；

基于所述参考数据类型和所述目标数据类型之间的差距，调整所述待训练的多模态分类模型的参数信息，直至所述参考数据类型和所述目标数据类型相同，得到训练完成的多模态分类模型。

在一些实施例中，所述基于所述多个操作行为各自对应的聚类类别，对所述多个操作行为进行概率预测，得到所述多个操作行为各自对应的预测概率值，包括：

基于所述多个操作行为各自对应的聚类类别，以及预设的聚类类别和聚类编号的对应关系，确定所述多个操作行为各自对应的聚类编号；所述聚类编号表示同一个聚类类别的多个操作行为；

根据所述多个操作行为的操作时间，对所述多个指定类型数据对应的多个操作行为各自对应的聚类编号进行排序，得到所述多个指定类型数据对应的操作行为序列；所述操作行为序列中包括各指定类型数据对应的多个操作行为以及所述多个操作行为各自对应的聚类编号；

将所述多个指定类型数据对应的操作行为序列输入预先训练的概率后缀树模型中，对所述多个操作行为进行概率预测，得到所述多个操作行为各自对应的预测概率值。

在一些实施例中，所述概率后缀树模型的训练过程如下：

获取多个样本数据对应的多个操作行为序列；所述操作行为序列是根据各样本数据的多个操作行为的操作时间，对所述多个操作行为各自对应的聚类编号进行排序得到的；

将所述多个样本数据对应的操作行为序列输入待训练的概率后缀树模型中，根据所述多个操作行为的操作顺序和所述多个操作行为在所述多个操作行为序列中的出现频率，确定所述多个操作行为各自对应的目标概率值，得到训练完成的概率后缀树模型。

在一些实施例中，所述基于所述当前操作行为的预测概率值和预设概率阈值，确定所述当前操作行为的检测结果，包括：

若所述当前操作行为的预测概率值小于所述预设概率阈值，则确定所述当前操作行为的检测结果为异常操作行为；

若所述当前操作行为的预测概率值不小于所述预设概率阈值，则确定所述当前操作行为的检测结果为正常操作行为。

在一些实施例中，所述方法还包括：

若所述当前操作行为的检测结果为异常操作行为，则根据预设的侵权规则，确定所述当前操作行为的侵权结果。

在一些实施例中，所述根据预设的侵权规则，确定所述当前操作行为的侵权结果，包括：

获取预设时长内所述目标用户对目标数据的多个操作行为中异常操作行为的数量；所述多个操作行为包括所述当前操作行为；

若所述异常操作行为的数量大于预设数量阈值，则将各个异常操作行为与所述预设的侵权规则进行匹配，确定所述各个异常操作行为的侵权结果；

若所述异常操作行为的数量不大于预设数量阈值，则不将各个异常操作行为与所述预设的侵权规则进行匹配，直至所述异常操作行为的数量大于预设数量阈值。

第二方面，本申请实施例提供一种操作行为的检测装置，所述装置包括：

获取模块，用于针对目标用户对目标数据的当前操作行为，获取所述当前操作行为之前的多个操作行为的行为信息，以及所述多个操作行为对应的多个指定类型数据的数据信息；所述多个指定类型数据中包括所述目标数据；

第一特征提取模块，用于对所述多个指定类型数据的数据信息分别进行特征提取，得到所述多个指定类型数据各自的第一特征向量；

第二特征提取模块，用于对所述多个操作行为的行为信息分别进行特征提取，得到所述多个操作行为各自的第二特征向量；

聚类模块，用于基于所述第一特征向量和所述第二特征向量，对所述多个操作行为进行聚类分析，得到所述多个操作行为各自对应的聚类类别；

概率预测模块，用于基于所述多个操作行为各自对应的聚类类别，对所述多个操作行为进行概率预测，得到所述多个操作行为各自对应的预测概率值；

概率确定模块，用于根据同类型操作行为的预测概率值，确定所述当前操作行为的预测概率值；所述同类型操作行为指，所述多个操作行为中与所述当前操作行为的行为类型相同的操作行为；

检测模块，用于基于所述当前操作行为的预测概率值和预设概率阈值，确定所述当前操作行为的检测结果。

在一些实施例中，所述第一特征提取模块具体用于：

在一些实施例中，所述装置还包括第一训练模块；所述第一训练模块用于训练多模态分类模型；

所述多模态分类模型的训练过程如下：

在一些实施例中，所述概率预测模块具体用于：

在一些实施例中，所述装置还包括第二训练模块；所述第二训练模块用于训练概率后缀树模型；

所述概率后缀树模型的训练过程如下：

在一些实施例中，所述检测模块具体用于：

在一些实施例中，所述装置还包括侵权模块；

所述侵权模块，用于若所述当前操作行为的检测结果为异常操作行为，则根据预设的侵权规则，确定所述当前操作行为的侵权结果。

在一些实施例中，所述侵权模块具体用于：

第三方面，本申请实施例提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

存储器存储有可被至少一个处理器执行的计算机程序，该计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述操作行为的检测方法。

第四方面，本申请实施例提供一种存储介质，当所述存储介质中的计算机程序由电子设备的处理器执行时，所述电子设备能够执行上述操作行为的检测方法。

第五方面，本申请实施例提供一种计算机程序产品，当计算机程序产品被电子设备执行时，电子设备能够实现本申请提供的上述操作行为的检测方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

本申请实施例中，针对目标用户对目标数据的当前操作行为，获取当前操作行为之前的多个操作行为的行为信息，以及多个操作行为对应的多个指定类型数据的数据信息；然后进行特征提取，得到多个指定类型数据各自的第一特征向量和多个操作行为各自的第二特征向量；基于第一特征向量和第二特征向量，对多个操作行为进行聚类分析，得到多个操作行为各自对应的聚类类别；基于多个操作行为各自对应的聚类类别，对多个操作行为进行概率预测，得到多个操作行为中与当前操作行为的行为类型相同的操作行为的预测概率值；基于当前操作行为的预测概率值和预设概率阈值，确定当前操作行为的检测结果。

由此，将第一特征向量和第二特征向量的聚类结果作为概率后缀树的符号序列构建模型，提出了一种新的概率后缀树符号体系的构建方法，将指定类型数据的特征和操作行为的多维特征向量进行融合，能够极大提升操作行为的检测结果的准确性和效率，提升多模态内用户个人数据的监管能力。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种操作行为的检测方法的流程示意图；

图2为本申请实施例提供的一种指定类型数据的多个操作行为的行为信息的示意图；

图3为本申请实施例提供的一种多模态分类模型的训练过程的流程示意图；

图4为本申请实施例提供的一种多个操作行为各自对应的预测概率值的预测方法的流程示意图；

图5为本申请实施例提供的一种概率后缀树模型的训练过程的流程示意图；

图6为本申请实施例提供的一种概率后缀树模型的示意图；

图7为本申请实施例提供的一种多个操作行为聚类编号的示意图；

图8为本申请实施例提供的一种操作行为的检测装置的结构示意图；

图9为本申请实施例提供的又一种操作行为的检测装置的结构示意图；

图10为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

并且，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为了便于理解本申请，本申请涉及的技术术语中：

BERT(Bidirectional Encoder Representations from Transformers，来自变压器的双向编码器表示)：是一种预训练语言模型，是完成对词的表征任务的模型。

KMeans(K means,K均值)：Kmeans算法是一种迭代求解的聚类分析算法，给定一个数据点集合和需要的聚类数目k，k由用户指定，KMeans算法根据某个距离函数反复把数据分入k个聚类中。

UNITER(UNiversal Image-TExt Representation Learning，通用图文表示学习)：是一个多模态预训练模型，能够满足大多数情况下视觉和文本的跨模态下游任务。

ViLT(Vision-and-Language Transformer，视觉和语言转换器)：是一个简洁的单流多模态Transformer模型，视觉输入的处理被极大地简化为无卷积方式，比传统基于目标检测和卷积的模型速度快，性能更好。

Word2Vec(Word to Vector，词转向量)：是用来产生词向量的相关模型，模型为浅层的神经网络，通过训练可用来映射每个词到一个向量，表示词对词之间的关系。

随着移动互联网、云计算等科技的发展，文本、图片、视频等数据大量在网络上传播、共享的同时，也带来了严重的用户个人数据泄露问题。

当前对用户个人数据监管的研究，主要针对图片、文本以及视频等单一模态的数据进行模态内用户个人数据的检测与发现，缺少多模态内用户个人数据的监管能力。

同时，传统的监管方法是基于预先配置的侵权规则，对侵犯用户个人数据的操作行为直接进行一一规则匹配。

在侵权规则多、侵犯用户个人数据的操作行为频繁、数据量大的场景下，传统的监管方法对侵犯用户个人数据的操作行为的检测效率较低，难以适应对跨行业多业态的侵犯用户个人数据的操作行为的快速识别和监管需求。

有鉴于此，本申请实施例提供了一种操作行为的检测方法、装置、设备及存储介质，用以解决基于预先配置的侵权规则，对侵犯用户个人数据的操作行为直接进行一一规则匹配，在侵权规则多、侵犯用户个人数据的操作行为频繁、数据量大的场景下，对侵犯用户个人数据的操作行为的检测效率较低的问题。

本申请实施例的发明构思：本申请实施例中，针对目标用户对目标数据的当前操作行为，获取当前操作行为之前的多个操作行为的行为信息，以及多个操作行为对应的多个指定类型数据的数据信息；然后进行特征提取，得到多个指定类型数据各自的第一特征向量和多个操作行为各自的第二特征向量；基于第一特征向量和第二特征向量，对多个操作行为进行聚类分析，得到多个操作行为各自对应的聚类类别；基于多个操作行为各自对应的聚类类别，对多个操作行为进行概率预测，得到多个操作行为中与当前操作行为的行为类型相同的操作行为的预测概率值；基于当前操作行为的预测概率值和预设概率阈值，确定当前操作行为的检测结果。

本申请中利用指定类型数据的监管信息存证数据，对针对指定类型数据的正常操作行为的行为信息(操作行为数据向量、场景编码、操作行为编码、操作设备/IP/系统编码、操作状态等)组成的多维向量进行聚类，得到操作行为各自对应的聚类类别；将对指定类型数据的操作行为用各自对应的聚类类别的聚类编码重新编码成行为序列，训练概率后缀树模型，预测当前操作行为的概率，对概率低于预设概率阈值的当前操作行为再进行预设的侵权规则匹配，识别侵权行为。

该方法融合了单次指定类型数据的操作行为的属性信息和多次操作行为之间的前后关系，能够在高识别率的前提下，解决海量指定类型数据的操作行为和预设的侵权规则匹配的效率问题。

本申请可用在指定类型数据侵权监管和企业运维场景，快速发现海量指定类型数据的操作行为中的异常操作行为，进而定位侵权事件。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

参见图1，为本申请实施例提供的一种操作行为的检测方法的流程示意图。该方法包括如图1所示的步骤：

在步骤101中，针对目标用户对目标数据的当前操作行为，获取当前操作行为之前的多个操作行为的行为信息，以及多个操作行为对应的多个指定类型数据的数据信息；多个指定类型数据中包括目标数据。

具体实施时，从监管信息存证数据中采集当前操作行为之前的多个操作行为的行为信息，以及多个操作行为对应的多个指定类型数据的数据信息。

其中，操作行为的行为信息包括操作行为对应的指定类型数据的内容、操作用户的角色编码、使用场景编码、控制操作行为的编码、传播操作行为的编码、算法编码、设备/IP/系统编码、操作频次、操作结果状态编码等，可以根据应用场景增加或者减少，本申请实施例对此不做限制。

其中，本申请中的指定类型数据的数据信息指的是用户个人数据的数据信息，包括但不限于标识数据、人口数据、家庭数据、财务数据、车辆数据、健康数据、购买行为数据、社交媒体数据、人脸数据、银行卡号码、电话号码、身份证号码等数据信息，可以根据应用场景增加或者减少，本申请实施例对此不做限制。

其中，操作行为包括但不限于复制、粘贴、转发、剪切、修改、脱敏、分类分级、删除等；算法包括模加、模乘、模幂、泛化、置换、抑制、解耦、加扰、插入、删除等一个或多个运算的集合。

如图2所示，假设指定类型数据为身份证信息，则指定类型数据的多个操作行为可以包括脱敏、复制、转发等，脱敏操作的行为信息包括置换算法、管理员角色等，复制操作的行为信息包括营业员角色等，转发操作的行为信息包括非注册用户角色等。

在步骤102中，对多个指定类型数据的数据信息分别进行特征提取，得到多个指定类型数据各自的第一特征向量。

在一些实施例中，对多个指定类型数据的数据信息分别进行特征提取，得到多个指定类型数据各自的第一特征向量，可以执行为：

将多个指定类型数据的数据信息分别输入预先训练的多模态分类模型中，得到多个指定类型数据的数据信息各自的第一特征向量；每个第一特征向量用于表征对应的指定类型数据的数据类型。

具体实施时，采集并存储业务系统中记录的多个操作行为对应的多个指定类型数据的数据信息，用于操作行为的指定类型数据侵权分析、溯源和取证，然后将各个指定类型数据的数据信息输入预训练的多模态分类模型，将模型的中间层权值作为指定类型数据的类别向量表征，即第一特征向量，表示对应的指定类型数据的数据类型。

其中，多模态分类模型有多种实现方式：

一种是采用基于transformer机制的多模态模型实现，如UNITER、ViLT，可输入图像和文本数据，训练目标是指定类型数据的数据类型，提取模型中间层权值作为指定类型数据的类别向量表征；

另一种是采用传统视觉和语言预训练方式，分别识别后再融合，如采用yolov8模型训练一个目标检测器，识别图片中人脸、身份证件等指定类型数据的数据信息，将识别结果的文本数据，再利用Word2Vec、BERT等自然语言处理类模型转换为特征向量。

在一些实施例中，多模态分类模型的训练过程如图3所示的步骤：

在步骤301中，获取多个样本数据的数据信息以及多个样本数据对应的标注信息；每个标注信息用于表征对应的样本数据的目标数据类型；

在步骤302中，将多个样本数据的数据信息输入待训练的多模态分类模型中，得到多个样本数据的参考数据类型；

在步骤303中，基于参考数据类型和目标数据类型之间的差距，调整待训练的多模态分类模型的参数信息，直至参考数据类型和目标数据类型相同，得到训练完成的多模态分类模型。

具体实施时，从监管信息存证数据中采集多个文本、图像、视频、语音等不同格式的指定类型数据的数据信息，作为样本数据，并标注每个样本数据的目标数据类型；

然后将所有的样本数据的数据信息输入待训练的多模态分类模型中，得到模型输出的多个样本数据的参考数据类型，将参考数据类型和目标数据类型进行比较，从而确定待训练的多模态分类模型的损失函数，根据损失函数调整待训练的多模态分类模型的各种参数信息；

再将所有的样本数据的数据信息输入参数信息修改后的多模态分类模型中，得到模型输出的多个样本数据的参考数据类型，将参考数据类型和目标数据类型进行比较，再次调整模型的参数信息，直至模型输出的参考数据类型和标注的目标数据类型相同，多模态分类模型训练完成；

最后，将训练完成的多模态分类模型的中间层权值作为样本数据的类别向量表征。

本申请中利用现有多模态分类模型进行预训练和向量表征，实现了多模态指定类型数据的操作行为的识别和检测。

在步骤103中，对多个操作行为的行为信息分别进行特征提取，得到多个操作行为各自的第二特征向量。

具体实施时，操作行为的行为信息包括操作行为对应的指定类型数据的内容、操作用户的角色编码、使用场景编码、控制操作行为的编码、传播操作行为的编码、算法编码、设备/IP/系统编码、操作频次、操作结果状态编码等多种信息，因此可以将各个信息根据预设的信息和向量的对应关系，将各个信息进行数字化和向量化表征，从而，得到各操作行为对应的第二特征向量。

其中，预设的信息和向量的对应关系可以根据实际需要进行设置，也可以根据经验进行设置，本申请实施例对此不做限制。

在步骤104中，基于第一特征向量和第二特征向量，对多个操作行为进行聚类分析，得到多个操作行为各自对应的聚类类别。

在一种实施方式中，根据预先配置的多个目标特征向量和操作行为的第一特征向量以及第二特征向量进行相似度计算，将相似度较高的目标特征向量对应的类别，作为该操作行为对应的聚类类别。

在另一种实施方式中，预先训练一个KMeans聚类模型，将多个操作行为对应的指定类型数据的第一特征向量和多个操作行为各自的第二特征向量输入KMeans聚类模型中进行KMeans聚类，将多个操作行为进行分群，以表征指定类型数据的多个操作行为的特征分群，得到多个操作行为各自对应的聚类类别。

具体实施时，从监管信息存证数据中指定类型数据的数据信息和多个操作行为的行为信息，将指定类型数据的数据信息和多个操作行为的行为信息输入Kmeans聚类模型，得到多个操作行为各自对应的聚类类别，从而获得类别对应的聚类编号。

本申请中可通过调整聚类的簇数量来调节异常检测告警数，增大簇数量意味着更严格的检测，异常告警相应增加，反之减少簇数量，异常告警也减少，从而达到检测准确性和效率的兼顾，适应不同场景需求。

在步骤105中，基于多个操作行为各自对应的聚类类别，对多个操作行为进行概率预测，得到多个操作行为各自对应的预测概率值。

在一些实施例中，基于多个操作行为各自对应的聚类类别，对多个操作行为进行概率预测，得到多个操作行为各自对应的预测概率值，可以执行为如图4所示的步骤：

在步骤401中，基于多个操作行为各自对应的聚类类别，以及预设的聚类类别和聚类编号的对应关系，确定多个操作行为各自对应的聚类编号；聚类编号表示同一个聚类类别的多个操作行为；

在步骤402中，根据多个操作行为的操作时间，对多个指定类型数据对应的多个操作行为各自对应的聚类编号进行排序，得到多个指定类型数据对应的操作行为序列；操作行为序列中包括各指定类型数据对应的多个操作行为以及多个操作行为各自对应的聚类编号；

在步骤403中，将多个指定类型数据对应的操作行为序列输入预先训练的概率后缀树模型中，对多个操作行为进行概率预测，得到多个操作行为各自对应的预测概率值。

在一些实施例中，对每条指定类型数据的正常操作行为按操作事件的先后排序组成一个指定类型数据的操作行为序列，其中每个操作行为用其特征聚类后的聚类编号作为符号表征，采集多个指定类型数据的操作行为序列组成训练集，训练基于操作行为特征聚类作为符号的概率后缀树模型，预测新的操作行为的预测概率值。

然后在实际检测时根据目标数据的当前操作行为之前已经发生的多个操作行为，利用训练好的概率后缀树模型预测当前操作行为的概率值。

具体实施时，从监管信息存证数据中指定类型数据的数据信息和多个操作行为的行为信息，将指定类型数据的数据信息和多个操作行为的行为信息输入Kmeans聚类模型，得到多个操作行为各自对应的聚类类别，从而获得类别对应的聚类编号；

再根据多个操作行为的聚类编号按照多个操作行为的操作时间将指定类型数据的多个操作行为进行排序，得到指定类型数据的操作行为序列。

然后将指定类型数据的操作行为序列输入预先训练的概率后缀树模型中，对多个操作行为进行概率预测，得到多个操作行为各自对应的预测概率值。

在一些实施例中，概率后缀树模型的训练过程如图5所示的步骤：

在步骤501中，获取多个样本数据对应的多个操作行为序列；操作行为序列是根据各样本数据的多个操作行为的操作时间，对多个操作行为各自对应的聚类编号进行排序得到的；

在步骤502中，将多个样本数据对应的操作行为序列输入待训练的概率后缀树模型中，根据多个操作行为的操作顺序和多个操作行为在多个操作行为序列中的出现频率，确定多个操作行为各自对应的目标概率值，得到训练完成的概率后缀树模型。

具体实施时，从监管信息存证数据中采集指定类型数据的数据信息以及对应的多个操作行为的行为信息，然后提取特征向量，进行聚类，再根据多个操作行为的操作时间，对多个样本数据对应的多个操作行为各自对应的聚类编号进行排序，得到多个样本数据对应的操作行为序列；

将多个指定类型数据的操作行为序列构成训练集，训练待训练的概率后缀树模型，预测新的操作行为的概率值；

将多个指定类型数据作为样本数据；操作行为序列是根据各样本数据的多个操作行为的操作时间，对多个操作行为各自对应的聚类编号进行排序得到的其中包括多个操作行为各自对应的聚类编号，以及多个操作行为各自对应的操作顺序；

之后，基于多个样本数据对应的操作行为序列，可以计算得到多个操作行为在多个操作行为序列中的出现频率；

然后根据多个操作行为的操作顺序和多个操作行为在多个操作行为序列中的出现频率，确定多个操作行为各自对应的目标概率值，得到训练完成的概率后缀树模型。

其中，训练概率后缀树模型的过程即为概率后缀树的构建过程。

示例性的，首先根据多个操作行为序列的第一操作顺序的多个操作行为的出现频率，计算第一操作顺序的多个操作行为的目标概率值，即出现频率；

接着在第一操作顺序的多个操作行为的目标概率值的基础上，计算发生第一操作顺序的操作行为之后，同时发生第二操作顺序的多个操作行为的目标概率值，依次类推，直至将最后一个操作顺序的多个操作行为的目标概率值确定，得到训练完成的概率后缀树模型。

如，对正常操作行为序列(a、b、c、d、e)、进行训练，根据各样本数据的多个操作行为的操作时间，对多个操作行为各自对应的聚类编号进行排序得到的操作行为序列(a、b、c)有5个，操作行为序列(a、b、d)有2个，操作行为序列(a、c、e)有3个，那么第一操作顺序的操作行为a的目标概率值为100％，操作行为b、c、d、e的目标概率值均为0；

在此基础上，发生第一操作顺序的操作行为a之后，同时发生第二操作顺序的操作行为b的目标概率值P(b|a)＝7/10；发生第一操作顺序的操作行为a之后，同时发生第二操作顺序的操作行为c的目标概率值P(c|a)＝3/10；而发生第一操作顺序的操作行为a之后，同时发生第二操作顺序的操作行为a、d、e的目标概率值均为0，即P(a|a)＝0、P(d|a)＝0、P(e|a)＝0；

在此基础上，发生第一操作顺序的操作行为a和第二操作顺序的操作行为b之后，发生第三操作顺序的操作行为c的目标概率值为1/2；发生第一操作顺序的操作行为a和第二操作顺序的操作行为b之后，发生第三操作顺序的操作行为d的目标概率值为1/2；发生第一操作顺序的操作行为a和第二操作顺序的操作行为b之后，发生第三操作顺序的操作行为a、b、e的目标概率值均为0；

在此基础上，发生第一操作顺序的操作行为a和第二操作顺序的操作行为c之后，发生第三操作顺序的操作行为e的目标概率值为1；在此基础上，发生第一操作顺序的操作行为a和第二操作顺序的操作行为c之后，发生第三操作顺序的操作行为a、b、c、d的目标概率值均为0。由此，训练完成的概率后缀树模型如图6所示。

之后，若操作行为a之后发生的当前操作行为是d，当前操作行为的预测概率值为P(d|a)＝0，小于预设概率阈值，则表示当前操作行为d是异常操作行为。

本申请最后那个概率后缀树模型的行为符号来源于对操作行为的行为信息的概率分群结果，其行为符号中融入了操作行为、操作场景和环境、操作算法等和侵权规则相关的多维行为信息，而不是简单以操作行为一维信息作为符号，将操作行为的多维行为信息的聚类结果作为概率后缀树的符号序列构建模型，提出了一种新的概率后缀树符号体系的构建方法，将指定类型数据侵权相关的单点空间知识和多点时序知识统一在一个模型中实现，极大的提升了模型异常检测的准确性和运算效率。

本申请中构建概率后缀树模型符号体系的方法还可用于其它类似的场景中，如个人健康监测、金融风控等领域，将传统时间维度的序列检测升级到时空信息结合的序列检测，提升检测效果。

在步骤106中，根据同类型操作行为的预测概率值，确定当前操作行为的预测概率值；同类型操作行为指，多个操作行为中与当前操作行为的行为类型相同的操作行为。

假设当前操作行为的行为类型为复制操作，转发操作的预测概率值为0.4、复制操作的预测概率值为0.5、脱敏操作的预测概率值为0.6，则同类型操作行为是复制操作，当前操作行为的预测概率值为0.5。

在步骤107中，基于当前操作行为的预测概率值和预设概率阈值，确定当前操作行为的检测结果。

在一些实施例中，基于当前操作行为的预测概率值和预设概率阈值，确定当前操作行为的检测结果，包括：

若当前操作行为的预测概率值小于预设概率阈值，则确定当前操作行为的检测结果为异常操作行为；

若当前操作行为的预测概率值不小于预设概率阈值，则确定当前操作行为的检测结果为正常操作行为。

具体实施时，如果实际发生的操作行为的预测概率值低于预设概率阈值，则将该操作行为标记为异常操作行为，否则标记为正常操作行为。

其中，预设概率阈值可以根据经验设定，也可以根据实际需求设定，本申请实施例对此不做限制。

在一些实施例中，对于异常的操作行为和预设的侵权规则进行匹配，可以识别是否有侵权发生，因此本申请实施例提供的操作行为的检测方法中，若当前操作行为的检测结果为异常操作行为，则根据预设的侵权规则，确定当前操作行为的侵权结果。

在一些实施例中，根据预设的侵权规则，确定当前操作行为的侵权结果，可以具体执行为：

获取预设时长内目标用户对目标数据的多个操作行为中异常操作行为的数量；多个操作行为包括当前操作行为；

若异常操作行为的数量大于预设数量阈值，则将各个异常操作行为与预设的侵权规则进行匹配，确定各个异常操作行为的侵权结果；若异常操作行为的数量不大于预设数量阈值，则不将各个异常操作行为与预设的侵权规则进行匹配，直至异常操作行为的数量大于预设数量阈值。

具体实施时，可以设置一个时长窗口，表征预设时长，然后计算时长窗口内异常操作行为的数量，若大于窗口的预设数量阈值，再将该时长窗口的多个异常操作行为与预设的侵权规则进行匹配，进行侵权检测，以降低误报率。

例如每10个操作行为的时长作为一个窗口，对窗口内每个操作行为进行概率预测，如果一个窗口内有超过预设数量阈值的多个异常操作行为，则将该操作行为序列中的多个异常操作行为与预设的侵权规则进行匹配，确定各个异常操作行为的侵权结果。

示例性的，假设10分钟内一个操作行为序列中如果只出现1次异常操作行为，可以确定这个操作行为序列异常还不太严重，暂不进行侵权规则的检测；如果10分钟内出现了3次异常操作行为，则确定这个操作行为序列的异常更严重，根据预设的侵权规则，对该操作行为序列的3次异常操作行为分别进行匹配，检测3次异常操作行为是否是侵权行为。

由此，在出现1个异常操作行为就进行侵权检测的基础上，增加为出现预设数量阈值的异常操作行为再进行侵权检测，进一步提高了侵权规则匹配性能。

为了便于理解，下面以指定数据类型为身份证类型为例，结合具体数据对本申请的操作行为的检测方法进行描述。

利用预训练的多模态分类模型将身份证类型的数据信息编码成第一特征向量表示，如100101。然后将多个操作行为的行为信息(如图2所示的操作行为：脱敏、操作算法：置换，操作角色：管理员,……等)数字化和向量化编码成多维向量，即第二特征向量，如(100101，1，2，0，…)，其中1为脱敏操作编码，2为置换算法编码，0为管理员角色编码等；

然后将多个指定类型数据身份证类隐私数据(或其它指定类型数据，根据应用场景选择)的第一特征向量和多个操作行为的第二特征向量，进行Kmeans聚类，如聚类成100个类，并给每个类从M001到M100进行编码；

之后，用聚类编号重新标注指定类型数据的操作行为序列，如将某次脱敏操作行为替换成M010行为符号；将多个正常操作行为序列全部重新标注后作为输入样本训练概率后缀树模型，之后使用训练好的概率后缀树模型基于多个指定类型数据的已经发生的操作行为，预测新操作行为在M001到M100中发生的概率；

如图7所示，用概率后缀树模型预测M010的概率为0.6，M011的概率为0.3，预测M075的概率为0.001，预设概率阈值为0.2。而当前操作行为是M075预测概率远低于预设概率阈值0.2。这说明根据历史正常数据预测，当前操作行为可能是M010，不太可能是M075，因此将当前操作行为标注为异常操作行为。

本申请的操作行为的多维行为信息和预设的侵权规则的指标项有一定的关联性，如预设的侵权规则中身份证禁止脱敏转发、非法ip地址操作等，在操作行为的多维行为信息中都有记录，并用在聚类分群中进行聚类分析，进而体现在符号序列预测中，从而让异常操作行为和预设的侵权规则的匹配度更高。

本申请的模型简单，不需要复杂的计算，检测速度快，非常适合性能要求高、数据处理量大、跨企业的个人权益保障监管场景。

根据本申请的操作行为的检测方法，下面对操作行为的检测装置进行描述，具体如图8所示。

指定类型数据的操作行为存证模块：采集并存储业务系统中对指定类型数据的操作行为记录，用于指定类型数据的操作行为的侵权分析、溯源和取证。

指定类型数据的操作行为表征模块：利用预训练多模态分类模型，获取指定类型数据的类别向量表征。

指定类型数据的操作行为特征分群模块：从指定类型数据的操作行为存证模块中提取指定类型数据的操作行为的行为信息，然后向量化后进行聚类分群，表征指定类型数据的操作行为的特征。

异常检测模块：训练基于操作行为的特征分群作为符号的概率后缀树模型，预测新的操作行为的预测概率值，判断实际发生的新的操作行为是异常操作行为或者正常操作行为。

侵权检测模块：对于异常操作行为，进行预设的侵权规则匹配，判断异常操作行为是否是侵权行为。

基于相同的技术构思，本申请实施例还提供了一种操作行为的检测装置，操作行为的检测装置解决问题的原理与上述操作行为的检测方法相似，因此操作行为的检测装置的实施可参见操作行为的检测方法的实施，重复之处不再赘述。

图9为本申请实施例提供的一种操作行为的检测装置的结构示意图，该装置包括获取模块901、第一特征提取模块902、第二特征提取模块903、聚类模块904、概率预测模块905、概率确定模块906、检测模块907。

获取模块901，用于针对目标用户对目标数据的当前操作行为，获取所述当前操作行为之前的多个操作行为的行为信息，以及所述多个操作行为对应的多个指定类型数据的数据信息；所述多个指定类型数据中包括所述目标数据；

第一特征提取模块902，用于对所述多个指定类型数据的数据信息分别进行特征提取，得到所述多个指定类型数据各自的第一特征向量；

第二特征提取模块903，用于对所述多个操作行为的行为信息分别进行特征提取，得到所述多个操作行为各自的第二特征向量；

聚类模块904，用于基于所述第一特征向量和所述第二特征向量，对所述多个操作行为进行聚类分析，得到所述多个操作行为各自对应的聚类类别；

概率预测模块905，用于基于所述多个操作行为各自对应的聚类类别，对所述多个操作行为进行概率预测，得到所述多个操作行为各自对应的预测概率值；

概率确定模块906，用于根据同类型操作行为的预测概率值，确定所述当前操作行为的预测概率值；所述同类型操作行为指，所述多个操作行为中与所述当前操作行为的行为类型相同的操作行为；

检测模块907，用于基于所述当前操作行为的预测概率值和预设概率阈值，确定所述当前操作行为的检测结果。

在一些实施例中，所述第一特征提取模块902具体用于：

所述多模态分类模型的训练过程如下：

在一些实施例中，所述概率预测模块905具体用于：

所述概率后缀树模型的训练过程如下：

在一些实施例中，所述检测模块907具体用于：

在一些实施例中，所述装置还包括侵权模块；

在一些实施例中，所述侵权模块具体用于：

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，本申请各实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

在介绍了本申请示例性实施方式的操作行为的检测方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

下面参照图10来描述根据本申请的这种实施方式实现的电子设备130。图10显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，还提供了一种存储介质，当存储介质中的计算机程序由电子设备的处理器执行时，电子设备能够执行上述任一操作行为的检测方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，本申请的电子设备可以至少包括至少一个处理器，以及与这至少一个处理器通信连接的存储器，其中，存储器存储有可被这至少一个处理器执行的计算机程序，计算机程序被这至少一个处理器执行时可使这至少一个处理器执行本申请实施例提供的任一操作行为的检测方法的步骤。

在示例性实施例中，还提供一种计算机程序产品，当计算机程序产品被电子设备执行时，电子设备能够实现本申请提供的任一示例性方法。

并且，计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、闪存、光纤、光盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例中用于设备发现的程序产品可以采用CD-ROM并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络如局域网(Local AreaNetwork，LAN)或广域网(Wide Area Network，WAN)连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也包含这些改动和变型在内。

Claims

1.一种操作行为的检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对所述多个指定类型数据的数据信息分别进行特征提取，得到所述多个指定类型数据各自的第一特征向量，包括：

3.如权利要求2所述的方法，其特征在于，所述多模态分类模型的训练过程如下：

4.如权利要求1所述的方法，其特征在于，所述基于所述多个操作行为各自对应的聚类类别，对所述多个操作行为进行概率预测，得到所述多个操作行为各自对应的预测概率值，包括：

5.如权利要求4所述的方法，其特征在于，所述概率后缀树模型的训练过程如下：

6.如权利要求1所述的方法，其特征在于，所述基于所述当前操作行为的预测概率值和预设概率阈值，确定所述当前操作行为的检测结果，包括：

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

8.如权利要求7所述的方法，其特征在于，所述根据预设的侵权规则，确定所述当前操作行为的侵权结果，包括：

9.一种操作行为的检测装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8任一所述的方法。

11.一种存储介质，其特征在于，当所述存储介质中的计算机程序由电子设备的处理器执行时，所述电子设备能够执行如权利要求1-8任一所述的方法。