CN116933211A

CN116933211A - 对象识别模型训练方法、对象识别方法及装置

Info

Publication number: CN116933211A
Application number: CN202210343853.XA
Authority: CN
Inventors: 苏文龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-10-24

Abstract

本申请涉及数据挖掘技术领域，尤其涉及一种对象识别模型训练方法、对象识别方法及装置，所述方法包括：对第一类型目标对象对应的多个历史行为序列进行序列挖掘，得到所述第一类型目标对象对应的多个频繁行为序列；将所述多个频繁行为序列与样本序列集进行模式匹配，从所述多个频繁行为序列中确定出多个候选行为序列；基于所述多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出目标行为序列；所述序列匹配指标用于表征所述候选行为序列的对象识别能力；基于所述目标行为序列对预设识别模型进行模型训练，得到目标对象识别模型。本申请能够提高模型训练的效率以及提高对象识别模型的识别能力。

Description

对象识别模型训练方法、对象识别方法及装置

技术领域

本申请涉及数据挖掘技术领域，尤其涉及一种对象识别模型训练方法、对象识别方法及装置。

背景技术

在互联网业务中会产生很多行为序列数据，不同黑产行为因组织结构、实施场景上的雷同会导致对象在行为上具备一定的趋同性；这也会体现在对象行为序列上的相似性，在海量对象集上看大量黑产的行为序列就会具备一定的行为模式。

现有技术中一般是直接将对象行为序列作为模型的输入，然后基于对象行为序列进行模型训练，得到相应的对象识别模型；即现有技术中生成对象识别模型的方法所需处理的数据量较大，从而导致对象识别模型的生成效率低。

发明内容

本申请所要解决的技术问题在于，提供一种对象识别模型训练方法、对象识别方法及装置，能够减少模型训练过程中输入模型的数据量，提高对象识别模型的训练效率。

为了解决上述技术问题，一方面，本申请实施例提供了一种对象识别模型训练方法，包括：

对第一类型目标对象对应的多个历史行为序列进行序列挖掘，得到所述第一类型目标对象对应的多个频繁行为序列；

将所述多个频繁行为序列与样本序列集进行模式匹配，得到与所述多个频繁行为序列各自对应的匹配结果；

基于所述匹配结果，从所述多个频繁行为序列中确定出多个候选行为序列；

基于所述多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出目标行为序列；所述序列匹配指标用于表征所述候选行为序列的对象识别能力；

基于所述目标行为序列对预设识别模型进行模型训练，得到目标对象识别模型。

另一方面，本申请实施例提供了一种对象识别方法，包括：

获取待识别对象的对象行为特征序列；

将所述对象行为特征序列输入到目标对象识别模型进行对象识别，得到所述待识别对象的对象识别类型；所述目标对象识别模型基于目标行为序列对预设识别模型进行模型训练得到；所述目标行为序列基于多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出；所述多个候选行为序列基于多个频繁行为序列与样本序列集进行模式匹配的匹配结果确定；所述多个频繁行为序列通过对第一类型目标对象对应的多个历史行为序列进行序列挖掘得到。

另一方面，本申请实施例提供了一种对象识别模型训练装置，包括：

序列挖掘模块，用于对第一类型目标对象对应的多个历史行为序列进行序列挖掘，得到所述第一类型目标对象对应的多个频繁行为序列；

模式匹配模块，用于将所述多个频繁行为序列与样本序列集进行模式匹配，得到与所述多个频繁行为序列各自对应的匹配结果；

候选行为序列确定模块，用于基于所述匹配结果，从所述多个频繁行为序列中确定出多个候选行为序列；

目标行为序列确定模块，用于基于所述多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出目标行为序列；所述序列匹配指标用于表征所述候选行为序列的对象识别能力；

模型训练模块，用于基于所述目标行为序列对预设识别模型进行模型训练，得到目标对象识别模型。

另一方面，本申请实施例提供了一种对象识别装置，包括：

特征序列获取模块，用于获取待识别对象的对象行为特征序列；

对象识别模块，用于将所述对象行为特征序列输入到目标对象识别模型进行对象识别，得到所述待识别对象的对象识别类型；所述目标对象识别模型基于目标行为序列对预设识别模型进行模型训练得到；所述目标行为序列基于多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出；所述多个候选行为序列基于多个频繁行为序列与样本序列集进行模式匹配的匹配结果确定；所述多个频繁行为序列通过对第一类型目标对象对应的多个历史行为序列进行序列挖掘得到。

另一方面，本申请实施例提供了一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的对象识别模型训练方法或对象识别方法。

另一方面，本申请提供了一种计算机存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的对象识别模型训练方法或对象识别方法。

实施本申请实施例，具有如下有益效果：

本申请通过对第一类型目标对象对应的多个历史行为序列进行序列挖掘，以得到第一类型目标对象的多个频繁行为序列；将多个频繁行为序列与样本序列集进行模式匹配，得到多个频繁行为序列各自对应的匹配结果；基于匹配结果，从多个频繁行为序列中确定候选行为序列；基于候选行为序列的序列匹配指标，确定出目标行为序列；基于目标行为序列进行模型训练，得到对象识别模型。从而本申请通过对第一类型目标对象的历史行为序列依次进行序列挖掘、模式匹配以及基于序列匹配指标筛选出目标行为序列等操作，从而既能够得到具有较好表征能力的第一类型目标对象的行为特征序列，又能够减少预设识别模型所需处理的数据量，从而提高模型训练的效率；进一步地，基于频繁行为序列确定目标行为序列，能够提高目标行为序列的特征表达能力，进而提高对象识别模型的识别能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的实施环境示意图；

图2是本申请实施例提供的一种对象识别模型训练方法流程图；

图3是本申请实施例提供的一种模式匹配方法流程图；

图4是本申请实施例提供的另一种模式匹配方法流程图；

图5是本申请实施例提供的一种序列匹配指标确定方法流程图；

图6是本申请实施例提供的一种目标行为序列确定方法流程图；

图7是本申请实施例提供的一种历史行为序列构建方法流程图；

图8是本申请实施例提供的从历史行为序列构建到目标行为序列的确定的流程图；

图9是本申请实施例提供的一种对象识别方法流程图；

图10是本申请实施例提供的一种对象识别模型训练装置示意图；

图11是本申请实施例提供的一种对象识别装置示意图；

图12是本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，其示出了本申请实施例提供的实施环境示意图，该实施环境可包括：至少一个客户端110和数据处理端120，客户端110和数据处理端120可通过网络进行数据通信。

具体地，对象可基于客户端110进行相关行为操作，客户端110可基于对象行为操作生成历史行为数据；数据处理端120可从客户端110处获取历史行为数据，并对历史行为数据进行处理；然后基于处理之后得到的数据对预设识别模型进行模型训练，得到目标对象识别模型。

进一步地，数据处理端120还可基于对象识别模型对待识别对象进行对象识别，得到待识别对象的对象识别类型。

客户端110可以基于浏览器/服务器模式(Browser/Server，B/S)或客户端/服务器模式(Client/Server，C/S)与数据处理端120进行通信。客户端110可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中的客户端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

数据处理端120与客户端110可以通过有线或者无线建立通信连接，数据处理端120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，其中服务器可以是云端服务器。

为了解决现有技术中生成对象识别模型的方法所需处理的数据量较大，从而导致对象识别模型的生成效率低的问题，本申请实施例提供了一种对象识别模型训练方法，该方法的执行主体可以为上述的数据处理端；具体请参阅图2，该方法可包括：

S210.对第一类型目标对象对应的多个历史行为序列进行序列挖掘，得到所述第一类型目标对象对应的多个频繁行为序列。

本申请实施例中的第一类型目标对象具体可以为特定类型的目标对象，本实施例中的对象识别模型即可用于识别该特定类型的对象，从而在对对象识别模型进行训练时，可基于第一类型目标对象的历史行为序列确定出相应的模型训练特征，以用于对预设识别模型进行训练，从而使得训练得到的对象识别模型具备识别第一类型的对象的能力。

频繁行为序列可以为在多个历史行为序列中的出现次数大于等于预设次数的历史行为序列或者历史行为子序列；其中历史行为序列中的各单项行为可按时间顺序进行排列，相应的历史行为子序列中的各个单项行为可以为历史行为序列中的连续单项行为，也可以为历史行为序列中的不连续单项行为。

在具体进行频繁序列挖掘时，可设置相应的预设次数，即将预设次数作为频繁序列的判别依据。预设次数可基于具体场景进行灵活设置，例如在历史行为序列数量较小时，为了保证不遗漏可疑序列，可将预设次数调小；在历史行为序列数量较大时，可将预设次数调大，以减少频繁行为序列的数量，进而提高频繁行为序列的质量。

本实施例中，对于频繁行为序列的具体挖掘方法，可采用PrefixSpan算法，其主要原理为：

输入：序列数据集S和支持度阈值α；

输出：所有满足支持度要求的频繁序列集。

1)找出所有长度为1的前缀和对应的投影数据库。

2)对长度为1的前缀进行计数，将支持度低于阈值α的前缀对应的项从数据集S删除，同时得到所有的频繁1项序列，i＝1。

3)对于每个长度为i满足支持度要求的前缀进行递归挖掘：

a)找出前缀所对应的投影数据库；如果投影数据库为空，则递归返回。

b)统计对应投影数据库中各项的支持度计数。如果所有项的支持度计数都低于阈值α，则递归返回。

c)将满足支持度计数的各个单项和当前的前缀进行合并，得到若干新的前缀。

d)令i＝i+1，前缀为合并单项后的各个前缀，分别递归执行第3步。

对于频繁序列挖掘方法还可采用Aprior或者FP-GROWTH等挖掘方法来实现，在此不再赘述。

S220.将所述多个频繁行为序列与样本序列集进行模式匹配，得到与所述多个频繁行为序列各自对应的匹配结果。

样本序列集可以为样本集合中的行为序列，或者全量集合中的行为序列；通过模式匹配，能够确定每个频繁行为序列在样本序列集中命中的序列数量，也即样本序列集中与每个频繁行为序列相匹配的序列数量。

S230.基于所述匹配结果，从所述多个频繁行为序列中确定出多个候选行为序列。

与每个频繁行为序列对应的匹配结果能够表征该频繁行为序列与样本序列集的匹配程度；具体地，样本序列集中与该频繁行为序列相匹配的序列数量越大，相应匹配程度越高；反之，匹配程度越低。进而可根据各频繁行为序列的匹配结果，确定出多个候选行为序列。

S240.基于所述多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出目标行为序列；所述序列匹配指标用于表征所述候选行为序列的对象识别能力。

每个候选行为序列在模型训练过程中的贡献值可能相同，也可能不同；这个贡献值即可用序列匹配指标来表征，序列匹配指标可表示相应候选行为序列的对象识别能力，也即在对象识别模型训练过程中的贡献值大小。从而可选择序列匹配指标值较大的候选行为序列作为目标行为序列。

S250.基于所述目标行为序列对预设识别模型进行模型训练，得到目标对象识别模型。

本实施例中目标行为序列是与第一类型目标对象对应的序列，从而在模型训练过程中目标行为序列可作为模型输入特征，第一类型可作为与目标行为序列对应的标签数据。

具体地，在进行模型训练过程中，还可包括与第二类型目标对象对应的特征行为序列，其对应的标签数据即可为第二类型。

第一类型的对象为与第二类型的对象相对应的类型，即若第一类型的对象为异常对象，那么第二类型的对象即为正常对象。

通过对第一类型目标对象的历史行为序列依次进行序列挖掘、模式匹配以及基于序列匹配指标筛选出目标行为序列等操作，从而能够得到具有较好表征能力的第一类型目标对象的行为特征序列，基于该目标行为序列对预设识别模型进行模型训练，能够减少预设识别模型所需处理的数据量，从而提高模型训练的效率；进一步地，基于频繁行为序列确定目标行为序列，能够提高目标行为序列的特征表达能力，进而提高对象识别模型的识别能力。

进一步地，样本序列集中可包括多个样本对象的历史行为序列；相应的对于具体的模式匹配方法，请参阅图3，该方法可包括：

S310.对于每个频繁行为序列均执行以下操作：将当前频繁行为序列分别与所述样本序列集进行序列匹配，确定与所述当前频繁行为序列对应的匹配序列。

S320.确定所述匹配序列对应的匹配样本对象，以及确定所述匹配样本对象的数量。

S330.基于所述匹配样本对象的数量得到与所述当前频繁行为序列对应的匹配结果。

在一个示例中，在将频繁行为序列与样本序列集进行序列匹配，以及频繁行为序列中包括多个单项行为时，可将频繁行为序列在样本序列集中进行连续匹配，具体可以是在样本序列集中匹配到包含频繁行为序列的第一个单项行为的样本序列时，将样本序列中第一个单项行为之后的，且与第一个单项行为相邻的单项行为与频繁行为序列的第二个单项行为进行匹配；若匹配结果一致，则继续进行后续匹配，直至完成对频繁行为序列中每个单项行为的匹配；若出现匹配结果不一致的情况，则说明该样本序列与频繁行为序列不匹配。

在另一个示例中，在将频繁行为序列与样本序列集进行序列匹配，以及频繁行为序列中包括多个单项行为时，可将频繁行为序列在样本序列集中进行非连续匹配，即频繁行为序列中的多个单项行为均包含在匹配序列中，这多个单项行为在频繁行为序列中的先后顺序与其在匹配序列中的先后顺序一致，但这多个单项行为在匹配序列中可能是不连续的，即这多个单项行为之间可能通过其他单项行为所隔开；具体地，若频繁行为序列为abc，样本序列为adbec，可以看出，样本序列adbec中包括abc，且先后顺序与频繁行为序列abc一致，但是ab通过d隔开，bc通过e隔开，即abc不是连续的，通过非连续匹配，可将样本序列adbec确定为频繁行为序列abc的匹配序列。

样本序列集均是与样本对象相对应的，从而在确定了频繁行为序列对应的匹配序列之后，还可进一步确定匹配序列对应的匹配样本对象，以实现对匹配样本对象的数量统计；匹配样本对象的数量越多，说明该频繁行为序列的命中率较高，其对于第一类型目标对象的代表性较强；从而通过匹配样本对象的数量来确定频繁行为序列的匹配结果，能够从对象维度实现序列匹配，实现了模式匹配的可解释性以及合理性。

在频繁行为序列中包含多个单项行为时，对多个单项行为进行非连续匹配的过程具体请参阅图4，其示出了另一种模式匹配方法，该方法可包括：

S410.对于包含多个单项行为的频繁行为序列均执行以下操作：确定所述当前频繁行为序列中的第一个单项行为为当前单项行为。

S420.当在所述样本序列集中匹配到包含所述当前单项行为的样本序列时，基于所述样本序列中所述当前单项行为之后的单项行为，与所述当前频繁行为序列中的下一单项行为进行匹配，得到单项行为匹配信息；所述下一单项行为为所述当前频繁行为序列中的所述当前单项行为之后且相邻的单项行为。

S420.当在所述单项行为匹配信息指示所述样本序列中存在与所述下一单项行为匹配的匹配单项行为时，将所述下一单项行为确定为当前单项行为；所述匹配单项行为在所述样本序列中与所述当前单项行为不相邻的单项行为或者与所述当前单项行为相邻的单项行为。

S430.当在所述单项行为匹配信息指示所述样本序列中不存在与所述下一单项行为匹配的匹配单项行为时，确定所述当前频繁行为序列与所述样本序列匹配失败。

S440.判断所述当前频繁行为序列是否与所述样本序列匹配失败；或者所述当前频繁行为序列是否与所述样本序列匹配成功；若是，执行步骤S450；若否，执行步骤S420。

S450.基于所述当前频繁序列与所述样本序列集中各样本序列的匹配信息，得到所述当前频繁行为序列对应的匹配结果。

这里当前频繁行为序列与样本序列匹配成功可以是指当前频繁行为序列中的各个单项行为都在样本序列中匹配到，且各个单项行为在当前频繁行为序列中的先后顺序，与其在样本序列中的先后顺序一致。

在将频繁行为序列与样本序列集进行序列匹配以及频繁行为序列中包括多个单项行为时，可将频繁行为序列在样本序列集中进行非连续匹配，具体可以是在样本序列集中匹配到包含频繁行为序列的第一个单项行为a的样本序列时，将样本序列中第一个单项行为a之后的单项行为序列与频繁行为序列的第二个单项行为b进行匹配；将样本序列中第一个单项行为a之后的单项行为序列与频繁行为序列的第二个单项行为b进行匹配具体可包括：首先将样本序列中第一个单项行为a(频繁行为序列的第一个单项行为a)之后的，且与第一个单项行为a相邻的单项行为与频繁行为序列的第二个单项行为b进行匹配，若匹配不一致，可将样本序列中相邻的单项行为之后的单项行为与第二个单项行为进行匹配，直至匹配成功或者匹配到样本序列尾部仍然没有匹配到第二个单项行为；当匹配失败时，说明当前样本序列与频繁行为序列不匹配。当匹配成功时，对频繁行为序列的第三个单项行为进行匹配，以此类推，直至完成对频繁行为序列中每个单项行为的匹配。例如频繁行为序列为abc，样本序列为adbec，频繁行为序列的第一个单项行为为a，相应样本序列中也包括单项行为a；对于频繁行为序列的第二个单项行为b，在样本序列中单项行为a之后进行匹配，与a相邻的单项行为为d，与b不匹配，继续将样本序列中d之后的单项行为b与频繁行为序列中的b进行匹配，匹配成功；然后再将频繁行为序列的第三个单项行为c与样本序列中b相邻的单项行为e进行比较，c与e不匹配，继续将样本序列中e之后的单项行为c与频繁行为序列的第三个单项行为c进行匹配，匹配成功；从而在样本序列中匹配到了频繁行为序列abc，从而样本序列adbec时频繁行为序列abc的匹配序列。

这里的匹配信息可包括匹配成功或者匹配失败，从而可根据匹配信息确定频繁行为序列对应的匹配结果。

由于有些单项行为之间存在相关性，在样本序列中相关联的单项行为可能是不连续的，从而通过非连续单项行为匹配能够确定出相关联的单项行为，从而能够避免单项行为匹配的遗漏，提高了模式匹配的准确性。

对于目标行为序列的确定，可基于候选行为序列的序列匹配指标来实现；具体请参阅图5，其示出了一种序列匹配指标确定方法，该方法可包括：

S510.对于每个候选行为序列均执行以下操作：确定目标样本集中，与当前候选行为序列对应的匹配样本对象；所述匹配样本对象包括第一类型样本对象和第二类型样本对象。

S520.基于所述第一类型样本对象的数量，与所述目标样本集中第一类型样本对象的总数量，确定第一指标分量。

S530.基于所述第二类型样本对象的数量，与所述目标样本集中第二类型样本对象的总数量，确定第二指标分量。

S540.对所述第一指标分量以及所述第二指标分量进行数据融合，得到与所述当前候选行为序列对应的序列匹配指标。

目标样本集中可包括第一类型样本对象的样本行为序列，以及第二类型样本对象的样本行为序列；对于匹配样本对象的具体确定方法可参阅本实施例上述的在进行模式匹配时的匹配方法，在此不再赘述。

第一指标分量x可基于候选行为序列所对应的第一类型样本对象数量m1与目标样本集中第一类型对象的总数量n1的比值进行确定；第二指标分量y可基于候选行为序列所对应的第二类型样本对象数量m2与目标样本集中第二类型对象的总数量n2的比值进行确定。

从而可对第一指标分量以及第二指标分量进行数据融合，得到候选行为序列的序列匹配指标I；具体数据融合方式可基于式(1)实现：

从而基于第一类型样本对象的数量，以及目标样本集中第一类型样本对象的总数量，确定相应的第一指标分量；基于基于第二类型样本对象的数量，以及目标样本集中第二类型样本对象的总数量，确定相应的第二指标分量；指标分量的确定是基于实际的匹配样本对象数量所确定的，从而使得指标分量与具体匹配情况相适配，提高了指标分量确定的准确性，进一步基于指标分量计算序列匹配指标，能够提高序列匹配指标确定的准确性。

在确定了各候选行为序列对应的序列匹配指标时，可将序列匹配指标的指标数值大于等于第一预设指标数值的候选行为序列确定为目标行为序列；这里的目标行为序列可以为单个序列。从而在模型训练过程中，可将目标行为序列特征作为模型的输入特征。

在另一个示例中，还可对多个候选行为序列进行序列组合，从而可确定相应序列组合的序列匹配指标；具体请参阅图6，其示出了一种目标行为序列确定方法，该方法可包括：

S610.对所述多个候选行为序列进行序列组合，得到多个候选行为序列组合。

S620.基于所述多个候选行为序列组合中各自包含的多个候选行为序列的序列匹配指标，确定与所述多个候选行为序列组合各自对应的序列匹配指标。

S630.基于所述所述多个候选行为序列组合各自对应的序列匹配指标，确定目标行为序列组合。

S640.基于所述目标行为序列组合确定所述目标行为序列。

在对候选行为序列进行序列组合时，可以是任意数量的序列组合，例如两两组合，三三组合等，本实施例中可穷尽各种组合形式，相应可得到多个候选行为序列组合。

每个候选行为序列组合对应的序列匹配指标可基于该候选行为序列组合中各候选行为序列的序列匹配指标进行确定；具体可以是对各候选行为序列的序列匹配指标进行指标值相加，得到候选行为序列组合对应的序列匹配指标；也可对对各候选行为序列的序列匹配指标进行指标值进行加权求和，得到候选行为序列组合对应的序列匹配指标。

在确定了各候选行为序列组合各自对应的序列匹配指标后，可将序列匹配指标大于等于第二预设指标数值的候选行为序列组合确定为目标行为序列组合；从而相应的目标行为序列包括目标行为序列组合中的各项候选行为序列。

从而通过对候选行为序列进行组合，得到相应的候选行为序列组合，然后确定出候选行为序列组合的序列匹配指标；由于多个候选行为序列之间可能存在关联性，从而通过候选行为序列的组合可以发掘序列之间的相关性，进而基于确定出的目标行为序列组合作为模型训练的输入特征，能够提高输入特征的表征能力，进而提高训练出的对象识别模型的识别能力。

在另一个示例中，可对多个候选行为序列进行序列组合，得到多个候选行为序列组合，具体的序列组合方式可参阅本实施例上述内容。对于每个候选行为序列组合均可执行以下操作：确定目标样本集中，与当前候选行为序列组合对应的匹配样本对象；所述匹配样本对象包括第一类型样本对象和第二类型样本对象。基于所述第一类型样本对象的数量，与所述目标样本集中第一类型样本对象的总数量，确定第一组合指标分量。基于所述第二类型样本对象的数量，与所述目标样本集中第二类型样本对象的总数量，确定第二组合指标分量。对所述第一组合指标分量以及所述第二组合指标分量进行数据融合，得到与所述当前候选行为序列组合对应的序列匹配指标。基于所述所述多个候选行为序列组合各自对应的序列匹配指标，确定目标行为序列组合。基于所述目标行为序列组合确定所述目标行为序列。

通过直接基于候选行为序列组合与目标样本集的匹配结果，确定各候选行为序列组合的序列匹配指标，提高序列组合的序列匹配指标计算的准确性。

进一步地，在对多个历史行为序列进行序列挖掘之前，还需要进行历史行为序列的构建；具体请参阅图7，其示出了一种历史行为序列构建方法，该方法可包括：

S710.获取历史行为数据；所述历史行为数据包括：单项资源变更行为发生时间、单项资源变更行为类型以及资源变更量。

S720.确定当前单项资源变更行为发生时间，与上一单项资源变更行为发生时间的时间间隔；所述上一单项资源变更行为发生时间为当前单项资源变更行为之前的，与所述当前单项资源变更行为相邻的单项资源变更行为的发生时间。

S730.基于所述时间间隔、所述单项资源变更行为发生时间、所述单项资源变更行为类型以及所述资源变更量，生成与所述历史行为数据对应的历史行为序列。

本实施例中的历史行为数据可以为第一类型目标对象在预设时间段内的历史行为数据，例如1小时内的历史行为数据、3小时内的历史行为数据等；历史行为数据中包括单项资源变更行为发生时间、单项资源变更行为类型以及资源变更量等相关维度的数据，这些维度的数据能够对单项行为特征做全面的表征；进一步地，通过确定当前单项资源变更行为发生时间与上一单项资源变更行为发生时间的时间间隔，可基于两个单项资源变更行为的时间间隔来分析这两个单项资源变更行为之间的关联关系，例如有资源转入行为之后，立刻有资源转出行为，且资源转移量一致；再例如，在连续时间有大额资源量的转入行为等等，这些基于时间间隔进行分析的行为均是可疑行为。

在一个示例中，在创建历史行为序列中，对于每个历史数据项，可分别创建三个序列，分别对应时间序列、行为类型序列以及资源变更量序列，即可这三个序列可确定为历史行为序列；其中，时间序列具体可包括当前单项资源变更行为发生时间，以及当前单项资源变更行为发生时间，与上一单项资源变更行为发生时间的时间间隔。

在另一个示例中，可将单项资源变更行为发生时间、时间间隔、单项资源变更行为类型以及资源变更量进行数据拼接，得到相应的历史行为序列。

从而，通过单项资源变更行为发生时间、时间间隔、单项资源变更行为类型以及资源变更量能够实现对历史行为特征的全面表达，从而能够提高相应历史行为序列的行为特征表达的全面性以及准确性。

在一个具体示例中，请参阅图8，其示出了从历史行为序列构建到目标行为序列的确定的流程。流程包括原始数据清理(用来兼容基础的对抗手法)，X小时子序列挖掘，挖掘出高支持度的子序列，然后引入训练样本计算出高支持度的子序列IV(InformationValue)值，最后挑选出IV值高的子序列作为有监督模型的训练特征。

通过对异常类型行为的分析，应用规则筛选出异常对象X小时以内的行为子序列作为待挖掘的集合；这里也可以添加额外的规则来对抗初级的黑产对抗行为。在异常对象的所有子序列中挖掘异常对象范围内的频繁子序列，其中算法参数根据实际异常行为聚集特点而定(为保障不遗漏可疑子序列，可以尽量降低最小支持数)。挖掘出的子序列根据业务含义进行必要筛选，尽量保证子序列支持计数高并且在业务场景中有一定的可解释性。

进一步地，在对象识别场景中，可基于训练得到的对象识别模型进行对象类型的识别；具体请参阅图9，其示出了一种对象识别方法，该方法可包括：

S910.获取待识别对象的对象行为特征序列。

S920.将所述对象行为特征序列输入到目标对象识别模型进行对象识别，得到所述待识别对象的对象识别类型；所述目标对象识别模型基于目标行为序列对预设识别模型进行模型训练得到；所述目标行为序列基于多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出；所述多个候选行为序列基于多个频繁行为序列与样本序列集进行模式匹配的匹配结果确定；所述多个频繁行为序列通过对第一类型目标对象对应的多个历史行为序列进行序列挖掘得到。

对于待识别对象的对象行为特征序列可以为对待识别对象的行为数据进行分析之后所构建出的对象行为特征序列，其具体的序列构建方法可参阅本实施例上述的历史行为序列的构建方法，具备相应的序列形式，在此不再赘述赘述。

对于对象识别模型的训练方法也可参阅本实施例上述内容。

对象识别模型可基于输入的对象行为特征序列对待识别对象进行类型识别，得到相应的对象识别类型；对象识别类型可能是第一类型，也可能为第二类型；对于待识别对象为不同类型对象的情况下，可对待识别对象的行为进行进一步处理。若待识别对象的对象识别类型为第一类型，第一类型为异常类型，可对待识别对象的后续行为进行限制；若待识别对象的对象识别类型为第二类型，第二类型为正常类型，则可对待识别对象的后续行为不进行限制。

在对对象识别模型进行训练时，通过对第一类型目标对象的历史行为序列依次进行序列挖掘、模式匹配以及基于序列匹配指标筛选出目标行为序列等操作，从而既能够得到具有较好表征能力的第一类型目标对象的行为特征序列，又能够减少预设识别模型所需处理的数据量，从而提高模型训练的效率；进一步地，基于频繁行为序列确定目标行为序列，能够提高目标行为序列的特征表达能力，进而提高对象识别模型的识别能力。基于对象识别模型进行对象识别时，能够提高对待识别对象的识别准确性，进而可基于对象识别类型对待识别对象进行相应的处理，提升对象管理的灵活性。

请参阅图10，本实施例还提供了一种对象识别模型训练装置，该装置可包括：

序列挖掘模块1010，用于对第一类型目标对象对应的多个历史行为序列进行序列挖掘，得到所述第一类型目标对象对应的多个频繁行为序列；

模式匹配模块1020，用于将所述多个频繁行为序列与样本序列集进行模式匹配，得到与所述多个频繁行为序列各自对应的匹配结果；

候选行为序列确定模块1030，用于基于所述匹配结果，从所述多个频繁行为序列中确定出多个候选行为序列；

目标行为序列确定模块1040，用于基于所述多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出目标行为序列；所述序列匹配指标用于表征所述候选行为序列的对象识别能力；

模型训练模块1050，用于基于所述目标行为序列对预设识别模型进行模型训练，得到目标对象识别模型。

进一步地，所述样本序列集包括多个样本对象的历史行为序列；所述模式匹配模块1020包括：

匹配序列确定模块，用于对于每个频繁行为序列均执行以下操作：将当前频繁行为序列分别与所述样本序列集进行序列匹配，确定与所述当前频繁行为序列对应的匹配序列；

数量确定模块，用于确定所述匹配序列对应的匹配样本对象，以及确定所述匹配样本对象的数量；

第一匹配结果确定模块，用于基于所述匹配样本对象的数量得到与所述当前频繁行为序列对应的匹配结果。

进一步地，所述模式匹配模块1020包括：

第一确定模块，用于对于包含多个单项行为的频繁行为序列均执行以下操作：确定所述当前频繁行为序列中的第一个单项行为为当前单项行为；

单项行为匹配信息确定模块，用于当在所述样本序列集中匹配到包含所述当前单项行为的样本序列时，基于所述样本序列中所述当前单项行为之后的单项行为，与所述当前频繁行为序列中的下一单项行为进行匹配，得到单项行为匹配信息；所述下一单项行为为所述当前频繁行为序列中的所述当前单项行为之后且相邻的单项行为；

第二确定模块，用于当在所述单项行为匹配信息指示所述样本序列中存在与所述下一单项行为匹配的匹配单项行为时，将所述下一单项行为确定为当前单项行为；所述匹配单项行为在所述样本序列中与所述当前单项行为不相邻的单项行为或者与所述当前单项行为相邻的单项行为；

第三确定模块，用于当在所述单项行为匹配信息指示所述样本序列中不存在与所述下一单项行为匹配的匹配单项行为时，确定所述当前频繁行为序列与所述样本序列匹配失败；

重复执行模块，用于重复执行步骤当在所述样本序列集中匹配到包含所述当前单项行为的样本序列时，基于所述样本序列中所述当前单项行为之后的单项行为，与所述当前频繁行为序列中的下一单项行为进行匹配，得到单项行为匹配信息；当在所述单项行为匹配信息指示所述样本序列中存在与所述下一单项行为匹配的匹配单项行为时，将所述下一单项行为确定为当前单项行为的步骤；直至所述当前频繁行为序列与所述样本序列匹配失败；或者所述当前频繁行为序列与所述样本序列匹配成功；

第二匹配结果确定模块，用于基于所述当前频繁序列与所述样本序列集中各样本序列的匹配信息，得到所述当前频繁行为序列对应的匹配结果。

进一步地，所述装置还包括：

匹配样本对象确定模块，用于对于每个候选行为序列均执行以下操作：确定目标样本集中，与当前候选行为序列对应的匹配样本对象；所述匹配样本对象包括第一类型样本对象和第二类型样本对象；

第一指标分量确定模块，用于基于所述第一类型样本对象的数量，与所述目标样本集中第一类型样本对象的总数量，确定第一指标分量；

第二指标分量确定模块，用于基于所述第二类型样本对象的数量，与所述目标样本集中第二类型样本对象的总数量，确定第二指标分量；

数据融合模块，用于对所述第一指标分量以及所述第二指标分量进行数据融合，得到与所述当前候选行为序列对应的序列匹配指标。

进一步地，所述目标行为序列确定模块1040包括：

序列组合模块，用于对所述多个候选行为序列进行序列组合，得到多个候选行为序列组合；

序列匹配指标确定模块，用于基于所述多个候选行为序列组合中各自包含的多个候选行为序列的序列匹配指标，确定与所述多个候选行为序列组合各自对应的序列匹配指标；

目标行为序列组合确定模块，用于基于所述所述多个候选行为序列组合各自对应的序列匹配指标，确定目标行为序列组合；

第四确定模块，用于基于所述目标行为序列组合确定所述目标行为序列。

进一步地，所述装置还包括：

历史行为数据获取模块，用于获取历史行为数据；所述历史行为数据包括：单项资源变更行为发生时间、单项资源变更行为类型以及资源变更量；

时间间隔确定模块，用于确定当前单项资源变更行为发生时间，与上一单项资源变更行为发生时间的时间间隔；所述上一单项资源变更行为发生时间为当前单项资源变更行为之前的，与所述当前单项资源变更行为相邻的单项资源变更行为的发生时间；

历史行为序列生成模块，用于基于所述时间间隔、所述单项资源变更行为发生时间、所述单项资源变更行为类型以及所述资源变更量，生成与所述历史行为数据对应的历史行为序列。

请参阅图11，其示出了一种对象识别装置，该装置可包括：

特征序列获取模块1110，用于获取待识别对象的对象行为特征序列；

对象识别模块1120，用于将所述对象行为特征序列输入到目标对象识别模型进行对象识别，得到所述待识别对象的对象识别类型；所述目标对象识别模型基于目标行为序列对预设识别模型进行模型训练得到；所述目标行为序列基于多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出；所述多个候选行为序列基于多个频繁行为序列与样本序列集进行模式匹配的匹配结果确定；所述多个频繁行为序列通过对第一类型目标对象对应的多个历史行为序列进行序列挖掘得到。

上述实施例中提供的装置可执行本申请任意实施例所提供方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的方法。

本实施例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如本实施例上述任一方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一方法。

本实施例还提供了一种设备，其结构图请参见图12，该设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储媒体1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储媒体1230可以是短暂存储或持久存储。存储在存储媒体1230的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对设备中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储媒体1230通信，在设备1200上执行存储媒体1230中的一系列指令操作。设备1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。本实施例上述的任一方法均可基于图12所示的设备进行实施。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或中断产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本实施例中所示出的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比示出的更多或更少的部件，或者组合某些部件，或者具有不同的部件的布置。应当理解到，本实施例中所揭露的方法、装置等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元模块的间接耦合或通信连接。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员还可以进一步意识到，结合本说明书所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但这种实现不应认为超出本申请的范围。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对象识别模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述样本序列集包括多个样本对象的历史行为序列；

所述将所述多个频繁行为序列与样本序列集进行模式匹配，得到与所述多个频繁行为序列各自对应的匹配结果，包括：

对于每个频繁行为序列均执行以下操作：

将当前频繁行为序列分别与所述样本序列集进行序列匹配，确定与所述当前频繁行为序列对应的匹配序列；

确定所述匹配序列对应的匹配样本对象，以及确定所述匹配样本对象的数量；

基于所述匹配样本对象的数量得到与所述当前频繁行为序列对应的匹配结果。

3.根据权利要求1所述的方法，其特征在于，所述将所述多个频繁行为序列与样本序列集进行模式匹配，得到与所述多个频繁行为序列各自对应的匹配结果，包括：

对于包含多个单项行为的频繁行为序列均执行以下操作：

确定所述当前频繁行为序列中的第一个单项行为为当前单项行为；

当在所述样本序列集中匹配到包含所述当前单项行为的样本序列时，基于所述样本序列中所述当前单项行为之后的单项行为，与所述当前频繁行为序列中的下一单项行为进行匹配，得到单项行为匹配信息；所述下一单项行为为所述当前频繁行为序列中的所述当前单项行为之后且相邻的单项行为；

当在所述单项行为匹配信息指示所述样本序列中存在与所述下一单项行为匹配的匹配单项行为时，将所述下一单项行为确定为当前单项行为；所述匹配单项行为在所述样本序列中与所述当前单项行为不相邻的单项行为或者与所述当前单项行为相邻的单项行为；

当在所述单项行为匹配信息指示所述样本序列中不存在与所述下一单项行为匹配的匹配单项行为时，确定所述当前频繁行为序列与所述样本序列匹配失败；

重复执行步骤当在所述样本序列集中匹配到包含所述当前单项行为的样本序列时，基于所述样本序列中所述当前单项行为之后的单项行为，与所述当前频繁行为序列中的下一单项行为进行匹配，得到单项行为匹配信息；当在所述单项行为匹配信息指示所述样本序列中存在与所述下一单项行为匹配的匹配单项行为时，将所述下一单项行为确定为当前单项行为的步骤；直至所述当前频繁行为序列与所述样本序列匹配失败；或者所述当前频繁行为序列与所述样本序列匹配成功；

基于所述当前频繁序列与所述样本序列集中各样本序列的匹配信息，得到所述当前频繁行为序列对应的匹配结果。

4.根据权利要求1所述的方法，其特征在于，所述基于所述多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出目标行为序列之前，所述方法还包括：

对于每个候选行为序列均执行以下操作：

确定目标样本集中，与当前候选行为序列对应的匹配样本对象；所述匹配样本对象包括第一类型样本对象和第二类型样本对象；

基于所述第一类型样本对象的数量，与所述目标样本集中第一类型样本对象的总数量，确定第一指标分量；

基于所述第二类型样本对象的数量，与所述目标样本集中第二类型样本对象的总数量，确定第二指标分量；

对所述第一指标分量以及所述第二指标分量进行数据融合，得到与所述当前候选行为序列对应的序列匹配指标。

5.根据权利要求1所述的方法，其特征在于，所述基于所述多个候选行为序列的序列匹配指标，从所述多个候选行为序列中确定出目标行为序列，包括：

对所述多个候选行为序列进行序列组合，得到多个候选行为序列组合；

基于所述多个候选行为序列组合中各自包含的多个候选行为序列的序列匹配指标，确定与所述多个候选行为序列组合各自对应的序列匹配指标；

基于所述所述多个候选行为序列组合各自对应的序列匹配指标，确定目标行为序列组合；

基于所述目标行为序列组合确定所述目标行为序列。

6.根据权利要求1所述的方法，其特征在于，所述对第一类型目标对象对应的多个历史行为序列进行序列挖掘，得到所述第一类型目标对象对应的多个频繁行为序列之前，所述方法还包括：

获取历史行为数据；所述历史行为数据包括：单项资源变更行为发生时间、单项资源变更行为类型以及资源变更量；

确定当前单项资源变更行为发生时间，与上一单项资源变更行为发生时间的时间间隔；所述上一单项资源变更行为发生时间为当前单项资源变更行为之前的，与所述当前单项资源变更行为相邻的单项资源变更行为的发生时间；

基于所述时间间隔、所述单项资源变更行为发生时间、所述单项资源变更行为类型以及所述资源变更量，生成与所述历史行为数据对应的历史行为序列。

7.一种对象识别方法，其特征在于，包括：

获取待识别对象的对象行为特征序列；

8.一种对象识别模型训练装置，其特征在于，包括：

9.一种对象识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的对象识别模型训练方法，或如权利要求7所述的对象识别方法。

11.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行如权利要求1至6任一项所述的对象识别模型训练方法，或如权利要求7所述的对象识别方法。