CN117932458A

CN117932458A - 对象识别模型生成方法、装置、电子设备和存储介质

Info

Publication number: CN117932458A
Application number: CN202211240759.8A
Authority: CN
Inventors: 樊鹏
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2024-04-26

Abstract

本申请公开了对象识别模型生成方法、装置、电子设备和存储介质，该方法可以用于进行多媒体对象的识别模型的生成，该方法包括：对种子对象对应的第一样本中的少数类样本数据以及多数类样本数据进行联合过采样，得到多个目标样本集，并基于每个目标样本集对应的识别子模型，确定第二样本中的正样本和负样本，基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。该方法可以通过过采样处理平衡数据集，并基于平衡数据集对应的识别子模型进行样本标注，从而提高模型训练的准确性和样本标注的效率，并进一步提高对象识别模型的识别准确性。

Description

对象识别模型生成方法、装置、电子设备和存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及对象识别模型生成方法、装置、电子设备和存储介质。

背景技术

深度学习作为实现人工智能的一种方法，可以学习样本数据的内在规律和表示层次，从而使得机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。在现有技术中，基于深度学习的方法进行对象识别时，存在样本数据不平衡，降低了对象识别模型的识别准确性。

发明内容

本申请提供了对象识别模型生成方法、装置、电子设备和存储介质，可以提高对象识别模型的识别准确性。

一方面，本申请提供了对象识别模型生成方法，所述方法包括：

对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，得到多个目标样本集；所述第一类别样本数据的数据量小于预设数据量；所述第二类别样本数据的数据量大于所述预设数据量；

基于每个目标样本集，分别对第一待训练识别模型进行模型训练，得到多个识别子模型；

基于所述多个识别子模型，对样本识别对象对应的第二样本进行样本标签识别，得到所述第二样本中的正样本和所述第二样本中的负样本；

基于所述多个目标样本集、所述第二样本中的正样本和所述第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。

另一方面提供了一种对象识别方法，所述方法包括：

获取待识别对象对应的待识别特征信息；

将所述待识别特征信息输入到，根据上述所述的对象识别模型生成方法得到的对象识别模型中进行对象识别，得到所述待识别对象对应的对象识别结果。

另一方面提供了一种对象识别模型生成装置，所述装置包括：

联合过采样模块，用于对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，得到多个目标样本集；所述第一类别样本数据的数据量小于预设数据量；所述第二类别样本数据的数据量大于所述预设数据量；

第一模型训练模块，用于基于每个目标样本集，分别对第一待训练识别模型进行模型训练，得到多个识别子模型；

样本标签识别模块，用于基于所述多个识别子模型，对样本识别对象对应的第二样本进行样本标签识别，得到所述第二样本中的正样本和所述第二样本中的负样本；

第二模型训练模块，用于基于所述多个目标样本集、所述第二样本中的正样本和所述第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。

另一方面提供了一种对象识别装置，所述装置包括：

信息获取模块，用于获取待识别对象对应的待识别特征信息；

对象识别模块，用于将所述待识别特征信息输入到，根据上述所述的对象识别模型生成方法得到的对象识别模型中进行对象识别，得到所述待识别对象对应的对象识别结果。

另一方面提供了一种电子设备，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的一种对象识别模型生成方法和上述的一种对象识别方法。

另一方面提供了一种计算机可读存储介质，所述存储介质包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的一种对象识别模型生成方法和上述的一种对象识别方法。

本实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述对象识别模型生成方法和对象识别方法。

本申请提供的对象识别模型生成方法、装置、电子设备和存储介质，该方法可以通过过采样处理平衡数据集，并基于平衡数据集对应的识别子模型进行样本标注，可以避免样本数据不平衡的问题，且缩短了样本标注时间，从而提高模型训练的准确性和样本标注的效率，并进一步通过平衡的数据集和标注后的样本训练得到对象识别模型，提高了对象识别模型的识别准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种对象识别模型生成方法的应用场景示意图；

图2为本申请实施例提供的一种对象识别模型生成方法的流程图；

图3为本申请实施例提供的一种对象识别模型生成方法中进行联合过采样的流程图；

图4为本申请实施例提供的一种对象识别模型生成方法进行联合过采样以及确定正负样本的示意图；

图5为本申请实施例提供的一种对象识别模型生成方法中进行概率分布采样的流程图；

图6为本申请实施例提供的一种对象识别模型生成方法中确定正样本和负样本的流程图；

图7为本申请实施例提供的一种对象识别模型生成方法中在模型训练过程中增加隐私保护的流程图；

图8为本申请实施例提供的一种对象识别模型生成方法中对第二样本进行样本聚类处理的示意图；

图9为本申请实施例提供的一种对象识别模型生成方法中基于双塔结构模型进行模型训练的示意图；

图10为本申请实施例提供的一种对象识别模型生成方法中进行模型训练的流程图；

图11为本申请实施例提供的一种对象识别模型生成方法中的平均池化的示意图；

图12为本申请实施例提供的一种对象识别方法；

图13为本申请实施例提供的一种对象识别模型生成方法中生成该异常对象识别模型的示意图；

图14为本申请实施例提供的一种对象识别模型生成装置的结构示意图；

图15为本申请实施例提供的一种对象识别装置的结构示意图；

图16为本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。而且，术语“第一”、“第二”等适用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参见图1，其显示了本申请实施例提供的一种对象识别模型生成方法的应用场景示意图，所述应用场景包括客户端110和服务器120，服务器120从客户端110中获取种子对象对应的第一样本，服务器120对种子对象对应的第一样本中的少数类样本数据以及多数类样本数据进行联合过采样，得到多个目标样本集，并基于每个目标样本集对应的识别子模型，确定第二样本中的正样本和负样本。服务器120基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。服务器120可以基于对象识别模型进行对象识别，并将识别结果发送到客户端110中。

在本申请实施例中，客户端110包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

在本申请实施例中，服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

基于云存储可以存储种子对象的第一样本和样本识别对象的第二样本。云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(ID，ID entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID，Redundant Array of Independent Disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间

请参见图2，其显示了一种对象识别模型生成方法，可应用于服务器侧，所述方法包括：

S210.对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，得到多个目标样本集；第一类别样本数据的数据量小于预设数据量；第二类别样本数据的数据量大于预设数据量；

在一些实施例中，将种子对象对应的对象特征信息作为第一样本，对象特征信息为对预设时间段内的对象操作信息进行特征提取得到，并可以对提取到的信息进行特征处理。

第一类别样本数据属于少数类样本，第二类别样本数据属于多数类样本。在第一样本中，第二类别样本数据的数据量大于第一类别样本数据的数据量。对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，增加第一类别样本数据的数据量，从而可以得到目标样本集。目标样本集包括同一样本聚类类别下的第一类别样本数据和第二类别样本数据，在目标样本集中，第一类别样本数据的数据量可以大于等于第二类别样本数据的数据量。

在一些实施例中，请参见图3，对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，得到多个目标样本集包括：

S310.对每个第一样本集和第一样本中的第一类别样本数据进行相关性检测，得到第二样本集；第一样本集包括第二类别样本数据；第二样本集包括第二类别样本数据和与第二类别样本数据相关的第一类别样本数据；

S320.对第二样本集进行样本采样，得到目标样本集。

在一些实施例中，请参见图4，如图4所示为进行联合过采样以及确定正负样本的示意图。

对种子对象对应的第一样本中的第二类别样本数据进行聚类处理，得到多个第三样本集。聚类处理可以通过任一种聚类算法进行，聚类算法包括k均值算法(k-means)、基于密度空间的聚类算法、高斯混合模型或者谱聚类算法。

将每个第三样本集均与第一样本中的第一类别样本数据进行合并，得到多个第四样本集。第四样本集中包括第二类别样本数据以及全部的第一类别样本数据。对每个第四样本集进行分类处理，可以得到第五样本集。第五样本集中包括第二类别样本数据和基于分类处理确定的，与第二类别样本数据相关的第一类别样本数据。

对第五样本集进行分类检测，得到分类检测结果。在分类检测结果指示检测成功的情况下，将第五样本集作为第二样本集，在第五样本集检测成功的情况下，说明第五样本集中的第一类别样本数据和第二类别样本数据存在数据一致性，即基于该第五样本集中的第一类别样本数据和第二类别样本数据可以得到同一对象识别结果。

分类检测可以通过确定第五分类样本集对应的检测参数，对第五样本集进行分类检测，该检测参数可以为kappa值。通过检测参数可以确定第四样本集中应该被分类的合理聚类数。在第五样本集对应的检测参数大于预设参数阈值的情况下，生成指示第五样本集检测成功的分类检测结果。在第五样本集对应的检测参数小于预设参数阈值的情况下，生成指示第五样本集检测失败的分类检测结果，此时可以重新对第四样本集进行分类处理。其中，在预设参数为kappa值的情况下，预设参数阈值可以为0.2，在kappa值大于0.2的情况下，说明第五样本集中的数据存在一致性。

对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，使得目标样本集中包括更多的第一类别样本数据，可以提高目标样本集中的数据平衡率，并进一步提高模型训练的有效性。

在一些实施例中，请参见图5，对第二样本集进行样本采样，得到目标样本集包括：

S510.对第二样本集进行概率分布处理，得到第二样本集对应的第一概率分布；第一概率分布为以第一类别样本数据和第二类别样本数据为变量的二维概率分布；

S520.对第一概率分布进行降维处理，得到第二概率分布；

S530.对第二概率分布进行概率分布采样，得到目标样本集。

对第二样本集进行概率分布处理，可以得到第二样本集对应的第一概率分布，该第一概率分布为联合概率分布，即以第一类别样本数据和第二类别样本数据为变量的二维概率分布。对第一概率分布进行降维处理，可以得到第二概率分布，该第二概率分布中只存在一个变量，该第二概率分布可以为一个近似的单变量条件概率分布，该第二概率分布中包括第一概率分布中两个维度的变量所对应的特征信息，可以在对第二类别样本数据已知的条件下对第一类别样本数据进行采样，从而增加第一类别样本数据，并可以得到目标样本集。对第二概率分布采样的公式如下所示：

其中，X_i为当前采样的第一类别样本数据，为当前采样的第一类别样本数据对应的当前样本分量。/>为当前采样的第一类别样本数据在当前样本分量之前计算得到的样本分量。/>为当前采样的第一类别样本数据的上一第一类别样本数据的样本分量。重复上述采样过程，可以得到目标样本集。

对第一概率分布进行降维处理时可以通过周刘算法(chow-liu)进行处理，周刘算法可以将联合概率分布近似为单变量条件分布，从而得到第二概率分布。在对第二概率分布进行采样时，可以通过预设的采样算法进行采样，采样算法包括吉布斯采样算法等，吉布斯采样算法可以对多变量概率分布进行采样。

获取第二样本集对应的第一概率分布，该第一概率分布为二维的联合概率分布，将二维的联合概率分布近似为单变量条件分布后进行概率分布采样，可以得到平衡的样本集。在处理过程中增加原始概率分布，可以提高目标样本集中样本数据的可靠性，从而提高联合过采样的准确性。

S220.基于每个目标样本集，分别对第一待训练识别模型进行模型训练，得到多个识别子模型；

在一些实施例中，第一待训练识别模型可以为用于进行分类的模型，例如支持向量机(support vector machines,SVM)模型，朴素贝叶斯模型或者决策树模型等。将每个目标样本集均作为模型数据训练集，训练得到多个识别子模型。每个识别子模型用于识别同一类型的对象，例如多个识别子模型均用于识别网络会议场景中的异常用户。

S230.基于多个识别子模型，对样本识别对象对应的第二样本进行样本标签识别，得到第二样本中的正样本和第二样本中的负样本；

在一些实施例中，基于多个识别子模型，通过投票机制对每个识别子模型的输出结果进行投票统计处理，从而进行样本标签识别，可以得到第二样本中的正样本和第二样本中的负样本。

在一些实施例中，请参见图6，基于多个识别子模型，对样本识别对象对应的第二样本进行样本标签识别，得到第二样本中的正样本和第二样本中的负样本包括：

S610.基于多个识别子模型，对第二样本进行样本标签识别，得到多个样本标签识别结果；

S620.在多个样本标签识别结果中每个样本标签识别结果均指示第二样本为正样本的情况下，将第二样本确定为正样本；

S630.在多个样本标签识别结果中存在至少一个样本标签识别结果指示第二样本为负样本的情况下，将第二样本确定为负样本。

在一些实施例中，样本标签可以为通过对象识别操作进行确定，基于多个识别子模型，对第二样本进行对象识别，得到对象识别结果。在第二样本对应的对象识别结果指示第二样本为目标对象的情况下，生成指示第二样本为正样本的样本标签识别结果。在第二样本对应的对象识别结果指示第二样本为非目标对象的情况下，生成指示第二样本为负样本的样本标签识别结果。

在通过多个识别子模型，得到同一第二样本对应的多个样本标签识别结果后，若多个样本标签识别结果中每个样本标签识别结果均指示第二样本为正样本，则将第二样本确定为正样本。若多个样本标签识别结果中存在至少一个样本标签识别结果指示第二样本为负样本，则将第二样本确定为负样本。

如图4所示，可以基于多个识别子模型，建立与第二样本相关的决策矩阵，基于该决策矩阵执行样本标签识别和投票操作，并基于下述公式得到第二样本中的正样本和第二样本中的负样本。

其中，M_k(t_m)为每个识别子模型对应的样本标签识别结果，K表示识别子模型的数目，t_m表示第二样本。在每个样本标签识别结果的连乘结果为1的情况下，将第二样本确定为正样本。在连乘结果为0的情况下，将第二样本确定为负样本。

通过投票机制确定正样本和负样本，并在多个识别子模型对应的样本标签识别结果均指示为正样本的情况下，才将第二样本确定为正样本，可以保证少数类样本被所有的识别子模型正确分类，从而提高正样本的可信度和样本标签识别的准确性。

S240.基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。

在一些实施例中，将第二样本作为候选对象，将多个目标样本集作为种子对象，输入到第二待训练识别模型进行对象识别，基于第二待训练识别模型对应的输出结果、正样本和负样本进行模型训练，可以得到对象识别模型。

在一些实施例中，请参见图7，基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型包括：

S710.确定第二样本对应的分类更新信息；

S720.在分类更新信息中增加样本噪声信息，得到分类更新加密信息；

S730.基于分类更新加密信息，对第二样本进行样本聚类处理，得到多个候选样本集；

S740.将多个目标样本集和多个候选样本集输入到第二待训练识别模型中进行对象识别处理，得到样本识别对象对应的样本对象识别结果；

S750.基于样本对象识别结果、正样本和负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。

在一些实施例中，在对第二样本进行聚类的过程中，对分类更新信息增加样本噪声信息，可以对第二样本进行加密处理，从而得到分类更新加密信息。基于分类更新加密信息，对第二样本进行样本聚类处理，得到多个候选样本集。聚类算法可以为近邻传播聚类算法等基于两两样本数据间的相似度进行聚类的算法。

如图8所示为对第二样本进行样本聚类处理的示意图。确定第二样本中两两样本数据的相似度以及每个样本数据的权重，该权重可以为样本数据的偏好值，即样本数据偏向的聚类结果。具体公式如下所示：

其中，s(y_i,y_k)表示相似度，y_k为候选的聚类中心。

基于第二样本中每个样本数据的邻域密度值，对第二样本中的每个样本数据对应的权重进行更新处理。基于权重更新后的第二样本中两两样本数据间的相似度，确定每个样本与分类中心样本间的初始吸引度信息，并确定初始归属度信息，初始归属度信息可以为0。具体公式如下所示：

a₀(y_i,y_k)＝0 (公式5)

其中，r₀(y_i,y_k)为初始吸引度信息，a₀(y_i,y_k)为初始归属度信息，s(y_i,y_k)表示当前样本数据与候选的聚类中心间的相似度，s(y_i,y_k′)表示当前样本数据与非候选的聚类中心间的相似度。

可以将初始吸引度信息作为分类更新信息，在初始吸引度信息中增加预设概率分布的样本噪声信息，对初始吸引度信息进行数据干扰，可以得到分类更新加密信息。对分类更新加密信息和初始归属度信息进行迭代计算，可以得到候选样本集。

在进行迭代时，可以将分类更新加密信息作为当前吸引度信息，并将初始归属度信息作为当前归属度信息。基于当前归属度信息和相似度，更新当前分类参数。确定分类中心样本的自相关吸引度信息。基于当前吸引度信息和自相关吸引度信息，更新当前归属度信息。具体公式如下所示：

其中，r_t(y_i,y_k)为更新后的吸引度信息，a_t(y_i,y_k)为更新后的归属度信息，r_t-1(y_j,y_k)为当前吸引度信息，a_t-1(y_i,y_k)为当前归属度信息，r_t-1(y_k,y_k)为分类中心样本的自相关吸引度信息。

重复基于当前归属度信息和所述相似度，更新当前吸引度信息到基于当前吸引度信息和自相关吸引度信息，更新当前归属度信息的步骤，直到当前归属度信息满足预设的收敛条件时，基于当前归属度信息确定聚类中心，从而得到多个候选样本集。该收敛条件可以为当前归属度信息和当前吸引度信息均不再变化，或者迭代次数达到预设次数。

基于多个目标样本集和多个候选样本集进行模型训练时，可以将多个目标样本集和多个候选样本集输入到第二待训练识别模型中进行对象识别处理，确定与目标样本集匹配的候选样本集中的样本数据，从而在候选样本集上对目标样本集进行扩展，得到样本识别对象对应的样本对象识别结果。在每一次模型训练时，可以重新对目标样本集进行聚类处理。第二待识别训练模型可以采用双塔结构，如图9所示，图9为基于双塔结构模型进行模型训练的示意图。第二待识别训练模型可以包括全连接层、全局注意力计算层、局部注意力计算层和特征分类层。在双塔结构的左侧输入的是目标样本集，在双塔结构的右侧输入的是候选样本集。目标样本集和候选样本集均通过同一全连接层进行特征处理，将每个目标样本集对应的分类特征信息，以及候选样本集中的样本数据特征信息输入到全局注意力计算层中，并将该分类特征信息以及样本数据特征信息也输入到局部注意力计算层中，得到全局分类特征和局部分类特征。对全局分类特征和局部分类特征进行拼接，得到目标分类特征信息，将目标分类特征信息输入到特征分类层中进行分类处理，即可以得到第二样本对应的样本对象识别结果。基于样本对象识别结果、正样本和负样本，确定第二样本对应的损失函数，并基于损失函数对第二待训练识别模型进行模型训练，可以得到对象识别模型。

可以基于目标识别对象的识别指标，对训练得到的对象识别模型进行测试。模型测试可以通过部分线上流量数据通过A/B测试的方式进行。识别指标可以用于区别目标识别对象和除目标识别对象以外的其他识别结果。例如在目标识别对象为网络会议场景中的异常对象时，可以通过该异常对象的实名登记率和广告点击率，对对象识别模型的识别结果进行检测。

在初始吸引度信息增加服从预设概率分布的样本噪声信息，可以对第二样本进行隐私加密，从而使得具有任何程度的背景知识的攻击者均难以得到第二样本中的敏感信息，提高了样本数据的安全性。

在一些实施例中，请参见图10，第二待训练识别模型包括多个待训练模型，不同的待训练模型对应的不同的对象识别算法，基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型包括：

S1010.基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，分别对多个待训练模型进行模型训练，得到多个初始对象识别模型；

S1020.对每个初始对象识别模型进行模型检测，得到每个初始对象识别模型的模型检测结果；

S1030.从模型检测结果中确定目标检测结果；

S1040.将目标检测结果对应的初始对象识别模型作为对象识别模型。

在一些实施例中，可以基于时间顺序，对第二样本进行样本划分，得到样本训练集和样本测试集。样本训练集对应的时间戳小于预设时间阈值，样本测试集对应的时间戳大于预设时间阈值。样本训练集的数据量大于样本测试集。例如，样本训练集的数据量和样本测试集的数据量间的比值为5：1。

多个待训练模型可以包括支持向量机(support vector machines，SVM)、卷积神经网络(Convolutional Neural Network，CNN)、长短时记忆网络(Long Short TermMemroy，LSTM)、实时look-alike算法(Real-time Attention based Look-alike Model，RALM)等多种用于进行分类的模型。基于多个目标样本集、样本训练集中的正样本和样本训练集中的负样本，分别对多个待训练模型进行模型训练，更新多个待训练模型的初始参数，可以得到多个初始对象识别模型。基于样本测试集，可以对每个初始对象识别模型进行模型检测，得到每个初始对象识别模型的模型检测结果。

基于预设的模型检测指标，从模型检测结果中确定目标检测结果。将目标检测结果对应的初始对象识别模型作为对象识别模型。模型检测指标可以为曲线下面积(AreaUnder Curve，AUC)，AUC对应的曲线为受试者工作特征曲线(receiver operatingcharacteristic curve，ROC)，AUC对应的面积为ROC曲线与坐标轴围成的面积。可以将AUC面积最大的初始对象识别模型对应的模型检测结果作为目标检测结果。

对对象识别模型可以进行模型固化处理，即对对象识别模型进行定时的离线训练、检测等步骤，定时更新对象识别模型中的参数。

训练多个初始对象识别模型，并基于模型检测结果，从初始对象识别模型中确定对象识别模型，从而可以提高对象识别模型的识别准确性。

在一些实施例中，对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，得到多个目标样本集之前，可以先基于预设的召回规则，粗召回一批种子对象，然后基于人工筛查的方式对粗召回的种子对象进行过滤，最后基于业务逻辑对过滤后的种子对象进行验证，得到初始种子对象。

对初始种子对象进行对象筛选，并对筛选后的种子对象进行特征处理。对象筛选可以包括人工筛查过滤、业务逻辑过滤、异常种子对象过滤以及分布异常过滤等。

基于异常种子对象指标，从种子对象中过滤掉异常种子对象，异常种子对象可以为虚假用户或电脑操控用户等非真实用户。可以基于业务经验信息设置异常种子对象指标，该异常种子对象指标可以为例如流量使用情况、流量产生的时间分布等。基于预设的分布异常过滤方法，对去除异常种子对象后的种子对象进行过滤。去除异常种子对象后的种子对象可以还存在一些影响到模型训练的准确性的对象，但无法通过异常种子对象指标进行过滤，因此可以应用分布异常过滤方法进行过滤，分布异常过滤方法为基于数据统计的方式确定的过滤方法，例如拉以达准则、格拉布斯准则等。基于拉以达准则进行过滤时，可以假设待过滤的种子对象中只含有随机误差，对待过滤的种子对象的分布进行计算，得到分布标准差。并基于分布标准差确定误差阈值。计算每个待过滤的种子对象对应的误差，并将误差大于误差阈值的种子对象删除。

在种子对象筛选时，还可以获取种子对象对应的基础画像信息，基础画像信息可以包括种子对象的应用操作数据，该应用操作数据为非隐私的操作数据，例如是否安装目标应用，是否使用目标应用中的目标功能等。

在对筛选后的种子对象进行特征处理时，可以基于筛选后的种子对象的历史操作信息和基础画像信息，可以构建种子对象对应的目标画像信息。目标画像信息中包括种子对象属性、设备属性、网络连接属性等多种与种子对象关联的信息。例如，种子对象属性(年龄：男)、设备属性(手机品牌：XX)、网络连接属性(本周连接Wi-Fi次数为10次)。

基于目标识别对象对应的业务场景，可以构建种子对象的业务特征信息，例如种子对象对应的点击率和转化率等。并可以基于历史操作数据对应的时间顺序，按照预设的时间段对种子对象的历史操作数据进行画像聚合处理，得到多个聚合画像信息。例如计算种子对象近半年/近3个月/近1个月/近1周的聚合画像信息。可以基于求和、中位数或标准差三种方式进行画像聚合处理，也可以利用平均池化的方式进行画像聚合处理。请参见图11，如图11所示为平均池化的示意图。

对种子对象对应的目标画像信息中的数值型样本、聚合画像信息中的数值型样本以及业务特征信息中的数值型样本进行归一化处理，得到归一化样本。对初始样本中的目标画像信息中的非数值型样本、聚合画像信息中的非数值型样本以及业务特征信息中的非数值型样本进行离散化处理，得到离散化样本。并将归一化样本和离散化样本作为第一样本。

在进行离散化处理时，可以通过独热编码(One-Hot Encoding)、计数编码(CountEncoding)和合并编码(Consolidation Encoding)的方式进行离散化处理。在非数值样本中存在唯一类别的特征时，可以基于独热编码对该非数值样本进行离散化处理。例如针对种子对象的性别属性，可以通过独热编码离散化为男性(1，0)，女性(0，1)。在非数值样本中存在多个相同的特征时，可以基于计数编码对该非数值样本进行离散化处理，例如种子对象本周连接Wi-Fi的次数，种子对象点击同一类型的多媒体资源的次数等。非数值样本中存在同一类别下的多个特征时，可以通过合并编码的方式进行离散化处理，例如手机系统版本，可以基于版本更新情况，将多个早期系统版本归纳为低系统版本。

经过归一化和离散化处理后得到的第一样本可以为数值型向量。可以将第一样本离线存储在分布式文件系统(The Hadoop Distributed File System，HDFS)中，用于在后续步骤中的快速访问。固化获取到第一样本的步骤，可以对第一样本进行定时更新，并将更新后的第一样本存储到分布式文件系统中。

另一方面提供了一种对象识别方法，请参见图12，该方法包括：

S1210.获取待识别对象对应的待识别特征信息；

S1220.将待识别特征信息输入到，根据上述的对象识别模型生成方法得到的对象识别模型中进行对象识别，得到待识别对象对应的对象识别结果。

在一些实施例中，获取待识别对象对应的待识别特征信息，该待识别特征信息可以包括目标画像信息、聚合画像信息和业务特征信息。将待识别特征信息输入到对象识别模型中进行对象识别，可以确定待识别对象是否为目标识别对象，输出对应的对象识别结果。对象识别模型可以应用于不同的业务场景中，例如网络会议中的异常对象识别场景、游戏对应的对象识别场景、视频软件对应的对象识别场景等。

基于上述的对象识别模型生成方法得到的对象识别模型对待识别对象进行识别，可以提高对象识别的准确性，从而进一步提高待识别对象对应的业务场景的业务处理有效性。

本申请实施例提供一种对象识别模型生成方法，可以用于对网络会议中的异常对象进行识别。请参见图13，如图13所示为生成该异常对象识别模型的示意图。基于人工标注或业务逻辑，获取携带有标签的初始种子对象，该初始种子对象为与网络会议中的异常对象相关的对象。通过对初始种子对象进行过滤处理，并构建过滤后的种子对象对应的目标画像信息、聚合画像信息以及业务特征信息。对种子对象对应的目标画像信息中的数值型样本、聚合画像信息中的数值型样本以及业务特征信息中的数值型样本进行归一化处理，得到归一化样本。对初始样本中的目标画像信息中的非数值型样本、聚合画像信息中的非数值型样本以及业务特征信息中的非数值型样本进行离散化处理，得到离散化样本。并将归一化样本和离散化样本作为第一样本。第一样本包括网络会议中的异常对象对应的对象特征信息。

对第一样本中的多数类样本进行聚类处理，可以得到多个第三样本。将每个第三样本和第一样本中的少数类样本进行合并，可以得到第四样本。对第四样本进行分类处理并验证分类结果，将多数类样本和与多数类样本相关的少数类样本作为第二样本。并对第二样本对应的联合概率分布进行采样，得到多个目标样本集。将每个目标样本集作为训练数据集，输入到第一待训练识别模型进行异常对象识别，得到种子对象识别结果，并基于种子对象对应的标签信息和种子对象识别结果，对第一待训练识别模型进行模型训练，得到多个识别子模型。获取样本识别对象对应的第二样本，第二样本中包括网络会议中的异常对象和网络会议中的普通对象。基于多个识别子模型，对第二样本进行样本标签识别，得到第二样本中的正样本和负样本。其中正样本即为识别为网络会议中的异常对象的第二样本，负样本即为识别为网络会议中的普通对象的第二样本。

对第二样本进行聚类处理，确定第二样本对应的初始吸引度信息。将初始吸引度信息作为分类更新信息，在初始吸引度信息中增加预设概率分布的样本噪声信息，对初始吸引度信息进行数据干扰，可以得到分类更新加密信息。对分类更新加密信息和初始归属度信息进行迭代计算，可以得到候选样本集。

基于目标样本集、候选样本集中的正样本和负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。可以对多个不同分类算法对应的待训练模型进行模型训练，并进行模型检测，将目标检测结果对应的模型作为对象识别模型。该对象识别模型即可以对网络会议中的异常对象进行识别。

本申请实施例提供了一种对象识别模型生成方法，该方法包括：对种子对象对应的第一样本中的少数类样本数据以及多数类样本数据进行联合过采样，得到多个目标样本集，并基于每个目标样本集对应的识别子模型，确定第二样本中的正样本和负样本，基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。该方法可以通过过采样处理平衡数据集，并基于平衡数据集对应的识别子模型进行样本标注，可以避免样本数据不平衡的问题，且缩短了样本标注时间，从而提高模型训练的准确性和样本标注的效率，并进一步通过平衡的数据集和标注后的样本训练得到对象识别模型，提高了对象识别模型的识别准确性，该方法还可以通过更新种子对象的对象类型，使得训练后得到的对象识别模型适应于不同对象的识别场景，从而提高对象识别模型的复用性。

本申请实施例还提供了一种对象识别模型生成装置，请参见图14，该装置还包括：

联合过采样模块1410，用于对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，得到多个目标样本集；第一类别样本数据的数据量小于预设数据量；第二类别样本数据的数据量大于预设数据量；

第一模型训练模块1420，用于基于每个目标样本集，分别对第一待训练识别模型进行模型训练，得到多个识别子模型；

样本标签识别模块1430，用于基于多个识别子模型，对样本识别对象对应的第二样本进行样本标签识别，得到第二样本中的正样本和第二样本中的负样本；

第二模型训练模块1440，用于基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。

在一些实施例中，联合过采样模块包括：

相关性检测单元，用于对每个第一样本集和第一样本中的第一类别样本数据进行相关性检测，得到第二样本集；第一样本集包括第二类别样本数据；第二样本集包括第二类别样本数据和与第二类别样本数据相关的第一类别样本数据；

样本采样单元，用于对第二样本集进行样本采样，得到目标样本集。

在一些实施例中，样本采样单元包括：

概率分布处理单元，用于对第二样本集进行概率分布处理，得到第二样本集对应的第一概率分布；第一概率分布为以第一类别样本数据和第二类别样本数据为变量的二维概率分布；

降维处理单元，用于对第一概率分布进行降维处理，得到第二概率分布；

概率分布采样单元，用于对第二概率分布进行概率分布采样，得到目标样本集。

在一些实施例中，样本标签识别模块包括：

样本标签识别单元，用于基于多个识别子模型，对第二样本进行样本标签识别，得到多个样本标签识别结果；

正样本确定单元，用于在多个样本标签识别结果中每个样本标签识别结果均指示第二样本为正样本的情况下，将第二样本确定为正样本；

负样本确定单元，用于在多个样本标签识别结果中存在至少一个样本标签识别结果指示第二样本为负样本的情况下，将第二样本确定为负样本。

在一些实施例中，第二模型训练模块包括：

分类更新信息确定单元，用于确定第二样本对应的分类更新信息；

噪声增加单元，用于在分类更新信息中增加样本噪声信息，得到分类更新加密信息；

样本聚类处理单元，用于基于分类更新加密信息，对第二样本进行样本聚类处理，得到多个候选样本集；

样本对象识别单元，用于将多个目标样本集和多个候选样本集输入到第二待训练识别模型中进行对象识别处理，得到样本识别对象对应的样本对象识别结果；

模型训练单元，用于基于样本对象识别结果、正样本和负样本，对第二待训练识别模型进行模型训练，得到对象识别模型。

在一些实施例中，第二待训练识别模型包括多个待训练模型，不同的待训练模型对应的不同的对象识别算法，第二模型训练模块包括：

初始模型训练单元，用于基于多个目标样本集、第二样本中的正样本和第二样本中的负样本，分别对多个待训练模型进行模型训练，得到多个初始对象识别模型；

模型检测单元，用于对每个初始对象识别模型进行模型检测，得到每个初始对象识别模型的模型检测结果；

目标检测结果确定单元，用于从模型检测结果中确定目标检测结果；

对象识别模型确定单元，用于将目标检测结果对应的初始对象识别模型作为对象识别模型。

本申请实施例还提供了一种对象识别装置，请参见图15，该装置还包括：

信息获取模块1510，用于获取待识别对象对应的待识别特征信息；

对象识别模块1520，用于将所述待识别特征信息输入到，根据上述的对象识别模型生成方法得到的对象识别模型中进行对象识别，得到待识别对象对应的对象识别结果。

上述实施例中提供的装置可执行本申请任意实施例所提供方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的一种对象识别模型生成方法。

本实施例还提供了一种计算机可读存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令由处理器加载并执行本实施例上述的一种对象识别模型生成方法。

本实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述对象识别模型生成的各种可选实现方式中提供的方法。

本实施例还提供了一种电子设备，该电子设备包括处理器和存储器，其中，存储器存储有计算机程序，计算机程序适于由所述处理器加载并执行本实施例上述的一种对象识别模型生成方法。

所述设备可以为计算机终端、移动终端或服务器，所述设备还可以参与构成本申请实施例所提供的装置或系统。如图16所示，服务器16可以包括一个或多个(图中采用1602a、1602b，……，1602n来示出)处理器1602(处理器1602可以包括但不限于微处理器MCU或可编程逻辑器件FPLD等的处理装置)、用于存储数据的存储器1604、以及用于通信功能的传输装置1606。除此以外，还可以包括：输入/输出接口(I/O接口)、网络接口。本领域普通技术人员可以理解，图16所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器16还可包括比图16中所示更多或者更少的组件，或者具有与图16所示不同的配置。

应当注意到的是上述一个或多个处理器1602和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到服务器16中的其他元件中的任意一个内。

存储器1604可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的方法对应的程序指令/数据存储装置，处理器1602通过运行存储在存储器1604内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种基于自注意力网络的时序行为捕捉框生成方法。存储器1604可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1604可进一步包括相对于处理器1602远程设置的存储器，这些远程存储器可以通过网络连接至服务器16。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或中断产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本实施例中所示出的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比示出的更多或更少的部件，或者组合某些部件，或者具有不同的部件的布置。应当理解到，本实施例中所揭露的方法、装置等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元模块的间接耦合或通信连接。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员还可以进一步意识到，结合本说明书所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但这种实现不应认为超出本申请的范围。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对象识别模型生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的对象识别模型生成方法，其特征在于，所述对种子对象对应的第一样本中的第一类别样本数据以及第二类别样本数据进行联合过采样，得到多个目标样本集包括：

对每个第一样本集和所述第一样本中的第一类别样本数据进行相关性检测，得到第二样本集；所述第一样本集包括第二类别样本数据；所述第二样本集包括所述第二类别样本数据和与所述第二类别样本数据相关的第一类别样本数据；

对所述第二样本集进行样本采样，得到所述目标样本集。

3.根据权利要求2所述的对象识别模型生成方法，其特征在于，所述对所述第二样本集进行样本采样，得到所述目标样本集包括：

对所述第二样本集进行概率分布处理，得到所述第二样本集对应的第一概率分布；所述第一概率分布为以所述第一类别样本数据和所述第二类别样本数据为变量的二维概率分布；

对所述第一概率分布进行降维处理，得到第二概率分布；

对所述第二概率分布进行概率分布采样，得到所述目标样本集。

4.根据权利要求1所述的对象识别模型生成方法，其特征在于，所述基于所述多个识别子模型，对样本识别对象对应的第二样本进行样本标签识别，得到所述第二样本中的正样本和所述第二样本中的负样本包括：

基于所述多个识别子模型，对所述第二样本进行样本标签识别，得到多个样本标签识别结果；

在所述多个样本标签识别结果中每个样本标签识别结果均指示所述第二样本为正样本的情况下，将所述第二样本确定为所述正样本；

在所述多个样本标签识别结果中存在至少一个样本标签识别结果指示所述第二样本为负样本的情况下，将所述第二样本确定为所述负样本。

5.根据权利要求1所述的对象识别模型生成方法，其特征在于，所述基于所述多个目标样本集、所述第二样本中的正样本和所述第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型包括：

确定所述第二样本对应的分类更新信息；

在所述分类更新信息中增加样本噪声信息，得到分类更新加密信息；

基于所述分类更新加密信息，对所述第二样本进行样本聚类处理，得到多个候选样本集；

将所述多个目标样本集和所述多个候选样本集输入到所述第二待训练识别模型中进行对象识别处理，得到所述样本识别对象对应的样本对象识别结果；

基于所述样本对象识别结果、所述正样本和所述负样本，对所述第二待训练识别模型进行模型训练，得到所述对象识别模型。

6.根据权利要求1所述的对象识别模型生成方法，其特征在于，所述第二待训练识别模型包括多个待训练模型，不同的待训练模型对应的不同的对象识别算法，所述基于所述多个目标样本集、所述第二样本中的正样本和所述第二样本中的负样本，对第二待训练识别模型进行模型训练，得到对象识别模型包括：

基于所述多个目标样本集、所述第二样本中的正样本和所述第二样本中的负样本，分别对多个待训练模型进行模型训练，得到多个初始对象识别模型；

对每个初始对象识别模型进行模型检测，得到所述每个初始对象识别模型的模型检测结果；

从所述模型检测结果中确定目标检测结果；

将所述目标检测结果对应的初始对象识别模型作为所述对象识别模型。

7.一种对象识别方法，其特征在于，所述方法包括：

获取待识别对象对应的待识别特征信息；

将所述待识别特征信息输入到，根据权利要求1到8任一项所述的对象识别模型生成方法得到的对象识别模型中进行对象识别，得到所述待识别对象对应的对象识别结果。

8.一种对象识别模型生成装置，其特征在于，所述装置包括：

9.一种对象识别装置，其特征在于，所述装置包括：

对象识别模块，用于将所述待识别特征信息输入到，根据权利要求1到8任一项所述的对象识别模型生成方法得到的对象识别模型中进行对象识别，得到所述待识别对象对应的对象识别结果。

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-6任一项所述的一种对象识别模型生成方法和权利要求7所述的一种对象识别方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-6任一项所述的一种对象识别模型生成方法和权利要求7所述的一种对象识别方法。