CN114255475A

CN114255475A - 用于生成训练数据以及训练用于重识别的机器学习模型的系统及方法

Info

Publication number: CN114255475A
Application number: CN202111105139.9A
Authority: CN
Inventors: T·雅各布森; M·L·C·克里斯滕森; U·I·松德戈德; 其他发明人请求不公开姓名
Original assignee: Grezper Technology Co ltd
Current assignee: Grezper Technology Co ltd
Priority date: 2020-09-22
Filing date: 2021-09-22
Publication date: 2022-03-29
Also published as: JP7186269B2; JP2022051683A; US20220092348A1; EP3971771A1

Abstract

本公开的示例涉及一种用于生成训练数据以及训练用于重识别的机器学习模型的概念。一种为了训练用于重识别的机器学习模型而生成训练数据的计算机系统，该计算机系统包括被配置为获得媒体数据的处理电路，媒体数据包括表示人、动物或物体的多个样本。处理电路被配置为处理媒体数据以识别表示同一人、动物或物体的样本元组。处理电路被配置为基于识别出的表示同一人、动物或物体的样本元组来生成训练数据。

Description

用于生成训练数据以及训练用于重识别的机器学习模型的系统及方法

技术领域

本发明的示例涉及一种用于生成训练数据以及训练用于重识别的机器学习模型的概念。

背景技术

与寻求确定人的绝对身份(通常从面部特征确定)的识别系统相比，视觉人员重识别(缩写：re-id)系统的目的是仅从人的外表来对他们进行区分或重识别。人员重识别系统通常使用机器学习模型来实现，该机器学习模型被训练成基于表示不同人员的图像数据来生成重识别代码。当前为训练重识别系统而创建图像的方法通常依赖于大量的手动注释工作。该过程工作量大且缓慢。

发明内容

本公开的各种示例基于以下发现：与重识别系统通常仅使用单个媒体数据样本来生成重识别代码的实时性质相反，用于生成重识别代码的机器学习模型的训练不受这些约束的限制。相反，在各种示例中，可以将附加信息与要用于训练的媒体数据样本一起收集，以允许自动生成用于训练这种机器学习模型的训练数据。附加地或替代地，可以采用允许编译合适的训练数据的其它系统。

在所提出的概念中，获得将用于训练机器学习模型的多个样本。对这些样本进行处理，并将表示同一人、动物或物体的样本组合在一起。这些组或“元组”继而用于生成所述训练数据。例如，可以使用辅助信息来执行将所述样本分为不同元组的操作，所述辅助信息例如是图像样本在图像样本序列(例如，视频流)中的位置或与相应样本一起记录的无线标识符。或者，可以使用另一系统(例如，另一基本重识别系统)来将所述样本按照元组进行分组。然后，这些元组可以用作例如在机器学习模型的基于三元组损失的训练中的训练数据，其中一个元组中的两个样本用作基线输入和正输入，另一元组中的样本用作所述基于三元组损失的训练的负输入。

本公开的各种示例涉及一种为了训练用于重识别的机器学习模型而生成训练数据的计算机系统。所述计算机系统包括被配置为获得媒体数据的处理电路。所述媒体数据包括表示人、动物或物体的多个样本。所述处理电路被配置为处理所述媒体数据以识别表示同一人、动物或物体的样本元组。所述处理电路被配置为基于识别出的表示同一人、动物或物体的样本元组来生成所述训练数据。通过以编程方式将样本分为表示同一人、动物或物体的样本元组，可以生成用于训练所述机器学习模型的合适的训练数据。

在一些示例中，每个样本与表征该样本或由该样本表示的人、动物或物体的辅助信息相关联。所述处理电路可以被配置为基于与相应样本相关联的辅助信息来识别表示同一人、动物或物体的样本元组。例如，所述辅助信息可用于在不依赖于或仅部分依赖于样本的内容的情况下识别属于同一元组的样本。

一种类型的辅助信息涉及相应样本的相互关系。例如，至少一些样本可以取自视频流，或者更一般而言，取自图像序列。所述视频流的后续图像样本通常示出同一人、动物或物体，并且因此可以被分配给同一元组。换言之，如果所述媒体数据包括图像样本序列，则所述辅助信息可以表征相应样本在所述图像样本序列内的位置。所述处理电路可以被配置为基于相应样本在所述图像样本序列内的位置来识别表示同一人、动物或物体的样本元组。

另一种类型的辅助信息涉及所述样本的来源。例如，如果所述媒体数据包括两个或更多个摄像头的媒体数据，则所述辅助信息可以表征相应样本关于两个或更多个摄像头的来源以及所述样本的拍摄时间。在本文中，术语“来源”可对应于提供相应样本的摄像头的位置。所述电路可以被配置为基于样本关于两个或更多个摄像头的来源并且基于样本的拍摄时间来识别表示同一人、动物或物体的样本元组。该方法可用于两个摄像头具有部分重叠或几乎重叠的视场的情况，例如以便识别从一个摄像头的视场移动到另一摄像头的视场的人、动物或物体。因此，两个或更多个摄像头的媒体数据可以示出至少部分重叠的视场。

第三种类型的辅助信息涉及在采集所述样本时收集的附加信息。例如，每个媒体数据生成设备(例如，摄像头)可以连接到无线通信设备，该无线通信设备可用于记录由相应媒体数据生成设备记录的人员的移动设备的无线通信标识符(例如，媒体访问控制地址)。该无线通信标识符随后可用于识别表示同一人(或动物或物体)的样本。换言之，所述辅助信息可以包括关于与所述媒体数据样本一起记录的无线通信标识符的信息。所述处理电路可以被配置为基于与相应样本一起记录的无线通信标识符来识别表示同一人、动物或物体的样本元组。

所提出的方法的另一应用是在基于重识别的访问控制系统中，其中所提出的方法可用于在即使人的外表逐渐改变(例如由于生长的头发、晒黑或生长的胡子)的长时间跨度内执行基于重识别的访问控制。因此，所述多个样本可以经过多天从基于重识别的访问控制系统获得。所述辅助信息可以包括关于由所述基于重识别的访问控制系统提供的人员的标识符的信息。新获得的样本可以被添加到表示相应人员的样本元组。本公开的各种示例提供了相应的包括所述计算机系统的基于重识别的访问控制系统。所述计算机系统的处理电路可以被配置为基于所生成的训练数据来调整用于基于重识别的访问控制系统中的重识别的机器学习模型。新添加的元组可用于调整相应机器学习模型的训练。

在一些示例中，可以放弃使用所述辅助信息。例如，处理电路可以被配置为使用第一重识别系统来识别所述样本元组。可以生成所述训练数据，用于训练在第二重识别系统中使用的机器学习模型。换言之，现有的重识别系统(即，所述第一重识别系统)可用于识别样本，该样本用于训练由新训练的重识别系统(即，第二重识别系统)使用的机器学习模型。

在一些情况下，所述多个样本还可以包含不适于在所述机器学习模型的训练中使用的样本，例如，因为该样本没有示出人、动物或物体，或者示出太少的细节。为了避免将这种样本用于训练，可以丢弃这些样本。例如，所述处理电路可以被配置为确定所述多个样本中的样本中存在人、动物或物体，并且如果对人、动物或物体的存在的确定失败，则丢弃样本。

附加地或替代地，可以对相应元组内的样本就其质量进行评估，如果质量低于期望，则丢弃样本。例如，所述处理电路可以被配置为确定元组中的样本的质量，并且如果样本的质量根据预定义的规则而不足，则从元组中移除所述样本。

在视觉人员重识别系统中，重识别通常基于相应人员的面部。因此，一个预定义的规则可以涉及所述样本中所示人员的面部可见性。换言之，所述媒体数据可以表示人。可以基于相应样本中人员的面部可见性来确定元组中的样本的质量。

另一预定义的规则可以基于使用现有的重识别系统生成的重识别代码之间的距离。例如，所述处理电路可以被配置为使用重识别系统来生成表示由相应样本表示的人、动物或物体的(几个)重识别代码。元组中的样本的质量可以基于针对所述元组中的所述样本(以这种方式)生成的(几个)重识别代码之间的距离。这使得可以自动评估相应元组中的样本的质量。

通常，媒体数据可以是图像数据、视频数据、音频数据、物体运动的三维表示以及基于文本的媒体数据之一。这些是适用于重识别的媒体数据类型的示例。

所给出的方法可用于生成用于训练相应机器学习模型的训练数据。所生成的训练数据可以包括多个样本元组，其中每个样本元组包含表示同一人、动物或物体的样本。例如，所生成的训练数据可以包括多个样本，所述多个样本按照被分配到的元组进行分组。

在一些示例中，所述计算机系统也可用于训练所述机器学习模型。换言之，处理电路可以被配置为使用所生成的训练数据来训练所述机器学习模型。可以基于在所述机器学习模型的输入处提供的媒体数据对机器学习模型进行训练来生成重识别代码。通过使用所生成的训练数据来训练所述机器学习模型，实现了所述机器学习模型的高效训练，即在生成所述训练数据时需要较少的或不需要人工工作。

例如，可以使用基于三元组损失的训练来训练所述机器学习模型，其中一个元组中的样本被用作基于三元组损失的训练的基线输入和正输入。在所述机器学习模型的基于三元组损失的训练中，基线输入和正输入是输入表示同一人、动物或物体的媒体数据，负输入是输入表示另一人、动物或物体的媒体数据。

本公开的各种示例涉及一种为了训练用于重识别的机器学习模型而生成训练数据的相应计算机实现方法。所述方法包括获得媒体数据。所述媒体数据包括表示人、动物或物体的多个样本。所述方法包括处理所述媒体数据以识别表示同一人、动物或物体的样本元组。所述方法包括基于识别出的表示同一人、动物或物体的样本元组来生成所述训练数据。

本公开的各种示例涉及一种用于训练用于重识别的机器学习模型的计算机系统。所述计算机系统包括被配置为获得用于训练机器学习模型的训练数据的处理电路。所述训练数据由如上所述的计算机系统生成。所述处理电路被配置为使用所获得的训练数据来训练所述机器学习模型。基于在所述机器学习模型的输入处提供的媒体数据对所述机器学习模型进行训练来生成重识别代码。通过使用所生成的训练数据来训练所述机器学习模型，实现了所述机器学习模型的高效训练，即在生成所述训练数据时需要较少的或不需要人工工作。

本公开的各种示例涉及一种用于训练用于重识别的机器学习模型的相应计算机实现方法。所述方法包括获得用于训练所述机器学习模型的训练数据。训练数据由如上所述的用于生成训练数据的计算机实现方法生成。所述方法包括使用所获得的训练数据来训练所述机器学习模型。基于在所述机器学习模型的输入处提供的媒体数据对所述机器学习模型进行训练来生成重识别代码。

本公开的示例涉及一种具有程序代码的相应计算机程序，用于当该计算机程序在计算机、处理器或可编程硬件部件上执行时执行上述方法中的至少一个。

附图说明

下面将仅通过示例的方式并参照附图来描述装置和/或方法的一些示例，其中，

图1a示出了为了训练用于重识别的机器学习模型而生成训练数据的计算机系统的示例的框图；

图1b示出了为了训练用于重识别的机器学习模型而生成训练数据的方法的示例的流程图；

图1c示出了表示不同人的图像序列中的图像的示意图；

图1d示出了具有覆盖重叠视场的两个摄像头的场景的示意图；

图1e示出了具有配备有无线通信设备的两个摄像头的场景的示意图；

图1f示出了基于重识别的访问控制系统的示意图；

图2a示出了用于训练用于重识别的机器学习模型的计算机系统的示例的框图；并且

图2b示出了用于训练用于重识别的机器学习模型的方法的示例的流程图。

具体实施方式

现在参照附图更详细地描述一些示例。然而，其它可能的示例并不限于这些详细描述的实施例的特征。其它示例可以包括这些特征的修改以及这些特征的等同性和替换性特征。此外，本文中用于描述某些示例的术语不应限制其他可能的示例。

贯穿附图的描述，相同或相似的附图标记指代相同或相似的元件和/或特征，这些元件和/或特征可以相同或以经过修改的形式实施，同时提供相同或相似的功能。为了清楚起见，图中的线、层和/或区域的厚度也可以进行放大。

除非在个别情况下另有明确定义，当使用“或”来组合两个元件A和B时，这将被理解为公开了所有可能的组合，即仅A、仅B以及A与B。作为相同组合的可选措辞，可以使用“A和B中的至少一个”或“A和/或B”。这同样适用于两个以上元件的组合。

如果使用单数形式，例如“一个”、“一种”和“该”，并且没有明确或隐含地将仅使用单个元件定义为强制性，则另外的示例也可以使用几个元件来实现相同的功能。如果一个功能在下文被描述为使用多个元件来实现，则另外的示例可以使用单个元件或单个处理实体来实现相同的功能。还应当理解，术语“包括”和/或“包含”在使用时描述特定特征、整体、步骤、操作、过程、元件、部件和/或其组的存在，但不排除一个或多个其它特征、整体、步骤、操作、过程、元件、部件和/或其组的存在或添加。

本公开的各个方面涉及一种用于自动获得用于深度学习的训练图像的方法。更具体而言，所提出的概念提供了一种用于自动获得训练图像的方法，该训练图像用于训练基于深度学习的re-id(重识别)系统。

通常，用于重识别的机器学习模型的训练基于人类注释，即人类操作者选择表示同一人(或动物/物体)的媒体数据(例如，图像)的样本，并按媒体数据所表示的人对样本进行分组。该过程被称为“手动注释”，通常由人类注释者执行。例如，为了准备用于训练这种机器学习模型的视觉媒体数据，该人类注释者可以创建边界框(其包含要表示的人)并识别在样本对中哪些面部是相似的或不相似的。

所提出的概念提供了一种无监督方法，其中将相同人员的先前未知图像识别为相似(通过使用可能不需要视觉re-id码的方法)。当连接到具有活动摄像头的实时系统时，使得可以创建随后可用于训练基于深度学习的re-id代码系统的附加图像，从而为所得到的系统带来更高的准确度。当训练图像(或更一般而言，媒体数据样本)的数量增加时，所得到的系统可以具有更高的准确度。这种系统也可以是自适应的、可能是实时的，并且允许人的视觉外观随时间的推移发生微小变化。

在下文中，给出了示例，其中收集了用于训练用于视觉重识别系统的机器学习模型的训练图像样本。虽然下面的描述通常涉及视觉人员重识别系统，但是相同的方法也可以应用于其它非视觉类型的媒体数据，并且可以应用于动物或物体(例如工具或车辆)。

图1a示出了为了训练用于重识别的机器学习模型而生成训练数据的计算机系统10的示例的框图。计算机系统包括处理电路14，该处理电路14被配置为提供计算机系统的功能。此外，计算机系统可以包括一个或多个接口12(用于交换信息)和/或一个或多个存储设备16(用于存储信息)。如图1a所示，处理电路与(可选的)一个或多个接口12以及一个或多个存储设备16耦合。

处理电路被配置为获得媒体数据(例如，经由一个或多个接口，或自一个或多个存储设备)。媒体数据包括表示人、动物或物体的多个样本。处理电路被配置为处理媒体数据以识别表示同一人、动物或物体的样本元组。处理电路被配置为基于识别出的表示同一人、动物或物体的样本元组来生成训练数据。

图1b示出了为了训练用于重识别的机器学习模型而生成训练数据的相应(计算机实现的)方法的示例的流程图。所述方法包括获得媒体数据110。所述方法包括处理媒体数据以识别表示同一人、动物或物体的样本元组120。所述方法包括基于识别出的表示同一人、动物或物体的样本元组来生成训练数据130。

下面的描述涉及图1a的计算机系统和图1b的相应方法。结合图1a的计算机系统所描述的特征同样可以应用于图1b的相应方法。

本公开的各个方面涉及一种为了训练用于重识别的机器学习模型而生成训练数据的计算机系统、方法以及计算机程序。通常，重识别系统用于从人、动物或物体的表现形式中对人、动物或物体进行区分或重识别的目的。例如，视觉人员重识别系统可用于区分或重识别在例如监控摄像头的视觉媒体数据中可见的人。假设一个系统有两个监控摄像头。从这些摄像头可以获得两个图像，每个图像都可以看到一个人。这些图像可以从不同的角度以及在不同的照明条件下(或者甚至从相同的摄像头但在不同的时间点)获取。即使不知道任何实际身份，重识别系统寻求推断这两个图像是否描绘了同一个人，或者这些图像是否实际上显示了两个不同的人。此外，重识别不限于图像中的人的检测。例如，可以对动物或物体执行重识别，并且也可以使用其它类型的媒体，例如三维模型、文本或音频。

重识别系统通常基于所谓的重识别代码，该重识别代码是相应媒体数据所表示的人(或动物/物体)的数字表现形式。这些代码通常使用基于深度学习的机器学习模型来生成，该机器学习模型被训练为基于相应媒体数据来生成合适的重识别代码。在本文中，术语“合适的”意味着，针对表示同一(或高度相似的)人、动物或物体的两个媒体数据样本，由机器学习模型生成的重识别代码导致根据相似度度量而相似的重识别代码，而针对表示不同以及不相似的人、动物或物体的两个媒体数据样本，产生根据相似度度量而不相似的重识别代码。为了实现该效果，使用训练数据来训练相应机器学习模型，训练数据例如由所提出的计算机系统、方法和计算机程序生成。

通常，机器学习是指计算机系统在不使用显式指令而是依赖于模型和推断的情况下可以用来执行特定任务的算法和统计模型。例如，在机器学习中，可以使用从历史和/或训练数据的分析推断出的数据变换来代替基于规则的数据变换。例如，可以使用机器学习模型或使用机器学习算法来分析图像内容。为了使机器学习模型分析图像内容，可以使用训练图像作为输入以及训练内容信息或使用分类信息作为输出来训练机器学习模型。通过用大量的训练图像和相关联的训练内容信息来训练机器学习模型，机器学习模型“学习”识别图像内容，因此可以使用机器学习模型来识别没有包含在训练图像中的图像内容。相同的原理也可用于其它类型的变换，例如具有上述特性的重识别代码的生成。

使用训练数据训练机器学习模型。上面指定的示例使用了一种称为“监督学习”的训练方法。在监督学习中，使用多个训练样本和多个期望输出值来训练机器学习模型，其中每个样本可以包括多个输入数据值，即每个训练样本与期望输出值相关联。通过指定训练样本和期望输出值，机器学习模型基于与在训练期间提供的样本类似的输入样本来“学习”要提供哪个输出值。

将用于确定媒体之间相似度的一种类型的机器学习算法表示为三元组损失。换言之，机器学习模型可以使用基于三元组损失的训练进行训练。在三元组损失中，将基线输入与正输入以及负输入进行比较。所提出的计算机系统、方法以及计算机程序可用于识别要在基于三元组损失的训练的基线输入、正输入和负输入处提供的样本。例如，所生成的训练数据可以包含多个样本元组，其中每个样本元组包含表示同一人、动物或物体的样本。对于用于训练机器学习模型的每组输入，同一元组中的两个样本可用作基线输入和正输入，来自不同元组的样本可用作基于三元组损失的训练的负输入。

因此，所提出的方法用于识别表示同一人、动物或物体的样本并将其分在一起，因此这些样本可以用作基于三元组损失的训练的基线输入和正输入，而另一元组中的另一样本用作负输入。

在一些示例中，可以确定为基于三元组损失的训练的三元组选择元组中的样本的顺序。例如，可以在训练中应用表示为“难例挖掘”的概念，使得例如通过形成其中基线输入和正输入示出同一人、物体或动物但具有较大距离(例如，根据重识别系统)的三元组，首先选择“最困难”的三元组。

虽然这个概念是参考基于三元组损失的训练来解释的，但是机器学习模型的训练可以可替换地基于其它监督学习、无监督学习或强化学习的算法。例如，Ye等人的“DeepLearning for Person Re-identification:A Survey and Outlook”(2020)提供了基于机器学习的重识别系统的示例以及相应的训练方法。

处理电路被配置为获得媒体数据，其中媒体数据包括表示人、动物或物体的多个样本。虽然大多数示例是在视觉(人员)重识别系统的背景下给出，但是可以将不同类型的媒体数据用于重识别。通常，媒体数据可以是视频、音频或视听媒体数据。例如，媒体数据可以是图像数据、视频数据、音频数据、物体运动的三维表示(即三维身体运动)以及基于文本的媒体数据/输出之一。因此，媒体数据可以相应地源自各种类型的媒体数据生成设备，例如摄像头或摄像头传感器、麦克风、三维扫描仪或文本获取系统。在各种示例中，可以使用一个或多个视频流(例如，一个或多个监控摄像头的)的图像样本。例如，所提出的方法可以检查正在进行的视频流(或先前记录的视频流)，该视频流可以源自单个摄像头或多个摄像头。

处理电路被配置为处理媒体数据以识别表示同一人、动物或物体的样本元组。在各种示例中，在样本被分为元组之前，可以根据相应机器学习模型所期望的输入来执行一个或多个预处理任务。例如，可以执行预处理以分离示出感兴趣的人、动物或物体的媒体数据样本的部分。在视觉媒体数据中，该任务可以通过使用另一机器学习模型生成由相应样本表示的人、动物或物体周围的边界框来完成。一般而言，卷积神经网络(CNN)通常用于生成这种边界框。所产生的边界框可用于裁剪图像样本。在一些情况下，如果生成了两个或更多个边界框，则可以输出图像样本的两个或更多个部分。如果边界框的生成失败，则可以丢弃样本，因其不太可能示出感兴趣的人、动物或物体。例如，处理电路可以被配置为确定多个样本中的样本中存在人、动物或物体(例如，通过尝试在样本为图像样本的样本中生成边界框)，并且如果对人、动物或物体的存在的确定失败，则丢弃样本。该方法可以通过使用传统的深度学习方法对每个图像中的人、动物或物体进行分类(即，确定人、动物或物体的存在和/或位置)。

处理电路可以被配置为识别表示同一人、动物或物体的样本元组并将样本按照元组进行分组。通常，元组是以有序的方式包含零个或多个元素的一组值。然而，在本申请的背景下，样本在元组内的顺序没有意义，因为仅样本对元组的依从性可能与机器学习模型的训练相关。因此，所描述的元组也可以被理解为样本的“集合”或“组”。而且，每个元组可以包含一个或多个样本(除非非零元组移除了一个或多个样本)。

通常，可以使用一种设置，其中辅助信息源(其通常不基于视觉re-id码)用于识别以同一人(或动物/物体)为特征的图像对，并将这些图像对(或更一般而言，媒体数据)分入同一元组。换言之，每个样本可以与表征该样本或由该样本表示的人、动物或物体的辅助信息相关联。如下面更详细概述的，辅助信息可以采取许多形式，并且表征样本(例如，样本的来源、记录样本的时间)或由样本表示的人、动物或物体(例如，与样本同时记录的辅助标识符)。处理电路可以被配置为基于与相应样本相关联的辅助信息来识别表示同一人、动物或物体的样本元组。

在各种示例中，辅助信息源(非re-id)用于识别以同一人为特征的不同图像对。这可以在单个摄像头上执行，例如通过使用例如传统的卡尔曼跟踪器在几个帧上进行人员跟踪(确保在视野中只有一个人)。图1c示出了表示不同人的图像序列中的图像的示意图。图1c示出了图像样本序列140-144，其中图像样本140和141示出了第一人，图像样本143和144示出了第二人，图像样本142根本没有示出人。所提出的概念可用于确定图像样本140和141以及图像样本143和144分别表示同一人，并因此分别将它们分配到同一元组。该确定可以基于图像样本在序列内的位置，使得后续图像样本可以被视为示出了同一人、动物或物体，直到该人、动物或物体不再由序列内的后续图像样本表示。换言之，如果媒体数据包括图像样本序列(例如，视频流)，则辅助信息可以表征相应样本在图像样本序列内的位置(例如，视频流内的帧号)。基于图像序列内的位置(视频流内的帧号)，可以识别示出同一人、动物或物体的其它(例如后续或先前的)图像样本。可以基于相应样本在图像样本序列内的位置来识别表示同一人、动物或物体的样本元组。

当使用两个摄像头的视觉媒体数据时，可以使用另一种类型的辅助信息。如果人、动物或物体在两个或更多个重叠的摄像头上同时可见(但从不同的角度)，则另一种方法是从指向由人占据的空间中的相同位置(并因此具有至少部分重叠的视场)的分离的摄像头获得图像对(并且其中每个图像在相同的时间点获得)。图1d示出了具有覆盖包含同一人150的重叠视场的两个摄像头151、152的场景的示意图。这个人在同时记录的两个图像样本153、154中示出。如果这种关系是已知的，则其可用于确定表示同一人、动物或物体的图像样本对。换言之，如果媒体数据包括两个或更多个摄像头的媒体数据(例如视觉媒体数据、图像数据)，则辅助信息可以表征相应样本关于两个或更多个摄像头的来源以及样本的拍摄时间。在该背景下，术语“来源”是指在两个或更多个摄像头中已经记录了相应样本的摄像头。此外，每个摄像头可以与空间位置以及该空间位置处的视场相关联。如果两个摄像头具有在空间位置处重叠的视场(即示出相同的空间位置)，则由这些摄像头同时记录的样本可以被视为示出了同一人、动物或物体。因此，两个或更多个摄像头的媒体数据可以示出至少部分重叠的视场。所述电路可以被配置为基于样本关于两个或更多个摄像头的来源并且基于样本的拍摄时间来识别表示同一人、动物或物体的样本元组。

在可以(通过一些其它现有方法)通过多个摄像头跟踪人的非重叠多摄像头设置上，来自不同摄像头的图像即使不是在同一时间点获得，也可以例如基于这些图像在这些摄像头的视场之间的估计过渡时间被识别出。

在一些系统中，与相应样本(基本上)同时记录的辅助标识符可用于表征样本。辅助信息源也可以是非视觉线索(即，辅助标识符)，如移动电话的蓝牙或Wi-Fi标识(媒体访问控制(MAC)地址)、身份证或个性化访问令牌(定制密钥、访问卡等)。换言之，辅助信息可以包括关于与媒体数据样本一起记录的(辅助)标识符的信息，(辅助)标识符例如是无线通信标识符、访问令牌标识符、身份证标识符等。例如，无线通信标识符可以是由样本表示的人、动物或物体携带或附着的移动设备的媒体访问控制(MAC)标识符。处理电路可以被配置为基于与相应样本一起记录的(辅助)标识符来识别表示同一人、动物或物体的样本元组。图1e示出了一种这样的场景，其中两个摄像头均与无线通信设备(例如，蓝牙或WiFi接收器)相关联，该无线通信设备用于记录由两个摄像头记录的人、动物或物体的移动设备(例如，智能电话、智能手表、智能项圈或目标追踪器)的无线通信标识符。图1e示出了具有配备有无线通信设备的两个摄像头的场景的示意图。在图1e中，由第一摄像头162记录携带移动设备161的人160以生成第一图像样本164，同时移动设备161的无线通信标识符由与第一摄像头相关联的第一无线通信设备163记录并与第一图像样本一起记录。随后由第二摄像头165记录同一人160以生成第二图像样本167，由与第二摄像头165相关联的第二无线通信设备166记录无线通信标识符，并且所记录的无线通信标识符与第二图像样本一起记录。使用在两个记录之间可能不改变的无线通信标识符，可以将两个图像样本分配给同一元组。

不同的信息源可以进行组合，即系统不需要依赖于单一的信息源。例如，系统可以使用MAC地址以及时间跟踪。然后，这些可用于训练re-id系统。

作为使用非基于重识别的辅助信息源的替代(或附加)，可以使用另一重识别来识别表示同一人的图像。因此，处理电路可以被配置为使用第一重识别系统来识别样本元组。例如，一个可能只在某些时候工作的较低准确度的re-id系统也可用于(在某些时候)识别视频中的关键帧对，其中较低准确度的re-id系统确定跨越多个样本的人员的身份。从这些图像，然后可以通过例如卡尔曼跟踪器(及时)将人员的身份跟踪至相邻帧，以增加正确识别的图像对的数量。然而，可以生成训练数据，用于训练用于第二(不同的)重识别系统的机器学习模型。

随后，可以应用去除“不良图像”(或一般而言，“不良媒体数据”)的过滤器，“不良图像”即其质量可能不用于训练机器学习模型的图像。换言之，处理电路可以被配置为确定元组中的样本的质量，并且如果样本的质量根据预定义的规则而不足，则从元组中移除该样本。例如，不良图像可以是不提供人的清晰视图的图像。例如，媒体数据可以表示人。可以基于相应样本中人员的面部可见性来确定元组中的样本的质量。例如通过分析眼睛、耳朵、鼻子和/或嘴巴的位置来识别面部的取向，可以使用几种启发式算法来实现这种过滤器。在一些示例中，“不良图像”过滤器还可以应用基于re-id码的粗糙系统，以通过简单地拒绝对应的re-id码彼此相距很远的图像来过滤掉图像对。换言之，处理电路可以被配置为使用重识别系统来生成表示由相应样本表示的人、动物或物体的重识别代码。元组中的样本的质量可以基于针对元组中的样本生成的重识别代码之间的距离。例如，处理电路可以被配置为使用重识别系统来基于元组中的样本生成重识别代码，并且基于元组之间的相互距离来丢弃元组中的一个或多个样本(例如，基于其重识别代码与元组中的其他样本的重识别代码的距离来消除异常值)。

最后，所获得的元组(即，例如如本公开中所述获得的元组，例如，相似人员的图像对)可用于训练re-id系统(的机器学习模型)。

概括地说，系统可以使用现有系统来对图像中的人进行分类和跟踪。除此之外，可以使用能够识别同一人的不同图像的辅助信息源。如上所述，可以通过在空间上或时间上(或通过其它手段)跟踪人员来执行该识别。识别出的图像对可随后用于训练re-id系统。可选地，为了增强训练的准确度，可以使用过滤器来根据一些标准过滤掉不良图像对。

该系统的一个特定实施方案涉及基于重识别的访问系统。这些可用于实现基于面部识别的访问系统，其中允许人的容貌随时间缓慢变化。如果人逐渐改变其外观(例如，通过留长头发或胡子)，并且每天都进行检查，那么系统仍然可以跟踪许多天(因为变化量很小)。因此，所述多个样本可以经过多天从基于重识别的访问控制系统获得。在一段时间(例如一个月)之后，系统将收集到足够的图像，使得例如无论头发短时(原始情况)还是头发长时(最终情况)都能识别该人。为了将图像样本分配给包括相应人员的媒体数据的元组，可以使用由基于重识别的访问控制系统确定的人员标识符。换言之，辅助信息可以包括关于由基于重识别的访问控制系统提供的人员标识符的信息(例如，通过基于与与该人相关联的先前重识别代码的比较所做的确定)。新获得的样本被添加到表示相应人员的样本元组。例如，当再次剪发时，重识别将保持准确。

图1f示出了这种基于重识别的访问控制系统100的示意图，该访问控制系统100包括计算机系统10和用于向计算机系统提供媒体数据(例如，图像数据)的摄像头18。计算机系统的处理电路可以被配置为基于所生成的训练数据(例如通过使用新获得的样本继续机器学习模型的训练)，来调整用于在基于重识别的访问控制系统中进行重识别的机器学习模型。

如上所述，例如使用上述基于三元组损失的训练，生成用于训练用于重识别的机器学习模型的训练数据。在各种示例中，该任务可以由例如是包括计算加速器的计算机系统的另一计算机系统执行，计算加速器例如是通用图形处理单元(GPGPU)、用于加速机器学习模型的训练的专用集成电路(ASIC)或用于加速机器学习模型的训练的现场可编程门阵列(FPGA)。或者，可以由生成训练数据的同一计算机系统执行训练。换言之，处理电路可以被配置为训练使用所生成的训练数据的机器学习模型。可以基于在机器学习模型的输入处提供的媒体数据对机器学习模型进行训练来生成重识别代码。换言之，经训练的机器学习模型可以被训练成在其输入处接受媒体数据，并且在其输出处提供表示由媒体数据表示的人、动物或物体的重识别代码。

例如，通过针对多个元组的多个样本对(每对包括单个元组的样本)提供一个样本对的第一样本作为基线输入以及该对的第二样本作为正输入，并且提供取自另一元组的第三样本作为负输入，可以使用基于三元组损失的训练来训练机器学习模型。可以针对多个样本对重复该过程来训练机器学习模型。然后可以通过输入媒体数据样本并比较所得到的重识别代码来验证机器学习模型，例如以确保表示同一人、动物或物体的样本的重识别代码具有高度相似性(根据相似度度量)，并且表示不同的人、动物或物体的样本的重识别代码具有较低的相似度(根据相似度度量)。

如已经指出的，上述方法是针对生成用于训练用于重识别的机器学习模型的训练数据的用例进行了讨论。附加地或替代地，所提出的方法可用于获得用于除re-id之外的其它系统的训练图像。例如目标分类(例如，从不同角度自动收集狗的图像)。如果对一个图像进行分类，则可以将分类传递到视频流中的相邻图像(通过视觉跟踪)。

机器学习算法通常基于机器学习模型。换句话说，术语“机器学习算法”可以指可用于创建、训练或使用机器学习模型的指令集。术语“机器学习模型”可以指表示例如基于由机器学习算法执行的训练所学习的知识的数据结构和/或规则集。在实施例中，机器学习算法的使用可以意味着下层机器学习模型(或多个下层机器学习模型)的使用。机器学习模型的使用可以意味着由机器学习算法训练机器学习模型和/或作为机器学习模型的数据结构/规则集。

例如，机器学习模型可以是人工神经网络(ANN)。ANN是受到例如可以在大脑中找到的生物神经网络启发的系统。ANN包括多个互连的节点以及节点之间的多个连接(所谓的边)。通常有三种类型的节点，接收输入值的输入节点，(仅)连接到其他节点的隐藏节点，以及提供输出值的输出节点。每个节点可以代表一个人工神经元。每个边可以将信息从一个节点传输到另一个节点。节点的输出可被定义为其输入之和的(非线性)函数。节点的输入可基于提供输入的边或节点的“权重”用于该函数中。可以在学习过程中调整节点和/或边的权重。换言之，人工神经网络的训练可以包括调整人工神经网络的节点和/或边的权重，即针对给定输入实现期望输出。在至少一些实施例中，机器学习模型可以是深度神经网络，例如包括一个或多个隐藏节点层(即，隐藏层)的神经网络，优选地是有多个隐藏节点层。

或者，机器学习模型可以是支持向量机。支持向量机(即支持向量网络)是具有相关联的学习算法的监督学习模型，其可用于例如在分类或回归分析中分析数据。可以通过向输入提供属于两个类别之一的多个训练输入值来训练支持向量机。支持向量机可以被训练为将新的输入值分配给两个类别之一。或者，机器学习模型可以是贝叶斯网络，其是概率有向无环图模型。贝叶斯网络可以使用有向无环图来表示一组随机变量及其条件依赖性。或者，机器学习模型可以基于遗传算法，该遗传算法是模仿自然选择过程的搜索算法和启发式技术。

一个或多个接口12可以对应于用于在模块内、模块之间或不同实体的模块之间接收和/或传输信息的一个或多个输入和/或输出，该信息可以是根据指定代码的数字(位)值。例如，一个或多个接口12可以包括被配置为接收和/或传输信息的接口电路。

处理电路14可以使用一个或多个处理单元、一个或多个处理设备、任何用于处理的装置(例如处理器)、计算机或可与相应适配的软件一起运行的可编程硬件部件来实施。换言之，处理电路14的所述功能也可以以软件来实施，然后在一个或多个可编程硬件部件上执行该软件。这样的硬件部件可以包括例如中央处理器(CPU)的通用处理器、数字信号处理器(DSP)、微控制器等。在一些示例中，处理电路可以包括通用图形处理单元(GPGPU)、用于加速机器学习模型的训练的专用集成电路(ASIC)或用于加速机器学习模型的训练的现场可编程门阵列(FPGA)中的至少一个。

在各种示例中，一个或多个存储设备16可以包括诸如磁性或光学存储介质的计算机可读存储介质的组中的至少一个元件，例如硬盘驱动器、闪存、软盘、随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)或网络存储器。

结合所提出的概念或上文或下文描述的一个或多个示例(例如，图2a和图2b)简述用于生成训练数据的计算机系统、方法以及计算机程序的更多细节和方面。用于生成训练数据的计算机系统、方法以及计算机程序可以包括对应于所提出的概念的一个或多个方面或上文或下文描述的一个或多个示例的一个或多个附加可选特征。

图2a示出了用于训练用于重识别的机器学习模型的计算机系统20的示例的框图。计算机系统包括处理电路24，该处理电路24被配置为提供计算机系统的功能。此外，计算机系统可以包括一个或多个接口22(用于交换信息)和/或一个或多个存储设备26(用于存储信息)。如图2a所示，处理电路与(可选的)一个或多个接口22以及一个或多个存储设备26耦合。

处理电路被配置为获得用于训练机器学习模型的训练数据。训练数据由如结合图1a至图1f所介绍的用于生成训练数据的计算机系统、方法或计算机程序生成。所述处理电路被配置为使用所获得的训练数据来训练所述机器学习模型。基于在所述机器学习模型的输入处提供的媒体数据对所述机器学习模型进行训练以生成重识别代码。

图2b示出了用于训练用于重识别的机器学习模型的相应(计算机实现的)方法的示例的流程图。该方法包括获得用于训练机器学习模型的训练数据210。该方法包括使用所获得的训练数据来训练机器学习模型220。

下面的描述涉及图2a的计算机系统和图2b的相应方法。结合图2a的计算机系统所描述的特征同样可以应用于图2b的相应方法。

本公开的各种示例涉及用于重识别的机器学习模型的训练。一般而言，已经结合图1a和/图或1b介绍了机器学习模型的训练，其中由用于生成训练数据的同一计算机系统执行机器学习模型的训练。特别而言，该训练可以是如上所述的基于三元组损失的训练。

然而，在许多情况下，用于训练机器学习模型的计算机系统可以与用于生成训练数据的计算机系统分离。因此，在图2a和/或2b中介绍了可用于基于结合图1a和/或1b介绍的计算机系统、方法以及计算机程序生成的训练数据来训练机器学习模型的计算机系统、方法以及计算机程序。因此，训练数据由上述计算机系统、方法以及计算机程序生成，并且可以例如经由接口22和计算机网络从上述计算机系统、方法以及计算机程序获得，或者从可移动存储器获得。因此，获得训练数据可以包括例如经由计算机网络从图1a的计算机系统接收训练数据，或者从附接到计算机系统的可移动存储器读取训练数据。

一个或多个接口22可以对应于用于在模块内、模块之间或不同实体的模块之间接收和/或传输信息的一个或多个输入和/或输出，该信息可以是根据指定代码的数字(位)值。例如，一个或多个接口22可以包括被配置为接收和/或传输信息的接口电路。

处理电路24可以使用一个或多个处理单元、一个或多个处理设备、任何用于处理的装置(例如处理器)、计算机或可与相应适配的软件一起运行的可编程硬件部件来实施。换言之，处理电路24的所述功能也可以以软件来实施，然后在一个或多个可编程硬件部件上执行该软件。这样的硬件部件可以包括例如中央处理器(CPU)的通用处理器、数字信号处理器(DSP)、微控制器等。在一些示例中，处理电路可以包括通用图形处理单元(GPGPU)、用于加速机器学习模型的训练的专用集成电路(ASIC)或用于加速机器学习模型的训练的现场可编程门阵列(FPGA)中的至少一个。

在各种示例中，一个或多个存储设备26可以包括诸如磁性或光学存储介质的计算机可读存储介质的组中的至少一个元件，例如硬盘驱动器、闪存、软盘、随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)或网络存储器。

结合所提出的概念或上文或下文描述的一个或多个示例(例如，图1a至图1f)简述用于训练机器学习模型的计算机系统、方法以及计算机程序的更多细节和方面。用于训练机器学习模型的计算机系统、方法以及计算机程序可以包括对应于所提出的概念的一个或多个方面或上文或下文描述的一个或多个示例的一个或多个附加可选特征。

一般而言，所提出的概念涉及计算机视觉、机器学习、视频分析、访问控制和/或人流监控。

关于前述示例中的一个特定示例所描述的方面和特征也可以与另一示例的一个或多个方面和特征进行组合，以替换该另一示例的相同或相似的特征，或者将这些特征附加地引入到该另一示例中。

示例还可以是或涉及包括程序代码的(计算机)程序，以当该程序在计算机、处理器或其他可编程硬件部件上执行时执行上述方法中的一个或多个。因此，上述方法中的不同方法的步骤、操作或过程也可以由编程的计算机、处理器或其它可编程硬件部件执行。示例还可以涵盖程序存储设备(例如数字数据存储介质)，该程序存储设备是机器、处理器或计算机可读的，并且对机器可执行、处理器可执行或计算机可执行的程序和指令进行编码和/或包含这些程序和指令。程序存储设备例如可以包括或可以是数字存储设备、例如磁盘和磁带的磁存储介质、硬盘驱动器或光学可读数字数据存储介质。其他示例还可以包括被编程为执行上述方法的步骤的的计算机、处理器、控制单元、(现场)可编程逻辑阵列((F)PLA)、(现场)可编程门阵列((F)PGA)、图形处理器单元(GPU)、专用集成电路(ASIC)、集成电路(IC)或片上系统(SoC)的系统。

还应当理解，除非在个别情况下明确说明或出于技术原因所必需，说明书或权利要求书中公开的几个步骤、过程、操作或功能的公开不应被解释为暗示这些操作必须依赖于所描述的顺序。因此，前面的描述不会将几个步骤或功能的执行限制为某一顺序。此外，在其他示例中，单个步骤、功能、过程或操作可以包括和/或可以是分解成几个子步骤、子功能、子过程或子操作。

如果已经关于设备或系统描述了一些方面，则这些方面也应当被理解为对相应方法的描述。例如，块、设备或者设备或系统的功能方面可以对应于相应方法的特征(例如方法步骤)。因此，关于方法描述的方面也应理解为对相应块、相应元件、相应设备或相应系统的属性或功能特征的描述。

在此将下面的权利要求书并入详细描述中，其中每个权利要求可以独立作为单独的示例。还应当注意，尽管在权利要求书中从属权利要求涉及与一个或多个其它权利要求的特定组合，但是其它示例也可以包括从属权利要求与任何其它从属或独立权利要求的主题的组合。在此明确提出这种组合，除非在个别情况下声明不打算进行特定组合。此外，即使一项权利要求没有被直接定义为从属于任何其它独立权利要求，对于该其它独立权利要求而言，也应当包括该权利要求的特征在内。

Claims

1.一种为了训练用于重识别的机器学习模型而生成训练数据的计算机系统(10)，该计算机系统包括处理电路(14)，该处理电路(14)被配置为：

获得媒体数据，所述媒体数据包括表示人、动物或物体的多个样本；

处理所述媒体数据以识别表示同一人、动物或物体的样本元组；并且

基于识别出的表示同一人、动物或物体的所述样本元组来生成所述训练数据。

2.根据权利要求1所述的计算机系统，其中，每个样本与表征所述样本或表征由所述样本表示的所述人、动物或物体的辅助信息相关联，并且其中，所述处理电路被配置为基于与所述相应样本相关联的所述辅助信息来识别表示同一人、动物或物体的所述样本元组。

3.根据权利要求2所述的计算机系统，其中，如果所述媒体数据包括图像样本序列，则所述辅助信息表征所述相应样本在所述图像样本序列内的位置，其中，基于所述相应样本在所述图像样本序列内的位置来识别表示同一人、动物或物体的所述样本元组。

4.根据权利要求2或3所述的计算机系统，其中，如果所述媒体数据包括两个或更多个摄像头的媒体数据，则所述辅助信息表征所述相应样本关于所述两个或更多个摄像头的来源以及所述样本的拍摄时间，其中，所述处理电路被配置为基于所述样本关于所述两个或更多个摄像头的来源并基于所述样本的拍摄时间来识别表示同一人、动物或物体的所述样本元组。

5.根据权利要求2至4中任一项所述的计算机系统，其中，所述辅助信息包括关于与所述媒体数据的所述样本一起记录的无线通信标识符的信息，其中，所述处理电路被配置为基于与所述相应样本一起记录的所述无线通信标识符识别表示同一人、动物或物体的所述样本元组。

6.根据权利要求1所述的计算机系统，其中，所述处理电路被配置为使用第一重识别系统来识别所述样本元组，其中，生成所述训练数据用于训练用于第二重识别系统的机器学习模型。

7.根据权利要求1至6中任一项所述的计算机系统，其中，所述处理电路被配置为确定所述多个样本中的样本中存在人、动物或物体，并且如果对所述人、动物或物体的存在的确定失败，则丢弃样本。

8.根据权利要求1至7中任一项所述的计算机系统，其中，所述处理电路被配置为确定所述元组中的所述样本的质量，并且如果所述样本的质量根据预定义的规则而不足，则从所述元组中移除所述样本。

9.根据权利要求8所述的计算机系统，其中，所述媒体数据表示人，其中，基于所述人的面部在所述相应样本中的可见性来确定所述元组中的所述样本的质量。

10.根据权利要求8所述的计算机系统，其中，所述处理电路被配置为使用重识别系统来生成表示由所述相应样本表示的所述人、动物或物体的重识别代码，其中，所述元组中的所述样本的质量基于针对所述元组的所述样本生成的所述重识别代码之间的距离。

11.一种基于重识别的访问控制系统(100)，包括根据权利要求1至10中任一项所述的计算机系统，其中，所述多个样本经过多天从所述基于重识别的访问控制系统获得，其中，辅助信息包括关于由所述基于重识别的访问控制系统提供的人的标识符的信息，其中，将新获得的样本添加到表示所述相应人的样本元组中，并且其中，所述计算机系统的所述处理电路被配置为基于所生成的训练数据调整用于在所述基于重识别的访问控制系统中进行重识别的机器学习模型。

12.一种为了训练用于重识别的机器学习模型而生成训练数据的计算机实现方法，所述方法包括：

获得媒体数据(110)，所述媒体数据包括表示人、动物或物体的多个样本；

处理所述媒体数据以识别表示同一人、动物或物体的样本元组(120)；并且

基于识别出的表示同一人、动物或物体的所述样本元组来生成所述训练数据(130)。

13.一种用于训练用于重识别的机器学习模型的计算机系统(20)，所述计算机系统包括处理电路(24)，该处理电路(24)被配置为：

获取用于训练所述机器学习模型的训练数据，其中，所述训练数据由根据权利要求1至10中任一项所述的计算机系统生成；并且

使用所获得的训练数据来训练所述机器学习模型，所述机器学习模型被训练为基于在所述机器学习模型的输入处提供的媒体数据来生成重识别代码。

14.根据权利要求13所述的计算机系统，其中，使用基于三元组损失的训练来训练所述机器学习模型，其中，所述元组中的所述样本被用作所述基于三元组损失的训练的基线输入和正输入。

15.一种用于训练用于重识别的机器学习模型的计算机实现方法，所述方法包括：

获得用于训练所述机器学习模型的训练数据(210)，其中，所述训练数据由根据权利要求12所述的用于生成训练数据的计算机实现方法生成；并且

使用所获得的训练数据来训练所述机器学习模型(220)，所述机器学习模型被训练为基于在所述机器学习模型的输入处提供的媒体数据来生成重识别代码。