CN105164696A

CN105164696A - 用于人物标识的方法和技术设备

Info

Publication number: CN105164696A
Application number: CN201380076160.8A
Authority: CN
Inventors: 汪孔桥; 李江伟; 徐磊; J·于奥帕尼米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Oyj; Nokia Technologies Oy
Priority date: 2013-05-03
Filing date: 2013-05-03
Publication date: 2015-12-16
Also published as: WO2014176790A1; US20160063335A1; EP2992480A4; EP2992480A1

Abstract

一种用于人物标识的方法和技术设备。该方法包括：检测视频帧中的个人分段；从个人分段中提取用于若干特征类别的特征矢量集合；生成所提取的特征矢量集合的个人特征模型；以及向人物标识模型池传输个人特征模型。该解决方案可以提供更广泛的人物标识。

Description

用于人物标识的方法和技术设备

技术领域

本申请一般涉及基于视频的模型创建。特别地，本申请涉及来自基于视频模型的人物标识。

背景技术

社交媒体使得对于人物标识的需要已经增加。社交媒体用户将图像和视频上传至显现在图像和视频中的他们的社交媒体账户和标签。这可以手动地完成，然而自动的人物标识方法也已经被开发。

人物标识可以基于静止图像，其中例如个人的面部被计算以找到用于面部的某些特征。虽然一些已知的人物标识方法依赖于面部识别，然而其中一些面向用于改善面部识别精确度的面部模型更新解决方案。由于这些方法基于面部可检测性，所以应当理解，如果面部不可见，则不能够识别个人。一些已知的人物标识方法使用步态识别与面部识别的融合。有两种用于执行这一操作的解决方案-其中一些将步态识别用于候选者选择并且将面部识别用于最终识别，其中一些融合步态和面部的特征用于组合的模型训练。在这样的解决方案中，等同地趋近步态特征和面部特征是不合理的。

因此，需要一种用于更广泛的人物标识的解决方案。

发明内容

现在，已经发明了一种能够缓解以上问题的改进的方法和实现该方法的技术设备。

根据第一方面，一种方法包括：检测视频帧中的个人分段；从个人分段中提取用于若干特征类别的特征矢量集合；生成所提取的特征矢量集合的个人特征模型；以及向人物标识模型池传输个人特征模型。解决方案可以提供更广泛的人物标识。

根据一种实施例，若干特征类别涉及以下各项的任意组合：面部特征、步态特征、声音特征、手部特征、身体特征。

根据一种实施例，通过从个人分段定位面部并且估计面部的姿态来提取面部特征矢量。

根据一种实施例，从步态描述图提取步态特征矢量，步态特征图通过组合归一化的剪影来生成，剪影从包含个人的整个身体的个人分段的每个帧来分段。

根据一种实施例，通过检测包括个人的特写的个人分段以及检测个人是否正在说话并且如果是则提取声音以确定声音特征矢量，来确定声音特征矢量。

根据一种实施例，个人特征模型用于在人物标识模型池中寻找对应的个人特征模型。

根据一种实施例，如果对应的个人特征模型未找到，则将新的个人特征模型创兼职人物标识模型池。

根据一种实施例，如果对应的个人特征模型被找到，则用所传输的个人特征模型来更新对应的个人特征模型。

根据一种实施例，个人特征模型用于寻找相关联的个人特征模型。

根据一种实施例，相关联的个人特征模型通过确定个人特征模型的位置信息或时间信息或位置信息和时间信息二者并且通过寻找与信息中的至少一个信息匹配的相关联的个人特征模型而被找到。

根据一种实施例，如果模型属于相同的个人，则将个人特征模型与相关联的个人特征模型合并。

根据第二方面，一种装置包括至少一个处理器、包括计算机程序代码的存储器，存储器和计算机程序代码被配置成通过至少一个处理器引起装置至少执行以下操作：检测视频帧中的个人分段；从个人分段中提取用于若干特征类别的特征矢量集合；生成所提取的特征矢量集合的个人特征模型；以及向人物标识模型池传输个人特征模型。

根据第三方面，一种装置，包括：用于检测视频帧中的个人分段的装置；用于从个人分段中提取用于若干特征类别的特征矢量集合的装置；用于生成所提取的特征矢量集合的个人特征模型的装置；以及用于向人物标识模型池传输个人特征模型的装置。

根据第四方面，一种系统包括至少一个处理器、包括计算机程序代码的存储器，存储器和计算机程序代码被配置成通过至少一个处理器引起系统至少执行以下操作：检测视频帧中的个人分段；从个人分段中提取用于若干特征类别的特征矢量集合；生成所提取的特征矢量集合的个人特征模型；以及向人物标识模型池传输个人特征模型。

根据第五方面，一种在非暂态计算机可读介质上实施的计算机程序产品，包括被配置成当在至少一个处理器上执行时引起装置或系统执行以下操作的计算机程序代码：检测视频帧中的个人分段；从个人分段中提取用于若干特征类别的特征矢量集合；生成所提取的特征矢量集合的个人特征模型；以及向人物标识模型池传输个人特征模型。

附图说明

下面，将参考附图详细描述本发明的各种实施例，在附图中：

图1示出根据一种实施例的装置的简化的框图；

图2示出根据一种实施例的装置的布局；

图3示出根据一种实施例的系统配置；

图4示出来自视频帧的个人提取的示例；

图5示出视频帧中的人体检测的示例；

图6示出从视频帧中提取的各种特征矢量的示例；

图7示出根据一种实施例的识别模型创建/更新方法；

图8示出用于识别模型创建的情况的示例；以及

图9示出用于识别模型更新的情况的示例。

具体实施方式

下面，公开多尺度人物标识方法，其组合使用面部识别、步态识别、声音识别、姿势识别等以创建新的模型并且更新人物标识模型池中的现有模型。另外，实施例提出基于其模型特征距离连同位置和时间信息来计算波形的关联以促进模型池中的手动模型校正。要在多尺度人物标识方法中使用的图像帧可以由电子装置来捕获，电子装置的示例在图1和2中图示。

装置或电子设备50可以是例如无线通信系统的移动终端或者用户设备。然而，应当理解，本发明的实施例可以在能够捕获图像数据(或者静止图像或者视频图像)的任何电子设备或装置内实现。装置50可以包括用于容纳和保护设备的外壳30。装置50还可以包括液晶显示器形式的显示器32。在本发明的其他实施例中，显示器可以是合适显示图像或视频的任意合适的显示技术。装置50还可以包括小键盘34。在本发明的其他实施例中，可以采用任意合适的数据或用户界面机制。例如，可以将用户界面实现为作为触敏显示器的部分的虚拟键盘或者数据输入系统。装置可以包括麦克风36或者能够作为数字或模拟信号输入的任意合适的音频输入。装置50还可以包括在本发明的实施例中可以是以下各项中的任一项的音频输出设备：耳机38、扬声器、或者模拟音频或数字音频输出连接。装置50还可以包括电池40(或者在本发明的其他实施例中，设备可以由诸如太阳能电池、燃料电池或时钟发生器等任意合适的移动能量设备来供电)。装置还可以包括能够记录或捕获图像和/或视频或者可以连接到一个相机的相机42。在一些实施例中，装置50还可以包括用于到其他设备的近距离视线通信的红外端口。在其他实施例中，装置50还可以包括诸如例如蓝牙无线连接或USB/火线有线连接等任意合适的近距离通信解决方案。

装置50可以包括用于控制装置50的控制器56或处理器。控制器56可以连接到存储器56，存储器56在本发明的实施例中可以存储图像形式的数据和音频数据二者和/或还可以存储用于在控制器56上实现的指令。控制器56还可以连接到适合用于执行音频和/或视频数据的编码和解码或者帮助由控制器56来执行的编码和解码的编解码器电路54。

装置50还可以包括读卡器48和智能卡46，例如用于提供用户信息并且适合用于提供用于用户在网络处的认证和授权的认证信息的UICC和UICC阅读器。

装置50可以包括连接到控制器并且适合用于生成用于例如与蜂窝通信网络、无线通信系统或无线局域网的通信的无线通信信号的无线电接口电路52。装置50还可以包括连接到无线电接口电路52用于向其他装置传输在无线电接口电路52处生成的射频信号并且用于从其他装置接收射频信号的天线44。

在本发明的一些实施例中，装置50包括能够记录或检测然后被传递给编解码器54或者控制器用于处理的各个帧的相机。在本发明的一些实施例中，装置可以先于传输和/或存储来从另一设备接收用于处理的视频图像数据。在本发明的一些实施例中，装置50可以无线地或者通过有线连接来接收用于处理的图像。

图3示出根据一种示例实施例的包括多个装置、网络和网络元件的系统配置。系统10包括能够通过一个或多个网络通信的多个通信设备。系统10可以包括有线或无线网络的任意组合，包括但不限于无线蜂窝电话网络(诸如GSM、UMTS、CDMA网络等)、诸如由任何IEEE802.x标准定义的无线局域网(WLAN)、蓝牙个人局域网、以太网局域网、令牌环局域网、广域网和因特网。

系统10可以包括适合用于实现本发明的实施例的有线和无线通信设备或装置50二者。例如，图3所示系统示出移动电话网络11和因特网28的表述。到因特网28的连接可以包括但不限于远距离无线连接、近距离无线连接、以及各种有线连接(包括但不限于电话线、线缆线、电力线和类似的通信路径)。

系统10中所示的示例通信设备可以包括但不限于电子设备或装置50、个人数字助理(PDA)和移动电话14的组合、PDA16、集成消息设备(IMD)18、台式计算机20、笔记本计算机22。装置50在由运动的个体携带时可以是静止的或者移动的。装置50还可以处于传输模式，包括但不限于汽车、卡车、出租车、公共汽车、火车、轮船、飞机、自行车、摩托车或者任何类似的合适的传输模式。

一些或另外的装置可以发送和接收呼叫和消息并且通过到基站24的无线连接25来与服务提供商通信。基站24可以连接到实现移动电话网络11与因特网28之间的通信的网络服务器26。系统可以包括附加通信设备和各种类型的通信设备。

通信设备可以使用各种传输技术来通信，包括但不限于码分多址(CDMA)、全球移动通信系统(GSM)、全球移动电信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议因特网协议(TCP-IP)、短消息业务(SMS)、多媒体消息业务(MMS)、电子邮件、即时消息业务(IMS)、蓝牙、IEEE802.11以及任何类似的无线通信技术。实现本发明的各种实施例中所涉及的通信设备可以使用各种介质来通信，包括但不限于无线电、红外线、激光、线缆连接以及任意合适的连接。

本发明的实施例跨视频帧使用面部检测和跟踪技术连同人体检测技术以对视频中的个人的呈现分段。图4图示组合人体检测和面部跟踪以跨视频帧提取个人的呈现的混合个人跟踪技术。包含某个个人的连续的呈现的视频分段被称为个人分段。当两个或多个个人在相同的时间存在于相同的视频帧中时，在相同的视频中，不同的个人分段可以具有交叠。在图4中，附图标记400表示视频中(即帧2014-10050中)的个人呈现。来自这些视频帧的个人提取利用面部跟踪和人体检测技术。可以从个人在其中首次在视频中出现的帧到个人在其中从视频中消失的帧基于混合个人跟踪(其组合人体跟踪和面部跟踪)来确认相同的个人。这一帧分段被称为“个人分段”。

对于每个个人分段，提取若干种类的特征矢量以表示个人的特征，例如面部特征矢量、步态特征矢量、声音特征矢量和手部/身体姿势特征矢量等。

第一种类的特征矢量是面部特征矢量(FFV1,FFV2,FFV3,…)。在个人分段中，面部检测和跟踪用于在每个帧中定位个人的面部。一旦能够定位面部，则估计面部的姿态。基于不同的面部姿态，可以针对面部提取对应的面部特征矢量。

第二种类的特征矢量是步态特征矢量(GFV1,GFV2,GFV3,…)。在个人分段中，全部人体检测和跟踪方法用于寻找分段中的哪些连续的帧包括个人的整个身体。在这之后，从其中检测到个人的整个身体的每个帧对个人的身体的剪影分段。为了构建用于个人的步态姿态矢量，归一化个人的每个剪影并且然后将这归一化的剪影组合在一起以从个人的分段中的连续的帧得到用于个人的特征矢量描述。图5图示来自视频帧510的整个人体检测。基于这一整个人体检测来创建步态描述图520。步态描述图520用于提取对应的步态姿势矢量530以在她/他步行通过视频帧时呈现个人的步态。

第三种类的特征矢量可以是声音特征矢量(VFV1,VFV2,VFV3,…)。在个人分段中，上部人体检测和面部跟踪方法用于寻找分段中的哪些连续的帧包括个人的特写。如果个人在这一时段期间说话，则将提取他的/她的声音以构建语音特征矢量。选择具有特写的帧时间段以便高效地避免错误地将背景噪声认为是个人的声音。

由实施例使用的人物标识方法池可以位于服务器处(例如在云中)。应当理解，小尺度人物标识池也可以位于装置上。在人物标识模型池中，个人用对应的特征矢量集合(即特征模型)PM(i)＝{{FFV(i…nl)}{GFV(i…n2)}{VFV(i…n3)}}(i＝1,2,…n)来表示，其中n1,n2,n3分别是表示个人的面部、步态和声音的大量特征矢量，PM表示个人模型，n指代在识别模型池中注册的个人的数目。在特好矢量集合中，也可以包括其他特征，例如姿势，但是它们在本描述中为了简化而被忽略。

如果能够从视频中提取的个人分段中获得个人的特征矢量集合{{ffv1…t1}{gfv1...t2}{vfv1…t3}}，则然后可以将矢量集合设置到识别模型池中用于在个人在此不具有注册的情况下针对个人在识别模型池中创建新的个人模型PM(n+1)＝{{FFV(i,l…nl)}{GFV(i,l…n2)}{VFV(i,l…n3)}}。池因此将具有n+1个在模型池中注册的个人。

然而，如果个人在模型池中事先具有注册，则使用矢量集合{{ffv1…t1}{gfv1...t2}{vfv1…t3}}来更新识别模型池。池因此仍然具有n个注册的个人，但是池中的对应的注册的个人使用输入的特征矢量集合被更新。图6图示各种特征矢量610，其中ffv代表面部特征矢量，gfv代表步态特征矢量，vfv代表声音特征矢量。从视频600中的个人分段中来提取特征矢量610。向人物标识模型池630中传输620个人的特征矢量。在人物标识模型池630中，如果个人在识别模型池中没有注册，则创建用于个人的新的识别模型集合，或者如果个在识别系统中已经具有注册，则针对个人更新识别模型集合。

如所述，人物标识模型池630包含n个注册的个人。池中的每个个人具有对应的特征矢量集合或者特征模型PM(i)＝{{FFV(i,l…nl)}{GFV(i,l…n2)}{VFV(i,l…n3)}}(i＝1,2,…,n)，其中n1,n2,n3分别是代表个人的面部、步态和声音的大量特征矢量，{FFV(i,l…nl)},{GFV(i,l…n2)})}和{VFV(i,1…n3)}分别对应于{FFV(i,l),FFV(i,2),…FFV(I,n1)},{GFV(i,l),GFV(i,2),…GFV(I,n2)},{VFV(i,l),VFV(i,2),…VFV(I,n3)}。

图7图示使用从用于识别模型池的输入视频中提取的个人特征矢量集合的识别模型创建/更新方法图的实施例。

来自个人分段的个人特征矢量的创建

通过使用包括用于视频的身体检测和面部跟踪混合个人跟踪方法，可以从个人在其中出现的第一帧到她/他在其中从视频中消失的帧检测视频中个人的呈现。如早先所讨论的，在其中能够查看到个人的时段被称为“个人分段”。个人可以根据以下条件之一出现在个人分段的每个帧中：

a)能够检测到整个身体，但是不能在身体区域内检测到面部；

b)能够检测到整个身体并且也能够在身体区域内检测到面部；

c)能够检测到上部人体，但是不能在身体区域内检测到面部；

d)能够检测到上部人体并且也能够在身体区域内检测到面部；

e)仅检测到面部(在这种情况下，帧的大部分包括面部，即其是特写)。

可以针对条件b)、d)和e)条件创建用于个人的面部特征矢量。对于其中能够检测到个人的面部的每个帧，在针对面部执行所需要的预处理步骤(例如眼部定位、面部归一化等)之后，能够从帧针对个人构建面部特征矢量。

例如，可以针对个人构建数目(T1)个面部特征矢量，即{ffv(1),ffv(2),…ffv(T1)}。由于个人可以在相同的个人分段内保持非常相似的姿态，所以进行后处理步骤以从特征矢量集合中去除这些相似的特征矢量。例如，如果│ffv(i)-ffv(j)│<α，其中α是小阈值，则可以去除第i个或第j个特征矢量。因此，通过这一步骤，从用于个人的个人分段获得最终的面部特征矢量集合，即{ffv(1),ffv(2),…ffv(t1)}(t1≤T1)。

为了提取步态特征矢量，查找个人分段中在条件a)和b)下出现的连续的帧。类似地，为了提取声音特征矢量，查找个人分段中的条件c)、d)和e)。例如，如果个人分段包括1000个帧，并且能够从第20帧到第250帧、从第350帧到第500帧以及从第700帧到第1000帧使用全人体检测来检测到个人。则(请再次参见图5)，可以从第20帧到第250帧、从第350帧到第500帧以及从第700帧到第1000帧的部分针对个人构建三个步态特征矢量，即{gfv(1),gfv(2),gfv(3)}。在本示例中，后处理步骤发现gfv(2)非常类似于gvc(3)，由此可以去除矢量之一，gfv(2)或gvc(3)。所得到的(即最终)步态特征矢量集合因此为{gfv(1),gfv(2)}或者{gfv(1),gfv(3)}。

相同的方法可以用于创建用于个人的声音特征矢量集合。

最终，可以针对个人创建特征矢量集合，即{{ffv1…t1}{gfv1...t2}{vfv1…t3}}，其中t1,t2,t3分别是用于从个人的个人分段中提取的面部、步态和声音的大量特征矢量。

用于人物标识模型创建或更新的方法

与其他特征(例如步态和声音)相比较，面部特征可以具有更可靠的用于个人的描述。因此，可以向人物标识中的面部特征矢量强加最高优先级。在识别模型池中，仅可以在存在用于个人的面部特征矢量时创建或更新个人模型。否则，输入的个人特征矢量集合(其中面部特征矢量子集为空)仅能够与识别模型池中已经注册的相关个人相关联。

下面，用于确定个人是否已经在识别模型池中具有注册的两个定义。

定义1：图5图示两个集合A和B，其中A＝(a1,a2,…,an)并且B＝(b1,b2,…,bm)。如果一个元素ai∈A与另一元素bj∈B的距离小于给定阈值，即│ai＝bj│<δ，则集合A类似于集合B。

定义2：图5图示集合A、B、C和D。如果集合A具有小于阈值δ的到集合B和集合C的距离。并且如果集合A和B之间的距离小于集合A和C之间的距离。并且集合A具有大于阈值δ的到集合D的距离。则确定，集合A与集合B一致，并且与集合C相关联，但是与集合D不相关。因此，可以合并集合A和B，因为集合B最接近集合A。集合A和C可以相关联，因为其距离小于阈值。集合A和D不相关，因为它们彼此相距太远。

当从视频中提取个人特征矢量(例如{{ffv1…t1}{gfv1...t2}{vfv1…t3})时，将面部特征矢量子集{ffv1…t1}与人物标识模型池{i＝1,2,…,n│PM(i)＝{{FFV(i,l…nl)}{GFV(i,l…n2)}{VFV(i,l…n3)}}}中注册的所有面部特征矢量子集{FFV(i,l…nl)}(i＝1,2,…,n)相比较，每个PM(i)代表模型池中注册的个人。

根据定义1，如果子集{ffv1…t1}不类似于{FFV(i,l…nl)}(i＝1,2,…,n)的任何子集，则使用输入的个人特征矢量集合{{ffv1…t1}{gfv1...t2}{vfv1…t3}}在识别模型池中做出新的个人注册，并且模型池中因此存在n+1个注册的个人。

否则，根据定义2，对照输入的面部特征矢量集合查看模型池中的所有类似的面部特征子集，并且如果有多于一个来自模型池的类似的面部特征矢量子集，则确认一致的子集和其他相关联的子集。然后，使用输入的个人特征矢量集合在识别模型池中更新对应于一致的面部特征矢量子集的个人的数据。另外，已经使用输入的数据被更新的个人与模型池中对应于相关联的面部特征矢量子集的个人相关联。

对于识别模型池中的已更新个人的数据，可以做出精细调节步骤以避免输入的特征矢量在个人已经在模型中具有非常类似的特征矢量的情况下更新模型池中的个人的数据。例如，当输入的个人特征矢量集合{{ffv1…t1}{gfv1...t2}{vfv1…t3}}用于更新识别模型池中的第k个人时，PM(k)＝{{FFV(k,l…nl)}{GFV(k,l…n2)}{VFV(k,l…n3)}}实际上分别使用对应的三个输入的子集来更新个人的三个子集，例如，{ffv1…t1}用于更新{FFV(k,l…nl)，如果{gfv1...t2}和/或{vfv1…t3}为空，则不更新{GFV(k,l…n2)}和/或{VFV(k,l…n3)}。并且对于{ffv1…t1}中的每个特征矢量，如果{FFK(k,l…nl)中存在至少一个具有小于给定阈值β的到特征矢量的距离的特征矢量，则特征矢量将不参与更新。相同的方法可以应用于个人的步态和声音更新。

如果输入的面部特征矢量集合为空，即同时输入的特征矢量集合中存在仅步态特征矢量和/或声音特征矢量，则根据实施例的过程可以如下：首先，将输入的个人特征矢量集合直接保存在识别模型池中，并且基于其标记的位置和时间信息等来检测个人是否能够与模型池中已经注册的某个其他个人相关联。

例如，假定输入的特征矢量集合为{{gfv1...t2}}({ffvl...tl}和{vfv1…t3}二者都为空)。遍历识别模型池中的注册的所有个人，并且挑选其特征矢量与输入的特征矢量集合具有相同的位置信息(例如从在北京的大宗交易区域处捕获的对应的视频中提取特征矢量)的那些个人。应当注意，用于模型池中的注册的个人的特征矢量可以具有不同的位置和时间标记，但是来自输入的特征矢量集合的所有的特征矢量具有相同的位置和时间标记，因为它们从相同的输入视频中被提取。另外，检查输入的步态特征矢量集合和来自模型池的所选择的个人的步态特征矢量集合的相似性，并且仅与输入的个人特征矢量集合具有形似的姿态特征矢量集合的这样的新的个人与已经在模型池中注册的个人相关联。

对识别模型池中的个人注册结果的手动校正

基于自动个人模型创建和更新解决方案，保存的特征矢量集合或者个人模型可以具有一个或若干相关联的个人模型。这提供手动校正模型池中的个人注册的极大暗示。例如，在检查注册的个人时，系统提供所有相关联的个人用于推荐。如果相关联的个人和被检查的个人是相同的个人，则可以很容易地将相关联的个人的模型合并到个人的模型中。

各种实施例可以提供优点。例如，解决方案构建用于通过输入从视频数据中提取的个人特征矢量来创建和更新识别模型池的自学习机制。学习过程模仿人类视觉系统。识别模型池可以很容易应用于静止图像上的人物标识。在这种情况下，仅使用池中的面部特征矢量集合。

本发明的各种实施例可以在计算机程序代码的帮助下来实现，计算机程序代码驻留在存储器中并且引起相关的装置执行本发明。例如，设备可以包括用于处理、接收和传输数据的电路和电子装置、存储器中的计算机程序代码、以及在运行计算机程序代码时引起设备执行实施例的特征的处理器。另外，如服务器等网络设备可以包括用于处理、接收和传输数据的电路和电子装置、存储器中的计算机程序代码、以及在运行计算机程序代码时引起设备执行实施例的特征的处理器。

很明显，本发明不仅仅限于以上呈现的实施例，而是可以在所附权利要求的范围内对其进行修改。

Claims

1.一种方法，包括：

检测视频帧中的个人分段；

从所述个人分段中提取用于若干特征类别的特征矢量集合；

生成所提取的特征矢量集合的个人特征模型；

向人物标识模型池传输所述个人特征模型。

2.根据权利要求1所述的方法，其中若干特征类别涉及以下各项的任意组合：面部特征、步态特征、声音特征、手部特征、身体特征。

3.根据权利要求2所述的方法，包括：

通过从所述个人分段定位面部并且估计面部的姿态来提取面部特征矢量。

4.根据权利要求2所述的方法，包括：

从步态描述图提取步态特征矢量，所述步态描述图通过组合归一化的剪影来生成，所述剪影从包含个人的整个身体的所述个人分段的每个帧分段得到。

5.根据权利要求2所述的方法，包括：

通过检测包括个人的特写的个人分段以及检测所述个人是否正在说话并且如果是则提取声音以确定声音特征矢量，来确定所述声音特征矢量。

6.根据权利要求1到5中任一项所述的方法，其中所述个人特征模型被用于在所述人物标识模型池中寻找对应的个人特征模型。

7.根据权利要求6所述的方法，其中如果对应的个人特征模型未被找到，则所述方法包括：

将新的个人特征模型创建至所述人物标识模型池。

8.根据权利要求6所述的方法，其中如果对应的个人特征模型被找到，则所述方法包括：

通过所传输的个人特征模型来更新所述对应的个人特征模型。

9.根据权利要求1到5中任一项所述的方法，其中所述个人特征模型被用于寻找相关联的个人特征模型。

10.根据权利要求9所述的方法，其中所述相关联的个人特征模型通过确定所述个人特征模型的位置信息或时间信息或位置信息和时间信息二者并且通过寻找与所述信息中的至少一个信息匹配的相关联的个人特征模型而被找到。

11.根据权利要求10所述的方法，还包括：

如果所述模型属于相同的个人，则将所述个人特征模型与所述相关联的个人特征模型合并。

12.一种装置，包括至少一个处理器、包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置成，利用所述至少一个处理器，引起所述装置至少执行以下操作：

检测视频帧中的个人分段；

从所述个人分段中提取用于若干特征类别的特征矢量集合；

生成所提取的特征矢量集合的个人特征模型；以及

向人物标识模型池传输所述个人特征模型。

13.根据权利要求12所述的装置，其中若干特征类别涉及以下各项的任意组合：面部特征、步态特征、声音特征、手部特征、身体特征。

14.根据权利要求13所述的装置，其中所述存储器和所述计算机程序被配置成，利用所述至少一个处理器，还被配置成引起所述装置通过从所述个人分段定位面部并且估计面部的姿态来提取面部特征矢量。

15.根据权利要求13所述的装置，其中所述存储器和所述计算机程序代码被配置成，利用所述至少一个处理器，还被配置成引起所述装置从步态描述图提取步态特征矢量，所述步态描述图通过组合归一化的剪影来生成，所述剪影从包含个人的整个身体的所述个人分段的每个帧分段得到。

16.根据权利要求13所述的装置，其中所述存储器和所述计算机程序代码被配置成，利用所述至少一个处理器，还被配置成引起所述装置：

17.根据权利要求12到16中任一项所述的装置，其中所述个人特征模型被用于在所述人物标识模型池中寻找对应的个人特征模型。

18.根据权利要求17所述的装置，其中如果对应的个人特征模型未被找到，则所述存储器和所述计算机程序代码被配置成，利用所述至少一个处理器，还被配置成引起所述装置：

将新的个人特征模型创建至所述人物标识模型池。

19.根据权利要求17所述的装置，如果对应的个人特征模型被找到，则所述存储器和所述计算机程序代码被配置成，利用所述至少一个处理器，还被配置成引起所述装置：

20.根据权利要求12到16中任一项所述的装置，其中所述个人特征模型被用于寻找相关联的个人特征模型。

21.根据权利要求20所述的装置，其中所述相关联的个人特征模型通过确定所述个人特征模型的位置信息或时间信息或位置信息和时间信息二者并且通过寻找与所述信息中的至少一个信息匹配的相关联的个人特征模型而被找到。

22.根据权利要求21所述的装置，其中所述存储器和所述计算机程序代码被配置成，利用所述至少一个处理器，还被配置成引起所述装置：如果所述模型属于相同的个人，则将所述个人特征模型与所述相关联的个人特征模型合并。

23.一种装置，包括：

用于检测视频帧中的个人分段的装置；

用于从所述个人分段中提取用于若干特征类别的特征矢量集合的装置；

用于生成所提取的特征矢量集合的个人特征模型的装置；以及

用于向人物标识模型池传输所述个人特征模型的装置。

24.一种系统，包括至少一个处理器、包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置成，利用所述至少一个处理器，引起所述系统至少执行以下操作：

检测视频帧中的个人分段；

从所述个人分段中提取用于若干特征类别的特征矢量集合；

生成所提取的特征矢量集合的个人特征模型；以及

向人物标识模型池传输所述个人特征模型。

25.一种在非瞬态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，所述计算机程序代码被配置成当在至少一个处理器上被执行时引起装置或系统：

检测视频帧中的个人分段；

从所述个人分段中提取用于若干特征类别的特征矢量集合；

生成所提取的特征矢量集合的个人特征模型；以及

向人物标识模型池传输所述个人特征模型。