CN102339391A

CN102339391A - 多对象识别方法和装置

Info

Publication number: CN102339391A
Application number: CN2010102371510A
Authority: CN
Inventors: 王鑫
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2010-07-27
Filing date: 2010-07-27
Publication date: 2012-02-01
Anticipated expiration: 2030-07-27
Also published as: CN102339391B

Abstract

提供了识别图像中的多个待识别对象的方法和装置，该方法可以包括：获得每个待识别对象的识别信息，一个对象的识别信息表示该对象与预定数目个已注册对象中的每个的匹配度；基于该预定数目个已注册对象之间的相互关系而修正所获得的每个待识别对象的识别信息；以及基于该修正的识别信息来将每个待识别对象识别为该预定数目个已注册对象中的一个。本发明通过结合识别信息和对象之间的相互关系，可以提高识别的准确性。

Description

多对象识别方法和装置

技术领域

本发明总体地涉及对象识别，更具体地涉及多对象识别方法和装置。

背景技术

多对象识别是指对多个对象进行识别，例如多人识别。在现实生活中，很多情况下涉及到多人识别，例如银行和访问控制，视频会议，安全系统，罪犯识别等等。多人识别经常使用的是人脸识别技术，在本文全文中，为便于理解和描述，也常常以人脸识别为例来进行描述。不过需要说明的是，对象识别可以应用其它识别技术例如虹膜识别、指纹识别、血管识别等。

已经提出了一些人脸识别和/或多人识别技术。

一般使用人脸识别的过程是这样的：输入一帧图像，检测出其中的各个人脸区域，将所检测出的一人脸区域与数据库中预先存储的已知身份的人脸图像进行对照，并按照相似度加以排序，将与检测出的人脸区域相似度最高的已知身份的人脸图像对应的身份(如人名，ID等)赋予该检测出的人脸区域，由此识别出该检测出的人脸区域的身份。

专利文献US2009/7558408B1提出了一种在数字图像中用人脸识别模块进行人脸区域识别的方法：一个归一化模块生成一个人脸区域的归一化版本。一个人脸识别的模块从归一化的人脸区域中提取人脸的特征值，被称为脸纹。一个工作流模块将脸纹和数据库中预先保存的已知身份的人的脸纹进行比较。该工作流模块判断脸纹是否与数据库中已知身份匹配，决定是此脸纹是一个新的身份还是数据库中已知的身份。一个数据库模块与工作流模块关联，保存了一个或多于一个的数字化数据。一组用户界面模块获取用户的脸纹作为输入。

专利文献WO2005/096213A1提出一种自动人脸识别系统，包含一个检测器连续从视频中获得图像，一个感兴趣人脸(FOI)跟踪器来跟踪随机运动的多人脸并过滤和选择人脸，以及一个处理器来识别检出的人脸是否是已知，同时对已经识别的脸动态地更新在数据库中的已有数据，合并冗余的人脸数据和去除非感兴趣人脸。

专利文献WO2009/116049A2提出一个映射人与人间关系的系统和方法。该方法包括：处理多个图片和上下文信息，使用多维信息和已知人身份信息来识别未知人身份信息。上下文信息可包含利用至少一张图片的某个人建立的先验的关系信息。多维信息指多张图片和相关的上下文信息。

在人脸识别中，有时出现三种错误，下面参考图1A到1D予以说明。假设一帧图像中存在两张人脸，在识别正确的情况下，应分别将其识别为A和B，如图1A所示。第一种错误是出现识别不出的情况，如图1B所示，对象B未识别出来，被视为数据库中不存在与之对应的已注册对象。第二种错误是出现张冠李戴的情况，如图1C所示，对象B被错误地识别为对象C。第三种错误是不仅出现了第二种错误的张冠李戴的情况，而且还出现了重名的情况，即不仅将对象A错误识别为B，而且出现了将两个待识别对象均识别为对象B的情况，如图1D所示。

因此，存在对于能够解决或减少前述错误的方法和装置的需要。

发明内容

鉴于现有技术中的上述问题，提出了本发明。

根据本发明的一个方面，提供了一种识别图像中的多个待识别对象的方法，可以包括：获得每个待识别对象的识别信息，一个对象的识别信息表示该对象与预定数目个已注册对象中的每个的匹配度；基于该预定数目个已注册对象之间的相互关系而修正所获得的每个待识别对象的识别信息；以及基于该修正的识别信息来将每个待识别对象识别为该预定数目个已注册对象中的一个。

根据本发明的另一方面，提供了一种识别图像中的多个待识别对象的装置，可以包括：识别信息获得部件，用于获得每个待识别对象的识别信息，一个对象的识别信息表示该对象与预定数目个已注册对象中的每个的匹配度；识别信息修正部件，用于基于该预定数目个已注册对象之间的相互关系而修正所获得的每个待识别对象的识别信息；以及最终识别部件，用于基于该修正的识别信息来将每个待识别对象识别为该预定数目个已注册对象中的一个。

本发明的方法和装置通过结合识别信息和对象之间的相互关系，可以提高识别的准确性。

附图说明

图1A是识别的结果全部正确的帧的示意性示例；

图1B是识别结果中存在某个人的名字显示为“未知”的问题的帧的示意性示例；

图1C是识别结果中存在某个人的名字显示错误的问题的帧的示意性示例；

图1D是识别结果中存在重名的问题的帧的示意性示例；

图2是根据本发明第一实施例的多对象识别方法的示例性流程图；

图3是根据本发明一个实施例的代表对象间关系的一个示例的组织结构图的示意性示例；

图4是根据本发明第二实施例的多对象识别方法的示例性流程图；

图5是根据本发明第三实施例的多对象识别方法的示例性流程图；

图6是根据本发明一个实施例的检查和去除重名操作的示例性流程图；

图7是根据本发明一个实施例的多对象识别装置的示意性框图；

图8是根据本发明另一个实施例的多对象识别装置的示意性框图；以及

图9是根据本发明一个实施例的可以实践本发明的示例性计算机系统。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

下面为便于理解和描述方便，常常以人脸识别为例来说明。但是，需要强调的是，本发明并不局限于人脸识别，实际上以虹膜、指纹、血管等来进行人的身份识别或者其它生物的识别也是可以的。

图2是根据本发明第一实施例的多对象识别方法100的示例性流程图。

如图2所示，根据本发明一个实施例的图像的多对象识别方法100可以包括：识别信息获得步骤S110、基于对象间相互关系修正识别信息的步骤S120、最终识别步骤S130。下面对各步骤进行具体说明。

在步骤S110，获得每个待识别对象的识别信息，其中一个对象的识别信息表示该对象与预定数目个已注册对象中的每个的匹配度。

这里的识别信息既可以是由本发明的多对象识别方法100自身生成的，也可以由外部获得。

在由外部获得的情况下，可以是通过网络从另一执行对象识别的计算装置获得，或者是由用户输入，当然也可以是把预先识别好的识别信息存储在例如闪存的可移除存储介质中，然后从该可移除存储介质读取识别信息，获得的方法或手段不构成对本发明的限制。

在由本发明的多对象识别方法自身生成的情况下，本发明的多对象识别方法还可以包括对图像进行对象区域检测、配备具有已注册对象模板的数据库、利用自己设计的对象识别工具或者已有的对象身份识别工具来对检测出的对象区域和数据库中的对象模板加以比对、然后输出例如相似度列表来作为这里的识别信息。

关于对象识别工具，以人脸识别为例，存在许多公知的识别工具，例如：Neuro Technology公司的VeriLook、Cognitec公司的FaceVACS、Identix公司的FaceIt、Toshiba公司的人脸识别工具等等。任何对象识别工具均可以用于本发明，其不构成对本发明的限制。

这里的匹配度是广义的概念，其可以指所比较的两个对象之间的相似度、两者之间的相关度、在以向量表征对象情况下的两对象之间的距离、在以涉及贝叶斯统计方法的情况下一对象被识别为已注册对象的概率等等。而且，其形式可以是原计算的形式，也可以是例如经规一化到[0，1]区间的形式。这些均不构成对本发明范围的限制。

假设有N个已注册的模板，一个图像中有M个待识别对象，并用数字i表示在所有的标记的人的区域中，当前正进行识别的人的编号。则该M个待识别对象的识别信息可以表示为列表IS的形式，IS＝[IS₁，IS₂，...IS_i....IS_M]，每个识别信息IS_i可以表示成数值向量的形式IS_i＝[m_i1，m_i2，...m_ij...，m_iN]，其中每个数值m_ij表示该标记的人i与对应已注册模板j的匹配度。

在步骤S120，基于该预定数目个已注册对象之间的相互关系而修正所获得的每个待识别对象的识别信息。

在很多情况下，已注册对象之间可能存在某种相互关系，例如在一个公司中的某种组织上的关系；在一个家族中的某种亲属上的关系；在一个学校中的某种师生上的关系等等。这种两者间的相互关系与两者共同出现在一个情境下的对应概率具有某种程度上的相关性：例如，在一个视频会议中，公司中隶属一个部分的骨干人员同时列席的可能性较高；在一次旅游中，一个家庭中的丈夫和妻子共同出现于一个画面中的可能性较高。在进行多个对象的识别时，可以考虑这些相互关系而修正对象的识别信息。

具体地，可以基于该预定数目个已注册对象之间的相互关系而确定任两个已注册对象共同出现在一个图像中的概率；以及基于所确定的任两个已注册对象的共现概率和各个待识别对象的识别信息来修正所获得的每个待识别对象的识别信息。

N个已注册对象的共现概率矩阵可以表示为如下N×N的矩阵P：

其中P_ij可以有两种定义方法，第一种定义方法是把P_ij定义为如果人i出现在某图像中，人j同时出现在该图像中的概率或者为简单起见，第二种定义方法是把P_ij定义为人i和人j共同出现在一帧图像中的概率。

关于共现概率P_ij，可以通过样本统计的方法来获得。例如，在预先准备的样本集中，有l个图像，其中有k个具有人i的图像，而在此k个图像中，有t个同时有人j的图像，则如采用第一种定义，P_ij可以表示为P_ij＝t/k；而如采用第二种定义，P_i可以表示为P_ij＝P_ji＝t/l。

作为替代，共现概率也可以基于对象之间例如人之间的相互关系而设定求得。例如，假设已注册人员属于一个公司，符合某种组织关系，可以定义任意两个已注册人员在组织结构图中的距离，然后基于距离来例如按下述公式(2)来计算概率：

p_{ij} = \{\begin{matrix} \frac{1}{2^{dis ({human}_{i}, {human}_{j})}}, i &NotEqual; j \\ 0, i = j \end{matrix} - - - (2)

其中dis(human_i，human_j)表示人i和人j在组织结构图中的距离。

图3给出了根据本发明一个实施例的代表对象间关系的一个示例的组织结构图的示意性示例。

其中A，B等代表的是人。A和B间的距离设定是1，所以p_AB＝1/2；以及A和D间距离设定为1，D、E间距离设定为1，而A和C间的距离为A和D间距离、D和E间距离、E和C之间距离的加和，为3，所以p_AC＝1/8。

对于图3所示的组织结构图，利用公式(2)，按照从人A到人D的顺序可以求得共现矩阵P为：

P = \begin{matrix} 0 & 1 / 2 & 1 / 8 & 1 / 2 & 1 / 4 & 1 / 4 \\ 1 / 2 & 0 & 1 / 8 & 1 / 2 & 1 / 4 & 1 / 4 \\ 1 / 8 & 1 / 8 & 0 & 1 / 4 & 1 / 2 & 1 / 4 \\ 1 / 2 & 1 / 2 & 1 / 4 & 0 & 1 / 2 & 1 / 2 \\ 1 / 4 & 1 / 4 & 1 / 2 & 1 / 2 & 0 & 1 / 2 \\ 1 / 4 & 1 / 4 & 1 / 4 & 1 / 2 & 1 / 2 & 0 \end{matrix} - - - (3)

在求得共现概率矩阵后，可以基于如下公式(4)来修正识别信息：

{ES}_{i} = {IS}_{i} + k * \underset{j &NotEqual; i}{Σ} (P * I {S_{j}}^{T}) - - - (4)

IS_i表示第i个待识别对象的识别信息，IS_j ^T表示第j个待识别对象的识别信息的向量的转置，ESi表示第i个待识别对象的修正后的识别信息，P为已注册对象的共现概率矩阵，k表示影响因子，k为大于0的实数。

举例说明识别信息的修正过程如下，设已注册对象数据库中有3个已注册对象A、B、C，其共现矩阵如表1所示，即，对象A、B的共现概率为0.8，对象A、C的共现概率为0.1，对象B、C的共现概率为0.1

	A	B	C
				A	0	0.8	0.1
B	0.8	0	0.1
				C	0.1	0.1	0

表1

设一帧中有两个待识别对象，T1和T2，其分别的识别信息如表2所示，即待识别对象T1和已注册对象A、B、C的匹配度分别为40、10、10，以及待识别对象T2和已注册对象的匹配度分别为10、40、40。

	T1	T2
			A	40	10
B	10	40
			C	10	40

表2

设影响因子k＝0.1，则在将共现概率矩阵、识别信息、影响因子代入公式(4)后，求得的修正后的识别信息将如表3所示。即待识别对象T1和已注册对象A、B、C的修正后的匹配度分别为43.6、11.2、10.5，以及待识别对象T2和已注册对象A、B、C的修正后的匹配度分别为10.9、43.3、40.5。

	T1	T2
			A	43.6	10.9
B	11.2	43.3
			C	10.5	40.5

表3

在此例子中，对比表2和表3，可以发现，在表2中，待识别对象T2的识别将出现重名问题，但是，在通过基于已注册对象间相互关系进行识别信息修正后得到的表3中，T待识别对象T2与已注册对象B的匹配度成为最大值，这主要是因为同时出现在该帧图像中的待识别对象T1与已注册对象A的匹配度较高为40，而已注册对象A和已注册对象B的共现概率较高为0.8，这为待识别对象T2与已注册对象B匹配度的提升值(43.3-40＝3.3)贡献了40*0.8*0.1＝3.2这么多，此外，待识别对象T1与已注册对象C的匹配度为10，而已注册对象C与已注册对象B的共现概率为0.1，这为待识别对象T2与已注册对象B匹配度的提升值贡献了而剩下的0.1即10*0.1*0.1＝0.1。由此，修正后的表3不存在重名问题。

需要说明的是，上述基于已注册对象的组织关系来计算共现概率矩阵的公式(2)仅仅为示例，任何与组织关系相应的共现概率计算方法都可以用于本法吗。

另外，上述基于共现概率矩阵修正识别信息的公式(4)仅仅为示例，可以根据需要设计其它修正公式，例如，不是如公式(4)的线性加权形式，而是对数形式、平方形式等。

此外，也可以不是采用确切的公式形式来修正识别信息，而采用基于规则的迭代算法，例如，设定一个匹配度的阈值Th，使用该阈值检查所有待识别对象的识别信息：

步骤一：如果所有识别对象的识别信息中的最大匹配值大于Th，则可根据该最大匹配值确定对象身份，并仅使用此已确定身份的对象的该最大匹配值结合此对象与其他对象的共现概率修正其他待识别对象的识别信息，按照预定步长来调整k值直到有其他待识别对象的修正后的识别信息能找到大于Th的最大匹配值。迭代进行操作直到所有对象的身份都确定；

步骤二：如果不存在大于Th的最大匹配值，则按照预定步长调整k值使用公式(4)直到找到一个大于Th的最大匹配值，然后执行步骤一。

在通过步骤S120获得修正后的识别信息后，前进到步骤S130。

在步骤S130中，基于该修正的识别信息来将每个待识别对象识别为该预定数目个已注册对象中的一个。例如，将一个待识别对象识别为与其匹配度最高的已注册对象相关的标识符。

通过上述第一实施例的识别多个待识别对象的方法，通过基于已注册对象之间的相互关系可以提升正确的匹配度，从而可以更准确地识别出最高匹配度对应的已注册对象的标识符。

图4是根据本发明第二实施例的多对象识别方法200的示例性流程图。

根据本发明第一实施例的多对象识别方法100借用已注册对象之间的相互关系来修正识别信息，这相当于借助了横向的空间信息。在存在连续识别的情况下，例如视频中的多帧图像的连续识别的情况，可以借用历史识别信息来修正当前帧的识别信息，这相当于借助时间相关的信息。

图4中所示的操作S210、S230、S240与图2所示的步骤S110、S120、S130的操作基本相同，只不过步骤S230的基于已注册对象之间的相互关系来修正识别信息是对经过步骤S220处理后的识别信息进行修正。这里，省略对操作S210、S230、S240的描述，而重点描述步骤S220。

在步骤S220，使用历史识别信息来修正当前帧的识别信息。该历史识别信息可以为先前帧的识别信息，例如当前帧的前一帧、前两帧等的识别信息。

通过跟踪或者位置信息，可以在不同帧间追踪同一个人。下文中用不同帧间相同的编号i表示同一个人的区域。可以利用当前帧的某个待识别对象的识别信息和先前帧的该相应待识别对象的历史识别信息进行加权求和，将将结果作为当前帧的该待识别对象的识别信息，例如可以利用公式(5)来进行加权求和：

{IS}_{i}^{\mod ified} = \{\begin{matrix} {IS}_{i}; H S_{i} = empty \\ (1 - ω) * {IS}_{i} + ω * {HS}_{i}; {HS}_{i} &NotEqual; empty \end{matrix} - - - (5)

其中IS_i表示待识别对象i的当前帧的识别信息，IS_i ^modified表示待识别对象i的修正后的当前帧的识别信息，HS_i的表示待识别对象i的历史识别信息的4向量，向量的长度与当前帧的识别信息IS_i相同；ω表示修正率∈(0，1)。

修正率ω既可以是一个固定值，比如0.8，也可以自适应地算出，比如依据两者之间的相关度自适应地确定，当前帧的识别信息和先前帧的识别信息之间的相关度可以以互信息(mutual information)或者巴氏距离(BhattacharyyaDistance)等表示。公式6示出了采用巴氏系数的情况：

ω＝Bha(IS_i，HS_i) (6)

其中Bha表示巴氏系数。使用自适应的修正率ω可以使当前帧的识别信息的向量更加稳定和准确。因为通过计算历史识别信息和当前帧的识别信息向量的相关度动态决定修正率，所以如果当前值和历史值相近，那么它将获得的更高的修正率；反之亦然。

不过，上述历史识别信息和当前帧识别信息的加权公式(5)仅仅为示例，可以采用其它的公式形式，例如下述公式(7)：

{IS}_{i}^{\mod ified} = \{\begin{matrix} {IS}_{i}; H S_{i} = empty \\ {IS}_{i} + ω * {HS}_{i}; {HS}_{i} &NotEqual; empty \end{matrix} - - - (7)

上述公式采用的是线性加权，当然也可以采用平方加权，对数加权等形式。

关于历史识别信息，可以直接把先前帧的由步骤S210获得的识别信息作为历史识别信息，也可以以先前帧的由步骤S220或步骤S230的处理后得到的识别信息作为历史识别信息。可以存储紧邻的前一帧的识别信息作为历史识别信息，也可以存储紧邻的先前两帧、三帧等的识别信息作为历史识别信息等，在使用先前两帧的识别信息作为历史识别信息的情况下，公式(5)可以用公式(8)代替：

{IS}_{i}^{\mod ified} = \{\begin{matrix} {IS}_{i}; NumberofH S_{i} < 2 \\ {IS}_{i} + ω_{1} * H {S_{i}}^{1} + ω_{2} * H {S_{i}}^{2}; Numberof {HS}_{i} &GreaterEqual; 2 \end{matrix} - - - (8)

其中HS_i表示待识别对象i的历史识别信息的集合，在紧邻的先前两帧的识别信息组成历史识别信息集合的情况下，HS_i＝{HS_i ¹，HS_i ²}，其中HS_i ¹和HS_i ²分别表示在当前帧i之前第一帧的识别信息和在当前帧之前的第二帧的识别信息，ω₁、ω₂分别表示对应的修正率。

下面以人脸识别为例，举例说明利用历史识别信息更新当前帧的识别信息的计算过程。

假设已注册人脸模板的数据库包含6个已注册人脸，其对应标识符分别为A，B，C，D，E和F。输入视频中包含有两个人，正确身份标识应该为A和B，如图1A所示。下面例子表示出如何使用公式(5)利用历史识别信息对当前帧的识别信息进行修正：

假设第一帧得到的识别结果为：

IS₁＝[40，10，10，10，10，10]，IS₂＝[10，40，50，10，10，10] (9)

其中下标1和2分别对应左右两个人；

因为第一帧没有包含历史信息，所以不利用历史识别信息修正，而是将其存储为历史识别信息

IS₁＝[40，10，10，10，10，10]，IS₂＝[10，40，50，10，10，10]

下一帧识别信息是：

IS₁＝[20，30，10，10，10，20]，IS₂＝[10，40，20，10，10，10] (10)

使用固定的修正率ω＝0.3，则根据公式(5)，修正后的识别信息为：

IS₁ ^modified＝[26，24，10，10，10，17]，IS₂ ^modified＝[10，40，29，10，10，10] (11)

如果单独使用第一帧(9)和第二帧(10)的识别结果而不用历史识别信息，这两帧的显示结果应该如图1C和图1D所示；但是如果使用了经历史识别信息修正的(11)，则第二帧显示的是正确的名字，即显示结果如图1A所示。

通过逐帧使用历史识别信息修正，可以使识别信息变得相对稳定和平滑。同时即使利用某帧的初始识别信息失败，在通过历史识别信息修正后也可能得到正确的识别结果。

在图4中，使用历史识别信息修正当前帧的识别信息的操作在借用相互关系修正识别信息之前执行。不过，这仅仅是示例，当然也可以先借用相互关系第一修正识别信息，然后借用历史识别信息来修正该经第一修正后的识别信息。

图5中所示的操作S310-S330与图2所示的操作S110-S130基本相同，这里省略其描述。图5的第三实施例与图2所示的第一实施例不同在于多了检查并去除重名的步骤。

在某些情况下，识别结果可能出现图1D所示的重名情况。此时需要去除重名。

图6给出了可用于实现图5所示步骤S340的具体操作。

在步骤S341，检查识别结果。

在步骤S342，判断是否不止一个待识别对象被识别为同一个已注册对象，即是否存在重名。

如果在步骤S342判断不存在重名，则过程结束。如果在步骤S342判断存在重名，则前进到步骤S343.

在步骤S343，确定所有待识别对象的所有识别信息中的最大匹配度值。

在步骤S344，确定与该最大匹配度相关联的第一待识别对象和第一已注册对象，将第一待识别对象识别为第一已注册对象，并将第一待识别对象从所有待识别对象集合中去除。

在步骤S345，将除了第一待识别对象外的其它待识别对象与第一已注册对象之间的相似度设置为预定最小匹配度值。

在步骤S346，判断是否所有待识别对象均已被识别出了。如果在步骤S346确定所有待识别对象都被识别出，则过程结束。否则，返回到步骤S343，重复之后的处理。

下面举例说明图6所示重名去除方法的具体操作。假设数据库中注册的模板为A，B，C和D，一帧图像中有三个待识别对象假设为人1、人2、人3。假设修正后的该三个待识别对象的识别信息分别为：

IS₁ ^modified＝[40，20，30，10]，IS₂ ^modified＝[48，12，20，20]，IS₃ ^modified＝[10，25，35，10] (12)

基于上述识别信息，得出识别结果是人1＝A，人2＝A，人3＝C；可见人1和人2重名(基于步骤S341和步骤S342)。

根据等式(12)产生如等式(13)所示的数值矩阵M，其中每一列表示人1、人2、人3与各个已注册对象A、B、C、D的对应匹配度：

M = \begin{matrix} 40 & 48 & 10 \\ 20 & 12 & 25 \\ 30 & 20 & 35 \\ 10 & 20 & 30 \end{matrix} - - - (13)

上述矩阵M中的最大值为第二列第一行的48，所以识别结果更新为人2＝A；同时从矩阵中删除第二列并且将第一行中的其它数值置为预定最小匹配度值，例如-1(基于步骤S343、S344)。

更新后的矩阵M如等式(14)所示：

M = \begin{matrix} - 1 & - 1 \\ 20 & 25 \\ 30 & 35 \\ 10 & 30 \end{matrix} - - - (14)

该更新后的矩阵M中的最大值为第二列第三行的35；该等式(14)中的第二列在原始矩阵即等式(13)中应为第三列，所以识别的结果中更新人3＝C；从等式(14)中删除第二列并且将第三行的30置为-1；更新后的矩阵M如等式(15)所示：

M = \begin{matrix} - 1 \\ 20 \\ - 1 \\ 10 \end{matrix} - - - (15)

同样的方法，更新人1＝B。在把矩阵M中的最后一列也删除之后，矩阵为空，故步骤S346的判断结果为是，重名去除方法结束。

可见，最终识别结果：人1＝B，人2＝A，人3＝C，没有重名。

需要说明的是，上述将预定最小匹配度值设置为-1仅仅是示例，当然也可以采用其它数值。

上面参考图2到图6，说明了本发明实施例的多对象识别方法。需要说明的是，上述各实施例仅是示例，而非穷尽式的，可以根据需要包括其余的操作，或者进行步骤的组合、添加或删除。例如，在图5所示的多对象识别方法中可以包括基于历史识别信息修正当前帧的识别信息的操作；在图4所示的多对象识别方法中，可以去除基于已注册对象之间的相互关系来修正待识别对象的识别信息的操作；以及还可以在方法中，包括视频图像捕获操作、对象区域检测操作、对象初步识别或匹配部件等操作，也可以在最终获得识别结果之后，进行一些视频的后处理操作。本领域技术人员可以基于本发明的公开而按需变更各个实施例的细节。

另外，需要说明的是，在上述描述中，以图像或视频作为处理对象，不过当然也可以对音频等进行处理，以借用例如语音、语调、语速等特征来识别对应的对象如人。本发明并不局限于图像或视频处理，而是可以应用于包括视频、音频等的各种多媒体数字信号。

根据本发明一个实施例，一种识别多媒体数字信号中的多个待识别对象的方法，包括获得每个待识别对象的识别信息，一个对象的识别信息表示该对象与预定数目个已注册对象中的每个的匹配度；基于该预定数目个已注册对象之间的相互关系而修正所获得的每个待识别对象的识别信息；以及基于该修正的识别信息来将每个待识别对象识别为该预定数目个已注册对象中的一个。该多媒体数字信号可以为图像、视频或音频中的一种。

图7是根据本发明一个实施例的多对象识别装置500的示意性框图。

该多对象识别装置500可以包括：识别信息获得部件501，用于获得每个待识别对象的识别信息，一个对象的识别信息表示该对象与预定数目个已注册对象中的每个的匹配度；识别信息修正部件502，用于基于该预定数目个已注册对象之间的相互关系而修正所获得的每个待识别对象的识别信息；以及最终识别部件503，用于基于该修正的识别信息来将每个待识别对象识别为该预定数目个已注册对象中的一个。

该多对象识别装置500可以用于从视频的多帧图像中连续进行对象识别，还可以包括用于使用历史识别信息来修正当前帧的识别信息的部件，该历史识别信息可以为先前帧的识别信息。

该用于使用历史识别信息来修正当前帧的识别信息的部件可以通过跟踪或者位置信息，在不同帧之间追踪同一个人，利用当前帧的某个待识别对象的识别信息和先前帧的该相应待识别对象的历史识别信息进行加权求和作为当前帧的该待识别对象的识别信息。其中，所述当前帧的某个待识别对象的识别信息和先前帧的该相应待识别对象的历史识别信息的权重系数的比值可以依据两者之间的相关度自适应地确定。

该多对象识别装置500还可以包括用于检查和去除重名的部件，用于检查是否不止一个待识别对象被识别为同一个已注册对象；以及如果不止一个待识别对象被识别为同一个已注册对象，则如下更新各个待识别对象的识别结果：确定所有待识别对象的所有识别信息中的最大匹配度值，确定与该最大匹配度相关联的第一待识别对象和第一已注册对象，将第一待识别对象识别为第一已注册对象，并将第一待识别对象从所有待识别对象集合中去除；将除了第一待识别对象外的其它待识别对象与第一已注册对象之间的相似度设置为预定最小匹配度值；重复上述确定最大匹配度值开始的步骤，直到所有待识别对象均已被识别出。

该识别信息修正部件502基于该预定数目个已注册对象之间的相互关系而修正所获得的识别信息可以包括：基于该预定数目个已注册对象之间的相互关系而确定任两个已注册对象共同出现在一个图像中的概率；以及基于所确定的任两个已注册对象的共现概率和各个待识别对象的识别信息来修正所获得的每个待识别对象的识别信息。

其中，基于所确定的任两个已注册对象的共现概率和各个待识别对象的识别信息来修正所获得的每个待识别对象的识别信息可以包括按照下述公式来获得修正后的识别信息：

其中IS_i表示第i个待识别对象的识别信息，ESi表示第i个待识别对象的修正后的识别信息，P为已注册对象的共现概率矩阵，k表示影响因子，k为大于0的实数，共现概率矩阵P的形式为：

其中矩阵P中的第m行第n列出的元素p_mn表示第m个已注册对象和第n个已注册对象共同出现在一帧图像中的概率，其中N为已注册对象的个数。

图8是根据本发明另一个实施例的多对象识别装置600的示意性框图。该多对象识别装置600可以包括：视频图像捕获部件610，用于捕获视频或单帧图像；对象区域检测部件620，用于检测图像中的各个待识别对象所在的对应区域；识别增强部件630，用于基于注册模板数据库650中存储的注册模板识别所检测的对象区域并增强识别结果；视频后处理部件640，用于对其中多个对象已经被识别出的视频或图像进行后处理；以及注册模板数据库650，用于存储预先注册的对象的模板。

图9是根据本发明一个实施例的可以实践本发明的示例性计算机系统700的示意图。

将参考图9给出作为实现上述多对象识别装置的硬件配置的例子的描述。CPU(中央处理单元)701根据被存储在ROM(只读存储器)702或存储部分708中的程序来进行各种处理。例如，CPU执行在上述实施例中描述的多对象识别的程序。RAM(随机存取存储器)703适当地存储由CPU 701执行的程序、数据等等。CPU 301、ROM 702和RAM 703通过总线704相互连接。

CPU 701通过总线704连接于输入/输出接口705。包括键盘、鼠标、麦克风等的输入部分706和包括显示器、扬声器等的输出部分连接于输入/输出接口705。CPU 701根据从输入部分706输入的指令来执行各种处理。CPU 701向输出部分707输出处理的结果。

连接于输入/输出接口705的存储部分708包括例如硬盘，并存储由CPU701执行的程序和各种数据。通信部分709通过诸如因特网、局域网等的网络来与外部装置通信。

连接于输入/输出接口705的驱动器710驱动诸如磁盘、光盘、磁光盘或半导体存储器等的可移动介质711，并获得记录在那里的程序、数据等等。所获得的程序和数据在需要时被传输给存储部分708，并被存储在那里。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照上述顺序执行，而是可能可以调换执行顺序，例如基于历史识别信息修正识别信息的步骤和基于对象之间相互关系修正识别信息的步骤之间没有严格的先后关系。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种识别图像中的多个待识别对象的方法，包括：

获得每个待识别对象的识别信息，一个对象的识别信息表示该对象与预定数目个已注册对象中的每个的匹配度；

基于该预定数目个已注册对象之间的相互关系而修正所获得的每个待识别对象的识别信息；以及

基于该修正的识别信息来将每个待识别对象识别为该预定数目个已注册对象中的一个。

2.如权利要求1所述的方法，其中从视频的多帧图像中连续进行对象识别，该方法还包括：

使用历史识别信息来修正当前帧的识别信息，该历史识别信息为先前帧的识别信息。

3.如权利要求2所述的方法，所述方法还包括：

通过跟踪或者位置信息，在不同帧之间追踪同一个人，利用当前帧的某个待识别对象的识别信息和先前帧的该相应待识别对象的历史识别信息进行加权求和作为当前帧的该待识别对象的识别信息。

4.如权利要求3所述的方法，其中：所述当前帧的某个待识别对象的识别信息和先前帧的该相应待识别对象的历史识别信息的权重系数的比值依据两者之间的相关度自适应地确定。

5.如权利要求1或2所述的方法，还包括：

检查是否不止一个待识别对象被识别为同一个已注册对象；以及

如果不止一个待识别对象被识别为同一个已注册对象，则如下更新各个待识别对象的识别结果：

确定所有待识别对象的所有识别信息中的最大匹配度值，

确定与该最大匹配度相关联的第一待识别对象和第一已注册对象，将第一待识别对象识别为第一已注册对象，并将第一待识别对象从所有待识别对象集合中去除；

将除了第一待识别对象外的其它待识别对象与第一已注册对象之间的相似度设置为预定最小匹配度值；

重复上述确定最大匹配度值开始的步骤，直到所有待识别对象均已被识别出。

6.如权利要求1或2所述的方法，所述基于该预定数目个已注册对象之间的相互关系而修正所获得的识别信息包括：

基于该预定数目个已注册对象之间的相互关系而确定任两个已注册对象共同出现在一个图像中的概率；以及

基于所确定的任两个已注册对象的共现概率和各个待识别对象的识别信息来修正所获得的每个待识别对象的识别信息。

7.如权利要求6所述的方法，基于所确定的任两个已注册对象的共现概率和各个待识别对象的识别信息来修正所获得的每个待识别对象的识别信息包括按照下述公式来获得修正后的识别信息：

{ES}_{i} = {IS}_{i} + k * \underset{j &NotEqual; i}{Σ} (P * ISj)

IS_i表示第i个待识别对象的识别信息，ESi表示第i个待识别对象的修正后的识别信息，P为已注册对象的共现概率矩阵，k表示影响因子，k为大于0的实数，共现概率矩阵P的形式为：

8.一种识别图像中的多个待识别对象的装置，包括：

识别信息获得部件，用于获得每个待识别对象的识别信息，一个对象的识别信息表示该对象与预定数目个已注册对象中的每个的匹配度；

识别信息修正部件，用于基于该预定数目个已注册对象之间的相互关系而修正所获得的每个待识别对象的识别信息；以及

最终识别部件，用于基于该修正的识别信息来将每个待识别对象识别为该预定数目个已注册对象中的一个。

9.一种识别多媒体数字信号中的多个待识别对象的方法，包括

10.根据权利要求9的方法，其中所述多媒体信号表示图像、视频或音频中的一种。