CN101354569B

CN101354569B - 信息处理装置、信息处理方法

Info

Publication number: CN101354569B
Application number: CN2008101347199A
Authority: CN
Inventors: 泽田务
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-07-25
Filing date: 2008-07-23
Publication date: 2011-04-20
Anticipated expiration: 2028-07-23
Also published as: EP2023270A2; JP2009031951A; US8140458B2; CN101354569A; US20090030865A1

Abstract

本发明涉及信息处理装置、信息处理方法。信息处理装置包括：多个信息输入单元，该信息输入单元输入包括实际空间中的图像信息或声音信息在内的信息；事件检测单元，该事件检测单元通过分析从所述信息输入单元输入的所述包括实际空间中的图像信息或声音信息在内的信息来产生包括所述实际空间中存在的用户的估计位置信息和估计识别信息在内的事件信息；和信息集成处理单元，该信息集成处理单元设置与用户的位置和识别信息相关的假设的概率分布数据，并且通过基于所述事件信息更新并选择所述假设的概率分布数据来执行包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息的产生，其中所述信息集成处理单元输入由所述事件检测单元产生的所述事件信息，执行应用了设置有对应于虚拟用户的多个目标的多个粒子的粒子滤波处理，并产生包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息。

Description

信息处理装置、信息处理方法

相关申请的交叉引用

本申请包含了于2007年7月25日在日本专利局申请的日本专利申请号JP2007-193930相关的主题，其全部内容包含在此作为参考。

技术领域

本发明涉及一种信息处理装置、信息处理方法和计算机程序，尤其涉及被输入来自外部的信息(例如诸如图像和声音的信息)并基于输入的信息执行对外部环境的分析，具体来说，执行用于分析说话之人的位置、身份等的分析处理的信息处理装置；用于在所述信息处理装置中执行所述分析处理的信息处理方法；以及用于使所述信息处理装置执行所述分析处理的计算机程序。

背景技术

在人和例如PC或机器人等信息处理装置之间执行例如通信和交互处理等处理的系统被称作人机交互系统。在人机交互系统中，诸如PC或机器人等的信息处理装置被输入图像信息或声音信息，并基于所输入的信息执行分析以便识别人的动作，例如，人的动作和语言。

人在传输信息时不仅利用语言，还利用诸如表情和强调等各种途道作为信息交流途道。如果机器可以分析所有这些途道，那么在人和机器之间的交流就可以达到人与人之间交流的相同水平。分析来自所述多种途道(也称作形态或模态)的输入信息的界面被称作多形态界面，该技术在最近几年已经得以积极的开发与研究。

例如，当通过照相机拍摄的图像信息和通过麦克风获得的声音信息被输入和分析时，为了执行更详细分析，从设置在多个点上的多个照相机和多个麦克风输入大量的信息是有效的。

例如假设以下描述的系统作为具体的系统。可以实现如下的系统：其中信息处理装置(电视)通过照相机和麦克风被输入电视前用户(父母兄妹)的图像和声音，例如分析各个用户的位置和哪一用户在说话，并执行对应于分析信息的处理，例如将照相机拉近到说话用户或对说话用户的准确响应。

过去大多数通用的人机交互系统执行用于决定性地集成来自多个途道(模态)的信息并确定各用户存在的位置、该用户是谁、和谁在发出信号。公开此系统的相关技术的例子包括JP-A-2005-271137和JP-A-2002-264051。

然而，在过去的系统中执行的使用从麦克风和照相机输入的不确定和异步数据来决定性地集成信息的处理方法缺少强健性。通过该方法只能获得很少的精确数据。在实际的系统中，在实际环境中可以获得的传感器信息，例如来自照相机的输入图像和从麦克风输入的声音信息都是包括各种其他信息(例如噪声和不必要的信息)的不确定的数据。当执行图像分析和声音分析时，根据这些传感器信息有效地集成有效信息的处理是非常重要的。

发明内容

因此，希望在对来自多种途道(形态或模态)的输入信息执行分析的系统中，具体来说在执行用于识别系统周围的人的位置等的处理的系统中，提供一种信息处理装置、信息处理方法和计算机程序，用于通过对包括在(例如图像和声音信息的)各种输入信息中的不确定信息执行概率处理来执行用于将所述信息集成为估计准确度更高的信息的处理，提高强健性并执行高精确的分析。

根据本发明的一个实施例，提供了一种信息处理装置，该信息处理装置包括：多个信息输入单元，该信息输入单元输入包括实际空间中的图像信息或声音信息在内的信息；事件检测单元，该事件检测单元通过分析从所述信息输入单元输入的包括实际空间中的图像信息或声音信息在内的信息来产生包括所述实际空间中存在的用户的估计位置信息和估计识别信息在内的事件信息；和信息集成处理单元，该信息集成处理单元设置与用户的位置和识别信息相关的假设的概率分布数据，并且通过基于所述事件信息更新并选择所述假设的概率分布数据来执行包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息的产生，其中所述信息集成处理单元输入由所述事件检测单元产生的所述事件信息，执行应用了设置有对应于虚拟用户的多个目标的多个粒子的粒子滤波处理，并产生包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息。

优选地，所述事件检测单元产生包括包含有高斯分布的用户的估计位置信息、以及指示对应于所述用户的概率值的用户置信度信息在内的事件信息；所述信息集成处理单元保持设置有多个目标的粒子，所述目标具有包括对应于虚拟用户的高斯分布的用户位置信息和指示对应于所述用户的概率值的用户置信度信息，并且所述信息集成处理单元计算作为在为所述各个粒子设置的所述目标和所述事件信息之间的相似性指示值的事件目标相似度，并执行将具有较高的事件目标相似度的目标优先设置为事件发生源假设目标的粒子设置处理。

优选地，所述信息集成处理单元计算所述事件目标相似度和为所述各个粒子设置的粒子权重的总和数据作为目标权重，并执行将具有较大目标权重的目标优先设置为事件发生源假设目标的粒子设置处理。

优选地，所述信息集成处理单元计算在为所述各个粒子设置的事件发生源假设目标和从所述事件检测单元输入的所述事件信息之间的相似度并针对各个粒子将对应于所述相似度的水平的值设置为粒子权重。

优选地，所述信息集成处理单元执行用于优先重新选择具有较大粒子权重的粒子的重新采样处理并为该粒子执行更新处理。

优选地，所述信息集成处理单元在考虑消逝时间的情况下对为所述各个粒子设置的所述目标执行更新处理。

优选地，所述信息集成处理单元针对为所述各个粒子设置的事件发生源假设，执行应用了由所述事件检测单元产生的所述事件信息的更新处理。

优选地，所述信息集成处理单元产生如下的目标信息，在该目标信息中为所述各个粒子设置的目标数据和所述粒子权重的计算总和被设置为对应于所述各个目标的用户位置信息和用户识别信息。

优选地，所述信息集成处理单元根据为所述各个粒子设置的事件发生源假设目标的数量产生作为事件发生源的概率值的信号信息。

优选地，所述信息集成处理单元产生具有由统一数据构成的用户位置信息和用户识别信息的临时目标，并且在所述临时目标和由所述事件检测单元产生的所述事件信息之间的相似度是大于对应于现有目标的事件目标相似度的值时，执行用于将所述临时目标重新添加到所述各个粒子的处理。

优选地，所述信息集成处理单元在作为包括在为所述各个粒子设置的目标数据和所述粒子权重的计算总和中的用户位置信息的高斯分布数据的峰值小于预先设置的阈值时，执行用于删除所述目标的处理。

根据本发明的另一个实施例，提供了一种用于在信息处理装置中执行信息分析处理的信息处理方法，所述信息处理方法包括：信息输入步骤，其中多个信息输入单元输入包括实际空间中的图像信息或声音信息在内的信息；事件检测步骤，其中事件检测单元通过分析在所述信息输入步骤中输入的信息来产生包括所述实际空间中存在的用户的估计位置信息和估计识别信息在内的事件信息；和信息集成处理步骤，其中信息集成处理单元设置与所述用户的位置和识别信息相关的假设的概率分布数据，并且通过基于所述事件信息更新并选择所述假设来执行包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息的产生，其中所述信息集成处理步骤是输入由所述事件检测单元产生的所述事件信息、执行应用了设置有对应于虚拟用户的多个目标的多个粒子的粒子滤波处理、并产生包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息的步骤。

优选地，所述事件检测步骤是产生包括包含有高斯分布的用户的估计位置信息、以及指示对应于所述用户的概率值的用户置信度信息在内的事件信息的步骤；所述信息集成处理单元保持设置有多个目标的粒子，所述目标具有包括对应于虚拟用户的高斯分布的用户位置信息和指示对应于所述用户的概率值的用户置信度信息；并且所述信息集成处理步骤是计算作为在为所述各个粒子设置的所述目标和所述事件信息之间的相似性指示值的事件目标相似度、并执行将具有较高的事件目标相似度的目标优先设置为事件发生源假设目标的粒子设置处理的步骤。

优选地，所述信息集成处理步骤是计算所述事件目标相似度和为所述各个粒子设置的粒子权重的总和数据作为目标权重、并执行将具有较大目标权重的目标优先设置为事件发生源假设目标的粒子设置处理的步骤。

优选地，所述信息集成处理步骤是计算在为所述各个粒子设置的事件发生源假设目标和从所述事件检测单元输入的所述事件信息之间的相似度并针对各个粒子将对应于所述相似度的水平的值设置为粒子权重的步骤。

优选地，所述信息集成处理步骤是执行用于优先重新选择具有较大粒子权重的粒子的重新采样处理并为该粒子执行更新处理的步骤。

优选地，所述信息集成处理步骤是在考虑消逝时间的情况下对为所述各个粒子设置的所述目标执行更新处理的步骤。

优选地，所述信息集成处理步骤是针对为所述各个粒子设置的事件发生源假设，执行应用了由所述事件检测单元产生的所述事件信息的更新处理的步骤。

优选地，所述信息集成处理步骤是产生其中为所述各个粒子设置的目标数据和所述粒子权重的计算总和被设置为对应于所述各个目标的用户位置信息和用户识别信息的目标信息的步骤。

优选地，所述信息集成处理步骤是根据为所述各个粒子设置的事件发生源假设目标的数量产生作为事件发生源的概率值的信号信息的步骤。

优选地，所述信息集成处理步骤包括：产生具有由统一数据构成的用户位置信息和用户识别信息的临时目标、并且在所述临时目标和由所述事件检测单元产生的所述事件信息之间的相似度是大于对应于现有目标的事件目标相似度的值时，执行用于将所述临时目标重新添加到所述各个粒子的处理的步骤。

优选地，所述信息集成处理步骤包括：在作为包括在为所述各个粒子设置的目标数据和所述粒子权重的计算总和中的用户位置信息的高斯分布数据的峰值小于预先设置的阈值时，执行用于删除所述目标的处理的步骤。

根据基于后面描述的本发明实施例和附图的更详细的解释，本发明的其他对象、特征和优点将变得明显。在该说明书中，系统是多个装置的逻辑组的配置，并且不限于其中在同一外壳内提供具有单独配置的各个装置的系统。

根据本发明的实施例，基于通过照相机或麦克风获得的图像信息或声音信息来输入包括用户的估计位置和估计识别数据的事件信息，执行应用了设置有多个目标的多个粒子的粒子滤波处理，并基于假设的更新和选择通过滤波来产生用户的位置和识别信息。根据该实施例，即使不确定和异步的位置信息和识别信息作为输入信息被输入，也可以有效地留下最可靠的信息，并可以有效并确信地产生用户位置和用户识别信息。

附图说明

图1是用于解释根据本发明实施例的信息处理装置所执行的处理的概述的视图；

图2是用于解释根据本实施例的信息处理装置的结构和处理的视图；

图3A和3B是用于解释由声音事件检测单元122或图像事件检测单元112产生和输入到声音/图像集成处理单元131的信息的示例的视图；

图4A到4C是用于解释应用了粒子滤波器的基本处理示例的视图；

图5是用于解释在处理示例中设置的粒子结构的视图；

图6是用于解释包括在各个粒子中的各个目标的目标数据的结构的视图；

图7是用于解释由声音/图像集成处理单元131执行的处理序列的流程图；

图8是解释用于计算目标权重[W_tID]的处理细节的视图；

图9是解释用于计算粒子权重[W_pID]的处理细节的视图；

图10是解释用于计算所述粒子权重[W_pID]的处理细节的视图；

图11是用于解释在所述声音/图像集成处理单元131中产生新目标的处理的视图；和

图12是用于解释在声音/图像集成处理单元131中删除目标的处理的视图。

具体实施方式

下面将参考附图描述根据本发明实施例的信息处理装置、信息处理方法和计算机程序的具体细节。

首先，参考图1解释根据该实施例由所述信息处理装置执行的处理的概述。根据该实施例的信息处理装置100被输入来自传感器的图像信息和声音信息并基于所述输入信息执行环境分析，所述传感器例如是照相机21和多个麦克风31到34并输入了环境信息。具体来说，所述信息处理装置100分析多个用户1到4(11到14)的位置并识别在该位置的用户。

在图中所示的例子中，例如，当用户1到4(11到14)是家庭中的父母兄妹时，所述信息处理装置100对从照相机21和多个麦克风31到34 输入的图像信息和声音信息进行分析并识别四个用户1到4所处的位置以及在各个位置的用户分别是父母兄妹中的哪一位。识别处理结果被用于各种处理，例如，用于将照相机拉近到说话用户以及从电视对说话用户的响应的处理。

根据该实施例的信息处理装置100的主要处理是用户识别处理，该用户识别处理作为基于来自多个信息输入单元(照相机21和麦克风31-34)的输入信息进行的用于识别用户的位置和识别用户的处理。使用识别的结果进行的处理并不具体限定。在从照相机21或多个麦克风31-34输入的图像信息或声音信息包括了各种不确定的信息。根据该实施例的信息处理装置100对包括在这些种类输入信息中的不确定信息执行概率性处理，并执行将所输入的信息集成为估计为高精确度的信息的处理。通过这种估计处理来提高强健性，并执行高精确的分析。

图2显示了所述信息处理装置100的结构示例。信息处理装置100具有作为输入设备的图像输入单元(照相机)111和多个声音输入单元(麦克风)121a到121d。从图像输入单元(照相机)111输入图像信息，而从声音输入单元(麦克风)121输入声音信息。所述信息处理装置100基于这些种类的输入信息执行分析。如图1所示，所述多个声音输入单元(麦克风)121a到121d被布置在不同的位置。

从所述多个麦克风121a到121d输入的声音信息通过声音事件检测单元122被输入到声音/图像集成处理单元131。声音事件检测单元122分析并集成从布置在不同位置的所述多个声音输入单元(麦克风)121a到121d输入的声音信息。具体来说，声音事件检测单元122基于从所述多个声音输入单元(麦克风)121a到121d输入的声音信息来产生指示声音产生的位置和哪一用户产生该声音的用户识别信息，并将该用户识别信息输入到声音/图像集成处理单元131。

由所述信息处理装置100执行的具体处理例如是识别用户1到4中哪一用户在多用户存在的环境中的哪一位置说话的处理，如图1所示，即，执行用户位置和用户识别以及指定诸如说话之人等的事件发生源的处理。

声音事件检测单元122分析从置于多个不同位置的多个声音输入单元(麦克风)121a到121d输入的声音信息并产生作为概率分布数据的声音产生源的位置信息。具体来说，声音事件检测单元122产生与声音源方向相关的期望值和方差数据N(m_e，σ_e)。声音事件检测单元122基于与预先注册的用户发音的特性信息进行的比较处理产生用户识别信息。所述产生的识别信息也作为概率估计值。与多个用户的发音相关的应当被验证的特性信息被预先注册在声音事件检测单元122中。所述声音事件检测单元122对输入的声音和注册的声音执行比较处理，判断所输入的声音与哪个用户的发音具有高的相似性，并为所有的注册用户计算后验概率或分数。

按此方式，声音事件检测单元122分析从置于多个不同位置的多个声音输入单元(麦克风)121a到121d输入的声音信息，根据从声音产生源的位置信息所产生的概率分布数据以及包括概率估计值的用户识别信息产生集成的声音事件信息，并将所集成的声音事件信息输入到声音/图像集成处理单元131。

另一方面，从图像输入单元(照相机)111输入的图像信息通过图像事件检测单元112被输入到声音/图像集成处理单元131。所述图像事件检测单元112分析从图像输入单元(照相机)111输入的图像信息，提取包括在图像中的人之面部，并产生面部的位置信息作为概率分布数据。具体来说，图像事件检测单元112产生与面部位置和相关的期望值和方差数据N(m_e，σ_e)。图像事件检测单元112基于与预先注册的用户面部的特性信息的比较处理产生用户识别信息。所述产生的识别信息也作为概率估计值。有关多个用户面部的特性信息应当被验证过的，并被预先注册在图像事件检测单元112中。图像事件检测单元122对从输入图像中提取的面部区域的图像的特性信息和所注册的面部图像的特性信息执行比较处理，并执行判断所述面部区域的图像与哪一用户的面部具有较高的相似性的处理，并为所有注册的用户计算后验概率或分数。

将过去已知的技术应用在于声音事件检测单元122和图像事件检测单元112中执行的声音识别、面部检测、和面部识别处理中。例如，在下面的文献中所公开的技术可以被应用为面部检测和面部识别处理：

Kotaro Sabo和Ken-ichi Hidai，“使用像素差异特性学习实际时间的任意姿态和面部检测”Tenth Image Sensing Symposium LectureProceedings，pp.547到552，2004年；和

JP-A-2004-302644[发明名称：面部识别装置、面部识别方法、记录介质、和机器人装置]。

声音/图像集成处理单元131基于来自声音事件检测单元122或图像事件检测单元112的输入信息对以下信息执行概率估计处理：所述多个用户分别所处的位置、用户是谁、和谁在产生诸如声音的信号。该处理将在后面详细解释。声音/图像集成处理单元131基于来自声音事件检测单元122或图像事件检测单元112的输入信息将下面的信息输出到处理确定单元132：

(a)作为用于指示所述多个用户分别所处的位置以及这些用户是谁的估计信息的目标信息；和

(b)指示诸如说话的用户的事件发生源的信号信息。

所述处理确定单元132接收这些识别处理的结果并使用这些识别处理结果执行处理。例如，处理确定单元132执行诸如将照相机拉近到说话用户和从电视对说话用户进行响应的处理。

如上所述，声音事件检测单元122产生声音产生源的位置信息作为概率分布数据。具体来说，声音事件检测单元122产生与声音源方向相关的期望值和方差数据N(m_e，σ_e)。声音事件检测单元122基于与预先注册的用户发音的特性信息进行的比较处理来产生用户识别信息并将该用户识别信息输入到声音/图像集成处理单元131。所述图像事件检测单元112提取包括在图像中的人的面部并产生作为概率分布数据的面部位置信息。具体来说，图像事件检测单元112产生与面部方向和位置相关的期望值和方差数据N(m_e，σ_e)。图像事件检测单元112基于与预先注册的用户面部的特性信息进行的比较处理产生用户识别信息并将该用户识别信息输入到声音/图像集成处理单元131。

参考图3A和3B解释由声音事件检测单元122或图像事件检测单元112产生的并输入到声音/图像集成处理单元131的信息的例子。图3A显示了与参考图1解释的实际环境相同的包括照相机和麦克风的实际环境的例子。在实际环境中存在多个用户1到k(201到20k)。在该环境下，当某一用户讲话时，声音通过麦克风被输入。所述照相机连续拍摄图像。

由声音事件检测单元122和图像事件检测单元112产生并输入到声音/图像集成处理单元131的信息基本上是相同的信息，并包括图3B所示的两种信息，即：(a)用户位置信息和(b)用户识别信息(面部识别信息或讲话者的识别信息)。在每次事件发生时都会产生这两种信息。当声音信息从声音输入单元(麦克风)121a到121d被输入时，声音事件检测单元122基于所述声音信息产生(a)用户位置信息和(b)用户识别信息，并将该信息输入到声音/图像集成处理单元131。所述图像事件检测单元112基于从图像输入单元(照相机)111输入的图像信息例如以预先设置的固定帧间隔产生(a)用户位置信息和(b)用户识别信息，并将该信息输入到声音/图像集成处理单元131。在该例子中，一个照相机被设置为图像输入单元(照相机)111。由该照相机拍摄多个用户的图像。在此情况下，图像事件检测单元112为包括在一个图像中的多个面部产生(a)用户位置信息和(b)用户识别信息，并将该信息输入到声音/图像集成处理单元131。

下面将解释由声音事件检测单元122为基于从声音输入单元(麦克风)121a到121d输入的声音信息产生(a)用户位置信息和(b)用户识别信息(讲话者的识别信息)的处理。

由声音事件检测单元122为产生(a)用户位置信息所执行的处理

声音事件检测单元122基于从声音输入单元(麦克风)121a到121d输入的声音信息产生有关发出被分析声音的用户(即讲话者)的位置的估计信息。换句话说，声音事件检测单元122产生讲话者估计出现的位置作为高斯分布(正态分布)数据N(m_e，σ_e)，其包括期望值(平均)[m_e]和方差信息[σ_e]。

由声音事件检测单元122为产生(b)用户识别信息(讲话者的识别信息)所执行的处理

声音事件检测单元122基于从声音输入单元(麦克风)121a到121d输入的声音信息通过对输入声音和预先注册的用户1到k的语音的特性信息进行比较来估计谁是讲话者。具体来说，声音事件检测单元122计算讲话者是各个用户1到k的概率。通过所述计算计算得到的值被设置为(b)用户识别信息(讲话者的识别信息)。例如，声音事件检测单元122通过执行用于对具有最接近于输入声音的特性的注册声音特性的用户分配最高分数并对具有最不同于输入声音的特性的声音特性的用户分配最低分数(例如，0)的处理来产生讲话者是各个用户的以概率设置的数据，并将该数据设置为(b)用户识别信息(讲话者识别信息)。

下面将解释由图像事件检测单元112为基于从图像输入单元(照相机)111输入的图像信息产生(a)用户位置信息和(b)用户识别信息(面部识别信息)进行的处理。

由图像事件检测单元112为产生(a)用户位置信息所执行的处理

图像事件检测单元112为包括在从图像输入单元(照相机)111输入的图像信息中的各个面部产生有关面部位置的估计信息。换句话说，图像事件检测单元112产生从图像中检测到的面部估计所处的位置作为高斯分布(正态分布)数据N(m_e，σ_e)，其包括期望值(平均)[m_e]和方差信息[σ_e]。

由图像事件检测单元112为产生(b)用户识别信息(面部识别信息)所执行的处理

图像事件检测单元112基于从图像输入单元(照相机)111输入的图像信息来检测包括在所述图像信息中的面部并通过对输入图像信息和预先注册的用户1到k的面部特性信息进行比较来估计各个面部是谁的面部。具体来说，图像事件检测单元112计算所提取的各个面部是各个用户1到k的概率。通过所述计算计算得到的值被设置为(b)用户识别信息(面部识别信息)。例如，图像事件检测单元112通过执行用于对具有最接近于包括在输入图像中的面部特性的注册面部特性的用户分配最高分数并对具有最不同于包括在输入图像中面部特性的面部特性的用户分配最低分数(例如，0)的处理来产生这些面部是各个用户的以概率设置的数据，并将该数据设置为(b)用户识别信息(面部识别信息)。

当从照相机所拍摄的图像中检测到多个面部时，图像事件检测单元112根据各个检测到的面部产生(a)用户位置信息和(b)用户识别信息 (面部识别信息)并将该信息输入到声音/图像集成处理单元131。

在该例子中，一个照相机被用作图像输入单元111。然而，也可以使用多个照相机所拍摄的图像。在此情况下，图像事件检测单元112为包括在各个照相机的各个拍摄图像中的各个面部产生(a)用户位置信息和(b)用户识别信息(面部识别信息)，并将该信息输入到声音/图像集成处理单元131。

解释由声音/图像集成处理单元131执行的处理。如上所述，声音/图像集成处理单元131顺序地被输入图3B所示的两种信息，即，来自声音事件检测单元122或图像事件检测单元112的(a)用户位置信息和(b)用户识别信息(面部识别信息或讲话者识别信息)。作为对这些种类信息的输入定时，可以进行各种设置。例如，在可能的设置中，当新的声音被输入时，声音事件检测单元122产生并输入各种信息(a)和(b)作为声音事件信息，并且所述图像事件检测单元112以固定帧周期单位产生和输入各种信息(a)和(b)作为图像事件信息。

下面将参考图4A到4C和后续的附图解释由声音/图像集成处理单元131执行的处理。声音/图像集成处理单元131设置有关用户的位置和识别信息的假设概率分布数据并更新该假设从而基于所述输入信息来执行只剩余最可靠假设的处理。作为该处理的方法，声音/图像集成处理单元131执行应用粒子滤波器的处理。

应用粒子滤波器的处理是基于图3B所示的两种信息(即从声音事件检测单元122或图像事件检测单元112输入的(a)用户位置信息和(b)用户识别信息(面部识别信息或讲话者识别信息))设置对应于各种假设的大量粒子并增加最可靠粒子的权重的处理，在该例子中，所述假设与用户的位置和身份相关。

参考图4A到4C解释应用粒子滤波器的基本处理的例子。例如，图4A到4C所示的例子指示了使用该粒子滤波器估计对应于特定用户的存在位置的处理的例子。图4A到4C所示例子是用于估计用户301在某一直线上在一维区域中存在的位置的处理。

如图4A所示，初始假设(H)是统一的粒子分布数据。然后，获得图像数据302并获得基于所获得图像的用户301的存在概率分布数据作为图4B所示的数据。基于以所获得的图像为基础的概率分布数据对图4A所示的粒子分布数据进行更新。获得图4C所示更新的假设概率分布数据。这些处理被基于输入信息重复执行来获得用户的更可靠的位置信息。

通过使用粒子滤波器所执行的具体处理例如在[D.Schulz，D.Fox，和J.Hightower，使用Rao-Blackwellised粒子滤波器以匿名和ID传感器进行的人群跟踪，人工智能国际联合会(IJCAI-3)]中得以描述。

图4A到4C所示的处理例子被解释为其中输入信息仅仅是用户301存在位置的图像数据的处理例子。各个粒子具有仅仅与用户301的存在位置相关的信息。

另一方面，根据该实施例的处理是基于图3B所示的两种信息(即从声音事件检测单元122或图像事件检测单元112输入的(a)用户位置信息和(b)用户识别信息(面部识别信息或讲话者的识别信息))区别多个用户的位置和这些用户是谁的处理。因此，在该实施例应用粒子滤波器的处理中，声音/图像集成处理单元131设置较多数量对应于与用户的位置和该用户是谁相关的假设的粒子并基于从声音事件检测单元122或图像事件检测单元112输入的图3B所示两种信息来更新这些粒子。

在该处理例子中设置的粒子结构将参考图5进行解释。声音/图像集成处理单元131具有m(预先设定的数)个粒子，即，图5所示的粒子1到m。针对各个粒子设置作为标识符的粒子ID(PID＝1到m)。

为各个粒子设置对应于与要识别的位置和对象相应的虚拟对象的多个目标。在该例子中，例如，在数量上等于和大于在实际空间中存在的估计数的对应于虚拟用户的多个目标被针对各个粒子进行设置。在所述m个粒子中，等于目标数量的数据被保存在目标单元中。在图5所示的例子中，在一个粒子中包括n个目标。图6中显示了包括在各个粒子中的各个目标的目标数据结构。

包括在各个粒子中的各个目标数据将参考图6进行解释。图6是包括在图5所示粒子1(pID＝1)中的一个目标(目标ID：tID＝n)311的目标数据的结构。目标311的目标数据包括如图6所示下面的数据：

(a)对应于各个目标的存在位置的概率分布[高斯分布：N(m_1n，σ_1n)]；和

(b)指示各个目标是谁的用户置信度信息(uID)，即，uID_1n1＝0，uID_1n2＝0.1，...和uID_1nk＝0.5。

在(a)中描述的高斯分布N(m_1n，σ_1n)中的(m_1n，σ_1n)的(1n)代表了作为对应于在粒子ID：pID＝1中目标ID：tID＝n的存在概率分布的高斯分布。

包括在(b)中描述的用户置信度信息(uID)中的[uID_1n1]的(1n1)代表了在粒子ID：pID＝1中目标ID：tID＝n的用户为用户1的概率。换句话说，目标ID＝n的数据代表了用户是用户1的概率为0.0，用户是用户2的概率为0.1，...，用户是用户k的概率为0.5。

返回参考图5，继续对声音/图像集成处理单元131设置的粒子进行解释。如图5所示，声音/图像集成处理单元131设置m(预先设定的数值)个粒子(pID＝1到m)。对于估计存在于实际空间的各个目标(tID＝1到n)来说，各个粒子具有目标数据：(a)对应于各个目标的存在位置的概率分布[高斯分布N(m，σ)]；和(b)指示各个目标是谁的用户置信度信息(uID)。

声音/图像集成处理单元131被输入图3B所示的事件信息，即，来自声音事件检测单元122或图像事件检测单元112的(a)用户位置信息和(b)用户识别信息(面部识别信息或讲话者识别信息)，并执行更新所述m个粒子(PID＝1到m)的处理。

声音/图像集成处理单元131执行用于更新所述粒子的处理，产生(a)作为指示多个用户分别存在的位置以及这些用户是谁的估计信息的目标信息和(b)指示诸如讲话用户的事件发生源的信号信息，并将该信息输出到处理确定单元132。

如在图5右端的目标信息305中所示的那样，所述目标信息是作为对应于包括在各个粒子(PID＝1到m)的各个目标(tID＝1到n)的数据的加权数据和产生的。各个粒子的权重在后面进行描述。

目标信息305是指示(a)对应于预先由声音/图像集成处理单元131设置的虚拟用户的目标(tID＝1到n)的存在位置和(b)这些目标是谁(目标是uIDI到uIDk中的哪一个)的信息。根据粒子的更新顺序地更新所述目标信息。例如，当用户1到k在实际环境中没有移动时，各个用户1到k合并作为对应于从n个目标(tID＝1到n)选出的k个目标的数据。

例如，包括在图5所示目标信息305之顶部的目标1(tID＝1)的数据中的用户置信度信息(uID)具有与用户2(uID₁₂＝0.7)相关的最高概率。因此，目标1(tID＝1)的数据是作为对应于用户2来估计的。在指示用户置信度信息(uID)的数据[uID₁₂＝0.7]中的(uID₁₂)中的(12)指示了与目标ID＝1的用户2的用户置信度信息(uID)相对应的概率。

在目标信息305的顶部的目标1(tID＝1)的数据对应于具有最高概率的用户2。用户2的存在位置估计处于由包括在目标信息305顶部的目标1(tID＝1)的数据中的存在概率分布数据所指示的范围内。

在此方式中，目标信息305指示了与被初始设置为虚拟对象(虚拟用户)的各个目标(tID＝1到n)相关的各种信息：(a)目标的存在位置和(b)目标是谁(目标是uID1到UIDk中的哪一个)。因此，当用户不移动时，各个目标(tID＝1到n)的各k条目标信息被合并为对应于用户1。

当目标(tID＝1到n)的数量大于用户k的数量时，存在不对应任何用户的目标。例如，在目标信息305的底部的目标(tID＝n)中，用户置信度信息(uID)最大为0.5，并且存在概率分布数据不具有较大的峰值。该数据被判定为不对应于具体用户的数据。可以执行删除这个目标的处理。下面将描述删除目标的处理。

如上所述，声音/图像集成处理单元131执行基于输入信息更新粒子的处理，产生(a)作为指示多个用户分别所处位置和用户是谁的估计信息的目标信息和(b)指示诸如说话用户的事件发生源的信号信息，并将该信息输出到处理确定单元132。

所述目标信息是参考图5所示目标信息305解释的信息。除了所述目标信息之外，声音/图像集成处理单元131产生指示诸如讲话用户的事件发生源的信号信息，并输出该信号信息。指示所述事件发生源的信号信息是涉及声音事件的指示谁在说话(即讲话者)的数据和与图像事件相关的指示包括在图像中的面部是谁的面部的数据。因此，在该例子中，在图像事件情况下的信号信息与从目标信息的用户置信度信息(uID)获得的信号信息一致。

如上所述，声音/图像集成处理单元131被输入图3B所示事件信息，即来自声音事件检测单元122或图像事件检测单元112的用户位置信息和用户识别信息(面部识别信息或讲话者识别信息)，产生(a)作为指示多个用户分别所处位置和用户是谁的估计信息的目标信息和(b)指示诸如讲话用户的事件发生源的信号信息，并将该信息输出到处理确定单元132。下面参考图7和随后的附图解释该处理。

图7是解释由声音/图像集成处理单元131执行的处理顺序的流程图。首先，在步骤S101，声音/图像集成处理单元131被输入图3B所示的事件信息，即，来自声音事件检测单元122或图像事件检测单元112的用户位置信息和用户识别信息(面部识别信息或讲话者识别信息)。

当成功获得该事件信息时，声音/图像集成处理单元131继续到步骤S102。当没有成功获得事件信息时，声音/图像集成处理单元131继续到步骤S121。后面将解释步骤S121中的处理。

当成功获得所述事件信息时，声音/图像集成处理单元131基于在步骤S102和后续步骤输入的信息执行粒子更新处理。在粒子更新处理之前，在步骤S102，声音/图像集成处理单元131在图5所示的m个粒子(pID＝1到m)每个中设置事件发生源假设。该事件发生源例如在声音事件的情况下为讲话的用户，而在图像事件的情况下，为具有提取的面部的用户。

在图5所示的例子中，事件发生源的假设数据(tID＝xx)处于各个粒子的底部。在图5所示的例子中，指示事件发生源是目标1到n中哪一个的假设针对各个粒子以如下方式设置：针对粒子1(pID＝1)则tID＝2，针对粒子2(pID2)则tID＝n，...，针对粒子n(pID＝m)则tID＝n。在图5所示的例子中，设置作为假设的事件发生源的目标数据由双线包围并针对各个粒子进行指示。

事件发生源假设的设置是在每当基于输入事件执行粒子更新处理时执行的。换句话说，声音/图像集成处理单元131为各种粒子1到m设置事件发生源的假设。在这些假设下，声音/图像集成处理单元131被输入图3B所示的事件信息，即，(a)用户位置信息和(b)用户识别信息(面部识别信息或讲话者识别信息)作为来自声音事件检测单元122或图像事件检测单元112的事件，并执行更新这m个粒子(PID＝1到m)的处理。

当执行所述粒子更新处理时，为各个粒子1到m设置的事件发生源假设被重新设置，并为1到m各个粒子设置新的假设。作为设置假设的形式，可以采用方法(1)随机设置和(2)根据声音/图像集成处理单元131的内部模式进行设置的任何方法中的一种。粒子数m设置的比目标数n大。因此，在事件发生源是相同目标的假设中设置多个粒子。例如，当目标数n为10时，例如，执行将粒子数设置为大约100到1000的处理。

下面解释用于(2)根据声音/图像集成处理单元131的内部模型设置假设的处理的具体处理例子。

首先，声音/图像集成处理单元131通过比较从声音事件检测单元122或图像事件检测单元112获得的事件信息(即，图3B所示的两种信息，(a)用户位置信息和(b)用户识别信息(面部识别信息或讲话者的识别信息))和包括在由声音/图像集成处理单元131所持有的粒子中的目标数据，来计算各个目标的权重[W_tID]。所述声音/图像集成处理单元131基于所计算的各个目标的权重[W_tID]为各个粒子(pID＝1到m)设置事件发生源假设。下面将解释具体的处理例子。

在初始状态，为各个粒子(pID＝1到m)设置的事件发生源的假设被设置为相等。换句话说，当设置具有n个目标(tID＝1到n)的m个粒子(pID＝1到m)时，针对各个粒子(pID＝1到m)的事件发生源的初始假设目标(tID＝1到n)被以如下的方式均等分配，即m/n粒子是具有目标1(tID＝1)作为事件发生源的粒子，m/n粒子是具有目标2(tID＝2)作为事件发生源的粒子，...，和m/n粒子是具有目标n(tID＝n)作为事件发生源的粒子。

在图7所示的步骤S101，声音/图像集成处理单元131获得事件信息，即，图3B所示的两种信息：即来自声音事件检测单元122或图像事件检测单元112的(a)用户位置信息和(b)用户识别信息(面部识别信息或讲话者的识别信息)。当成功获得事件信息时，在步骤S102，声音/图像集成处理单元131为m个粒子(PID＝1到m)的每个设置事件发生源的假设目标(tID＝1到n)。

下面解释在步骤S102中设置对应于粒子的假设目标的细节。首先，声音/图像集成处理单元131比较在步骤S101输入的事件信息和包括在由声音/图像集成处理单元131所持有的粒子中的目标的数据，并使用比较的结果计算各个目标的目标权重[W_tID]。

下面将参考图8解释用于计算目标权重[WtID]的处理的细节。目标权重的计算是作为用于计算对应于为图8右端所示的各个粒子设置的各个目标1到n的n个目标权重的处理来执行的。在计算这n个目标权重中，首先，声音/图像集成处理单元131计算作为在图8(1)所示输入事件信息(即从声音事件检测单元122或图像事件检测单元112输入到声音/图像集成处理单元131的事件信息)和各个粒子的各个目标数据之间相似性的指示值的相似度。

在图8(2)中所示的相似度计算处理的例子是通过比较输入事件信息(1)和粒子1的一个目标数据(tID＝n)来计算事件目标相似度的例子。在图8中，显示了与一个目标数据的进行比较的例子。然而，相同的相似度计算处理可以对各个例子的各个目标数据上执行。

下面解释图8底部所示的相似度计算处理(2)。如图8中(2)所示，作为相似度的计算处理，首先，声音/图像集成处理单元131分别计算(a)高斯分布之间相似度[DL]作为在有关用户位置信息的事件和目标数据之间的相似性数据和(b)用户置信度信息(uID)之间相似度[UL]作为在有关用户识别信息(面部识别信息或讲话者识别信息)的事件和所述目标数据之间的相似性数据。

首先，解释用于计算(a)高斯分布之间相似度[DL]作为在有关用户位置信息的事件和目标数据之间的相似性数据的处理。

对应于图8(1)所示的输入事件信息中的位置信息的高斯分布表示为N(m_e，σ_e)。对应于包括在由声音/图像集成处理单元131所持有的内部模型的某一粒子中的某一目标的用户位置信息的高斯分布被表示为N(m_t，σ_t)。在图8所示的例子中，包括在粒子1(pID＝1)的目标n(tID＝n)的目标数据中的高斯分布被表示为N(m_t，σ_t)。

作为判断在这两种数据的高斯分布之间的相似性的指标的高斯分布之间的相似度[DL]是通过下面的方程来计算的：

DL＝N(m_t，σ_t+σ_e)x|m_e

该方程是用于计算在中心m_t具有方差σ_t+σ_e的高斯分布中在x＝m_e的位置的值的方程。

下面解释用于计算(b)用户置信度信息(uID)之间相似度[UL]作为有关用户识别信息(面部识别信息或讲话者识别信息)的事件和所述目标数据之间的相似性数据的处理。

在图8中(1)所示的输入事件信息的用户置信度信息(uID)的各个用户1到k的置信度的值(分数)表示为P_e[i]。“i”是对应于用户表示1到k的变量。包括在由声音/图像集成处理单元131所持有的内部模型的某一粒子中的某一目标的用户置信度信息(uID)各个用户1到k的置信度的值(分数)被表示为P_t[i]。在图8所示的例子中，包括在粒子1(pID＝1)的目标n(tID＝n)的目标数据中的用户置信度信息(uID)的各个用户1到k的置信度的值(分数)被表示为P_t[i]。

作为用于判断在这两种数据的用户置信度信息(uID)之间相似性的指标的用户置信度信息(uID)之间相似度[UL]是通过下面的方程来计算的：

UL＝∑P_e[i]×P_t[i]

该方程是用于计算包括在所述两种数据的用户置信度信息(uID)中的各相应用户的置信度的值(分数)的乘积和的方程。该和的值是用户置信度信息(uID)之间的相似度[UL]。

可替代地，也可以计算各个积的最大值，即值UL＝arg max(P_e[i]×P_t[i])作为用户置信度信息(uID)之间的相似度[UL]，并将该值用作用户置信度信息(uID)之间的相似度[UL]。

作为在输入事件信息和包括在某一粒子(pID)中的一个目标(tID)之间的相似性的指标的事件目标相似度[L_pID，tID]是通过使用两种相似度来计算的，即，高斯分布之间的相似度[DL]和用户置信度信息(uID)之间的相似度[UL]。换句话说，事件目标相似度[L_pID，tID]是通过使用权重α(α＝0到1)的如下方程来计算的：

[L_pID，tID]＝UL^α×DL^1-α

其中α为0到1.

事件目标相似度[L_pID，tID]是针对各个粒子的各个目标来计算的。各个目标的目标权重[W_tID]是基于事件目标相似度[L_pID，tID]计算的。

应用到事件目标相似度[L_pID，tID]计算的权重[α]可以是预先固定的值或者可以被设置为根据输入事件而改变。同样可能例如在输入事件是图像的情况下，例如当面部检测成功并可以获得位置信息但是面部识别失败的时候，将α设置为0，将用户置信度信息(uID)之间的相似度[UL]设置为1，仅仅依赖于高斯分布之间相似度[DL]来计算所述事件目标相似度[L_pID，tID]，而仅仅依赖于高斯内部相似度[DL]来计算目标权重[W_tID]。

同样可能例如在输入事件是声音的情况下，例如当讲话者识别成功并可以获得讲话者信息但是位置信息获得失败的时候，将α设置为0，将高斯分布之间相似度[DL]设置为1，仅仅依赖于用户置信度信息(uID)之间的相似度[UL]来计算所述事件目标相似度[L_pID，tID]，而仅仅依赖于用户置信度信息(uID)之间的相似度[UL]来计算目标权重[W_tID]。

基于事件目标相似度[LpID，tID]计算目标权重[W_tID]的公式如下：

W_{tID} = Σ_{pID}^{m} W_{pID} L_{pID, tID}

在该公式中，[W_pID]是针对各个粒子设置的粒子权重。后面解释计算粒子权重[W_pID]的处理。在初始状态下，为所有的粒子(pID＝1到m)设置统一的值作为粒子权重[W_pID]。

在图7所示的流程中的步骤S101中的处理，即，对应于各个粒子的事件发生源假设的产生是基于以事件目标相似度[L_pID，tID]为基础计算的目标权重[W_tID]来执行的。作为目标权重[W_tID]，计算对应于为粒子设置的目标1到n(tID＝1到n)的n个数据。

对应于相应m个粒子(pID＝1到m)的事件源假设目标被设置为根据目标权重[W_tID]的比进行分配。

例如，当n是4时，根据目标1到4(tID＝1到4)计算的目标权重[W_tID]如下：

目标1：目标权重＝3；

目标2：目标权重＝2；

目标3：目标权重＝1；和

目标4：目标权重＝5，

所述m个粒子的事件发生源假设目标被如下设置：

所述m个粒子中的30％是事件发生源假设目标1；

所述m个粒子中的20％是事件发生源假设目标2；

所述m个粒子中的10％是事件发生源假设目标3；和

所述m个粒子中的50％是事件发生源假设目标4；

换句话说，为粒子设置的事件发生源假设目标是根据目标权重比来分配的。

在设置假设之后，声音/图像集成处理单元131继续到图7所示流程的步骤S103。在步骤S103中，声音/图像集成处理单元131计算对应于各个粒子的权重，即粒子权重[W_pID]。如上所述，为各个粒子初始设置统一值作为粒子权重[W_pID]，但是可以根据事件输入进行更新。

下面参考图9和10解释计算粒子权重[W_pID]的处理的细节。粒子权重[W_pID]等同于用于判断产生事件发生源的假设目标的各个事件的假设的正确性的指标。所述粒子权重[W_pID]被计算作为事件目标相似度，该事件目标相似度是在针对m个粒子(pID＝1到m)设置的事件发生源的假设目标和输入事件之间的相似性。

在图9中，显示了从声音事件检测单元122或图像事件检测单元112输入到声音/图像集成处理单元131的事件信息401和由声音/图像集成处理单元131所持有的粒子411到413。在各个粒子411到413中，设置了在上述处理中设置的假设目标，即，在图7所示的流程步骤S102中事件发生源假设的设置。在图9所示的例子中，作为假设目标，目标被设置如下：

针对粒子1(pID＝1)411的目标2(tID＝2)421；

针对粒子2(pID＝2)412的目标n(tID＝n)422；和

针对粒子m(pID＝m)413的目标n(tID＝n)423。

在图9所示的例子中，各个粒子的粒子权重[WpID]如下那样对应于事件目标相似度：

粒子1：在事件信息401和目标2(tID＝2)421之间的事件目标相似度；

粒子2：在事件信息401和目标n(tID＝n)422之间的事件目标相似度；和

粒子m：在事件信息401和目标n(tID＝n)423之间的事件目标相似度。

图10显示了为粒子1(pID-1)计算粒子权重[W_pID]的处理的例子。用于计算图10中(2)所示的粒子权重[W_pID]的处理是与参考图8中(2)解释相同的相似度计算处理。在该例子中，所述处理作为对事件目标相似度的计算而执行的，该事件目标相似度作为在(1)输入事件信息和从粒子中选择的唯一假设目标之间的相似性的指标。

图10底部所示的(2)相似度计算处理与参考图8中(2)解释的相同，是如下的处理：用于单独计算(a)高斯分布之间的相似度[DL]作为在与用户位置信息相关的事件和目标数据之间的相似性数据，并计算(b)用户置信度信息(uID)之间的相似度[UL]作为与用户识别信息(面部识别信息或讲话者识别信息)和目标数据之间的相似性数据。

用于计算(a)高斯分布之间的相似度[DL]作为在与用户位置信息相关的事件和假设目标之间的相似性数据的处理是下面描述的处理。

对应于在输入事件信息中的用户位置信息的高斯分布表示为N(m_e，σ_e)，对应于从粒子中选择出的假设目标的用户位置信息的高斯分布表示为N(m_t，σ_t)。高斯分布之间的相似度[DL]是通过如下方程计算的：

DL＝N(m_t，σ_t+σ_e)x|m_e

该方程是用于计算在中心m_t具有分布σ_t+σ_e的高斯分布中位置为x＝m_e 的值的方程。

用于计算(b)用户置信度信息(uID)之间相似度[UL]作为在有关用户识别信息(面部识别信息或讲话者识别信息)和假设目标之间的相似性数据的处理是下面的描述的处理。

在输入事件信息中用户置信度信息(uID)的各个用户1到k的置信度的值(分数)表示为Pe[i]。“i”是对应于用户标识1到k的变量。

在从粒子中选择出的假设目标的用户置信度信息(uID)的各个用户1到k的置信度的值(分数)表示为Pt[i]。用户置信度信息(uID)之间相似度[UL]是通过下面的方程来计算的：

UL＝∑P_e[i]×P_t[i]

该方程是用于计算包括在所述两种数据的用户置信度信息(uID)中的各个相应用户的置信度值(分数)的乘积之和的方程。所述和值是用户置信度信息(uID)之间的相似度[UL]。

所述粒子权重[w_pID]是通过使用所述两个相似度来计算的，即，高斯分布之间相似度[DL]和用户置信度信息(uID)之间相似度[UL]。换句话说，粒子权重[W_pID]是通过下面的方程使用权重α(α＝0到1)计算的：

[W_pID]＝UL^α×DL^1-α

其中，α为0到1.

粒子权重[W_pID]是针对各个粒子的各个目标计算的。

如在上面所述的计算事件目标相似度[L_pID，tID]的处理中那样，应用于针对粒子权重[W_pID]的计算的权重[α]可以是预先固定的值或可以被设置为根据输入的事件进行变化。例如在输入事件是图像的情况下，例如当面部检测成功并可以获得位置信息但是面部识别失败的时候，也可以将α设置为0，将用户置信度信息(uID)之间的相似度[UL]设置为1，并且仅仅依赖于高斯分布之间的相似度[DL]计算所述粒子权重[W_pID]。例如在输入事件是声音的情况下，例如当讲话者识别成功并可以获得讲话者信息但是获取位置信息失败的时候，也可以将α设置为0，将高斯分布之间相似度[UL]设置为1，并且仅仅依赖于用户置信度信息(uID)之间的相似度[DL]来计算所述粒子权重[W_pID]。.

在图7的流程的步骤S103中计算对应于各个粒子的粒子权重[W_pID]是如同参考图9和10以此方式解释的处理一样来执行。随后，在步骤S104，声音/图像集成处理单元131基于在步骤S103中设置的各个粒子的粒子权重[W_pID]来执行重新采样粒子的处理。

所述粒子重新采样处理如用于根据粒子权重[W_pID]从所述m个粒子中选出粒子的处理一样来执行。具体来说，当粒子数m为5时，粒子权重被设置如下：

粒子1：粒子权重[W_pID]＝0.40；

粒子2：粒子权重[W_pID]＝0.10；

粒子3：粒子权重[W_pID]＝0.25；

粒子4：粒子权重[W_pID]＝0.05；和

粒子5：粒子权重[W_pID]＝0.20.

在此情况下，粒子1被以40％的概率采样，粒子2被以10％的概率采样。实际上，m为100到1000那样大的值。重新采样的结果包括在对应于粒子权重的分布比的粒子。

根据该处理，具有加大粒子权重[W_pID]的大量粒子被留下。即使在重采样之后，粒子的总数[m]也是不变的。在重新采样之后，各粒子的权重[W_pID]被重新设置。所述处理根据新事件的输入从步骤S101开始重复执行。

在步骤S105，声音/图像集成处理单元131执行用于更新包括在各个粒子中的目标数据(用户位置和用户置信度)的处理。如上面参考图6等所解释的那样，各个目标包括下面的数据：

(a)用户位置：对应于各个目标的存在位置的概率分布[高斯分布：N(m_t，σ_t)]；和

(b)用户置信度：作为指示“各个目标是谁”的用户置信度信息(uID)、各个目标分别是各个用户1到k的概率值(分数)：Pt[i](i＝1到k)，即uID_t1＝Pt[1]，uID_t2＝Pt[2]，...，和uID_tk＝Pt[k]。

在步骤S105中目标数据的更新是针对(a)用户位置和(b)用户置信度每一个来执行的。首先，解释更新(a)用户位置的处理。

用户位置的更新是作为分两个阶段的更新处理来执行的，即，(a1)应用到所有粒子的所有目标的更新处理和(a2)应用到为各个粒子设置的事件发生源假设的更新处理。

(a1)应用到所有粒子的所有目标上的更新处理是针对被选择为事件发生源假设目标和其他目标的所有目标执行的。该处理是基于用户位置的方差随着时间消逝而扩大的假定来执行的。所述用户位置是通过使用Kalman滤波器根据从最近更新处理开始所消逝的时间和事件的位置信息来更新的。

下面解释在一维位置信息情况下的更新处理的例子。首先，从最近更新处理开始的消逝时间表示为[dt]，并计算所有目标在dt之后用户位置的预测分布。换句话说，如下面所述的那样来更新作为用户位置的方差信息的高斯分布N(m_t，σ_t)的方差[σ_t]和期望值(平均值)[m_t]。

m_t＝m_t+xc×dt

σ_t ²＝σ_t ²+σc²×dt

其中，m_t是预测的期望值(预测状态)，σ_t ²是预测的协方差(预测的估计协方差)，xc是移动信息(控制模型)，σc²是噪声(处理噪声)。

当在用户不移动的条件下执行时，所述更新处理可以在将xc设置为0的情况下来执行。

根据该计算处理，更新作为包括在所有目标中的用户位置信息的所述高斯分布(m_t，σ_t)。

关于作为分别针对各个粒子设置的事件发生源假设的目标，更新处理是通过使用指示包括在从自声音事件检测单元122或图像事件检测单元112输入的事件信息中的用户位置的高斯分布N(m_e，σ_e)来执行的。

Kalman增益表示为K，包括在输入事件信息N(m_e，σ_e)的观测值(观测状态)表示为m_e，包括在输入事件信息N(m_e，σ_e)中的观测值(观测协方差)表示为σ_e ²。更新处理如下所述那样执行。

K＝σ_t ²/(σ_t ²+σ_e ²)

m_t＝m_t+K(xc-m_t)

σ_t ²＝(1-K)σ_t ²

(b)下面解释执行作为更新目标数据的处理的用于更新用户置信度的处理。所述目标数据除了用户位置信息之外还包括作为指示各个目标是谁的用户置信度信息(uID)的、各个目标是各个用户1到k的概率值(分数)[Pt[i](i＝1到k)]。在步骤S105，声音/图像集成处理单元131也执行更新所述用户置信度信息(uID)的处理。

更新包括在各个粒子中的目标的用户置信度信息(uID)[Pt[i](i＝1到k)]是通过根据所有注册用户的后验概率来应用具有预先设置的从0到1范围值的更新比[β]和包括在从声音事件检测单元122或图像事件检测单元112中输入的事件信息中的用户置信度信息(uID)[Pe[i](i＝1到k)]来执行的。

目标的用户确认信息(uID)[Pt[i](i＝1到k)]的更新是根据下面的方程来执行的：

Pt[i]＝(1-β)×Pt[i]+β＊Pe[i]

其中，i是1到k，β是0到1。

所述更新比[β]是在范围0到1的值，并且被预先设定。

在步骤S105，声音/图像集成处理单元131基于包括在所更新的目标数据中的如下数据和各个粒子权重[W_pID]产生目标信息并将该目标信息输出到处理确定单元132：

(b)用户置信度：作为指示“各个目标是谁”的用户置信度信息(uID)的、各个目标是各个用户1到k的概率值(分数)：Pt[i](i＝1到k)，即uID_t1＝Pt[1]，uID_t2＝Pt[2]，...，和uID_tk＝Pt[k]。

如参考图5所解释的那样，所述目标数据被产生作为对应于包括在各个粒子(PID＝1到m)中的各个目标(tID＝1到n)的数据的加权和数据。所述目标信息是在图右端目标信息305中所示的数据。该目标数据被产生作为包括(a)用户位置信息和(b)各个目标(tID＝1到n)的用户置信度信息的信息。

例如，在对应于目标(tID＝1)的目标信息中的用户位置信息通过下面的公式来表示：

Σ_{i = 1}^{m} W_{i} \cdot N (m_{i 1}, σ_{i 1})

在该公式中，W_i指示了粒子权重[W_pID]。

在对应于目标(tID＝1)的目标信息中的用户置信度信息通过下面的公式表示：

Σ_{i = 1}^{m} W_{i} \cdot uI D_{i 11}

Σ_{i = 1}^{m} W_{i} \cdot uI D_{i 12}

Σ_{i = 1}^{m} W_{i} \cdot {uID}_{i 1 k}

在该公式中，W_i指示粒子权重[W_pID]。

所述声音/图像集成处理单元131为所述n个目标(tID＝1到n)计算这些种类的信息，并将所计算的目标信息输出到处理确定单元132。

下面解释图7所示在步骤S106中的处理。在步骤S106，声音/图像集成处理单元131计算相应n个目标(tID＝1到n)是事件发生源的概率并将该概率作为信号信息输出到处理确定单元132。

如上所述，指示事件发生源的信号信息是与声音事件相关的指示谁在讲话(即讲话者)的数据、以及与图像事件相关的指示包括在图像中的面部是谁的面部的数据。

所述声音/图像集成处理单元131基于在各个粒子中设置的事件发生源的假设目标的数量来计算各个目标是事件发生源的概率。换句话说，各个目标(tID＝1到n)是事件发生源的概率表示为P(tID＝i)，其中“i”为1到 n。在此情况下，各个目标是事件发生源的概率被计算为P(tID＝1)：tID＝1的所分配的目标数量/m，P(tID＝2)：tID＝2的所分配的目标数量/m，...，和P(tID＝n)：tID＝n的所分配的目标数量/m.

所述声音/图像集成处理单元131将通过该计算处理产生的信息(即，各个目标是事件发生源的概率)作为信号信息输出到所述处理确定单元132。

当完成步骤S106的处理时，声音/图像集成处理单元131返回到步骤S101，并转换至针对来自声音事件检测单元122或图像事件检测单元112的事件信息的输入的待机状态。

已经解释了图7所示流程的步骤S101到S106。即使当声音/图像集成处理单元131不能在步骤S101从声音事件检测单元122或图像事件检测单元112获得图3B所示的事件信息，在步骤S121中也执行包括在各个粒子中的目标数据的更新。该更新是考虑了用户位置随时间消逝的变化所执行的处理。

该目标更新处理与在步骤S105中解释的应用到所有粒子的所有目标的更新处理(a1)相同。该处理是基于用户位置的方差随着时间消逝而扩大的假定来执行的。所述用户位置是通过使用Kalman滤波器根据从最近更新处理开始消逝的时间和事件的位置信息来更新的。

下面解释在一维位置信息情形下更新处理的例子。首先，从最近更新处理开始的消逝时间表示为[dt]，并计算所有目标在dt之后用户位置的预测分布。换句话说，如下面所述的那样来更新作为用户位置的方差信息的高斯分布N(m_t，σ_t)的方差[σ_t]和期望值(平均值)[m_t]。

m_t＝m_t+xc×dt

σ_t ²＝σ_t ²+σc²×dt

其中，m_t是预测的期望值(预测状态)，σ_t ²是预测的协方差(预测估计协方差)，xc是移动信息(控制模型)，σc²是噪声(处理噪声)。

当在用户不移动的条件下执行计算处理时，可以在将xc设置为0的情况下执行所述更新处理。

如果未从事件信息获得事件的所有注册用户的后验概率或(分数)[Pe]，则不对包括在各个粒子的目标中的用户置信度信息(uID)进行更新。

当完成步骤S121中的处理时，声音/图像集成处理单元131返回到步骤S101并转换至针对来自声音事件检测单元122或图像事件检测单元112的事件信息的输入的待机状态。

已经参考图7解释了由声音/图像集成处理单元执行的处理。每次从声音事件检测单元122或图像事件检测单元112输入信息时，声音/图像集成处理单元131就重复执行根据图7所示流程的处理。通过重复所述处理，增大了具有更高可靠性的目标被设置为假设目标的粒子权重。通过基于所述粒子权重执行采样处理，保留下具有较大权重的粒子。因此，留下了类似于从声音事件检测单元122或图像事件检测单元112输入的事件信息的、具有高可靠性的数据。最后，产生具有高可靠性的信息并将其输出到处理确定单元132，该具有高可靠性的信息即(a)作为指示多个用户是否分别存在以及这些用户是谁的估计信息的目标信息和(b)指示诸如讲话用户的事件发生源的信号信息。

目标的产生和删除

在该实施例的解释中，声音/图像集成处理单元131预先在相应m个粒子中设置n个目标并执行处理。然而，目标的数量可被设置成进行合适的变化。换句话说，可以在需要的时候执行新目标的产生和目标的删除。

目标的产生

下面参考图11解释在声音/图像集成处理单元131中产生新目标的处理。例如在为各个粒子设置事件发生源假设时执行新目标的产生。

在计算事件和各个现有n个目标之间的事件目标相似度中，声音/图像集成处理单元131临时产生具有以统一分布设置的“位置信息”和“识别信息”(“具有足够大方差的高斯分布”和“其中所有Pt[i]都相等的用户ID分布”)的新的临时目标501作为第n+1个目标，如图11所示。

在设置新的临时目标(tID＝n+1)之后，声音/图像集成处理单元131基于新事件的输入在参考图7解释的流程的步骤S102中执行对事件发生源假设的设置。在该处理中，声音/图像集成处理单元131计算输入事件信息和各个目标之间的相似度并计算各个目标的目标权重[W_tID]。在此情况下，声音/图像集成处理单元131还计算在输入事件信息和图11所示临时目标(tID＝n+1)之间的相似度并计算临时的第n+1个目标的目标权重(W_n+1)。

当判断临时的第n+1个目标的目标权重(W_n+1)大于现有n个目标的目标权重(W₁到W_n)时，声音/图像集成处理单元131为所有粒子设置新的目标。

例如，在由照相机拍摄的一个图像中存在多个面部事件，并且图7所示的流程的处理被应用到每个面部事件。在此情况下，当在一个图像中面部的数量(事件的数量)小于为各个粒子设置的目标(n)的数量时，即使tID＝n+1的临时目标的权重W_n+1不大于其他目标的权重(w₁到W_n)，也可以被为所有的粒子直接产生临时目标作为新的目标。

当产生新的目标时，可以基于此前计算的目标权重[W_tID]概率性地执行事件发生源的假设的产生，或者可以将事件发生源的假设设置为所有粒子中的新的目标。

目标的删除

下面参考图12解释在声音/图像集成处理单元131中删除目标的处理。所述声音/图像集成处理单元131例如在执行图7所示处理流程中步骤S105的用于更新目标数据的处理中执行目标的删除。

在步骤S105，如上面所解释的那样，声音/图像集成处理单元131执行用于基于通过执行目标数据的更新而更新的目标数据以及各个粒子权重[W_pID]来产生目标数据并将该目标信息输出到处理确定单元132的处理。声音/图像集成处理单元131例如产生图12所示的目标信息520。产生的所述目标信息作为包括各个目标(tID＝1到n)的(a)用户位置信息和(b)用户确认信息的信息。

声音/图像产生处理单元131注意到以此方式基于更新的目标所产生的目标信息中的用户位置信息。所述用户位置信息被设置为高斯分布N(m，σ)。当在高斯分布中没有检测到固定峰值时，用户位置信息不是指示特定用户的位置的有效信息。所述声音/图像集成处理单元131选择具有这种不带有峰值的分布数据的目标作为删除对象。

例如，在图12所示的目标信息520中，显示了目标1、2和n的三种目标信息521、522和523。声音/图像集成处理单元131比较在目标信息中指示用户位置的高斯分布数据之峰值和预先设定的阈值531。声音/图像集成处理单元131将不具有等于或大于阈值531的峰值的数据(即在图12的例子中的目标信息523)设置为删除目标。

在该例子中，目标(tID＝n)被选择为删除目标并被从所有的粒子中被删除。当指示用户位置的高斯分布(概率密度分布)的最大值小于用于删除的阈值时，就从所有粒子中删除具有该高斯分布的目标。所应用的阈值可以是固定值，也可以针对每个目标而改变，例如对于交互对象目标可以被设置得较低以防止该交互对象目标轻易地被删除。

本发明已经参考具体的实施例详细进行了解释。然而，对于本领域熟练技术人员而言很明显可以在不偏离本发明精神的情况下对这些实施例做出修改和替换。换句话说，本发明已经以示例的形式进行了公开，并且不应被限制性地解释。为了判断本发明的要点，应当考虑专利权利要求书。

在该说明书中解释的一系列处理可以通过硬件、软件或软硬件的组合来执行。当通过软件执行处理时，可以将记录了处理序列的程序安装在包括在专用硬件中的计算机内存中使得计算机执行该程序，或安装该程序到通用计算机中并使得通用计算机执行该程序，所述通用计算机可以执行各种处理。例如，所述程序可以被预先记录在记录介质中。除了从记录介质将程序安装到计算机之外，也可以通过例如LAN(局域网)或因特网接收所述程序并将其安装在诸如嵌入式硬盘等记录介质中。

在该说明书中描述的各种处理不但可根据说明书的时间顺序来执行，而且可以根据执行处理的装置的处理能力或在需要的时候平行或单独地来执行。在该说明书中，系统是多个装置的逻辑组的配置，并且不限于在同一外壳内提供具有单独配置的装置的系统。

如上面所解释的那样，根据本发明的实施例，基于通过照相机或麦克风获得的图像信息或声音信息来输入包括用户的估计位置和估计识别数据的事件信息，执行应用了设置有多个目标的多个粒子的粒子滤波处理，并基于假设的更新和选择通过滤波来产生用户的位置和识别信息。根据该实施例，即使不确定和异步的位置信息和识别信息作为输入信息被输入，也可以有效地留下最可靠的信息，并可以有效并确信地产生用户位置和用户识别信息。

本领域熟练技术人员将明白在所附权利要求书或其等同物的范围内可以依据设计要求和其他因素进行各种修改、组合、再组合和替换。

Claims

1.一种信息处理装置，包括：

多个信息输入单元，该信息输入单元输入包括实际空间中的图像信息或声音信息在内的信息；

事件检测单元，该事件检测单元通过分析从所述信息输入单元输入的所述包括实际空间中的图像信息或声音信息在内的信息来产生包括所述实际空间中存在的用户的估计位置信息和估计识别信息在内的事件信息；和

信息集成处理单元，该信息集成处理单元设置与用户的位置和识别信息相关的假设的概率分布数据，并且通过基于所述事件信息更新并选择所述假设的概率分布数据来执行包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息的产生，

其中所述信息集成处理单元输入由所述事件检测单元产生的所述事件信息，执行应用了设置有对应于虚拟用户的多个目标的多个粒子的粒子滤波处理，并产生包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息。

2.根据权利要求1的信息处理装置，其中

所述事件检测单元产生包括包含有高斯分布的用户的估计位置信息、以及指示对应于所述用户的概率值的用户置信度信息在内的事件信息，和

所述信息集成处理单元保持设置有多个目标的粒子，所述目标具有包括对应于虚拟用户的高斯分布的用户位置信息和指示对应于所述用户的概率值的用户置信度信息，并且所述信息集成处理单元计算作为在为所述各个粒子设置的所述目标和所述事件信息之间的相似性指示值的事件目标相似度，并执行将具有较高的事件目标相似度的目标优先设置为事件发生源假设目标的粒子设置处理。

3.根据权利要求2的信息处理装置，其中所述信息集成处理单元计算所述事件目标相似度和为所述各个粒子设置的粒子权重的加权总和数据作为目标权重，并执行将具有较大目标权重的目标优先设置为事件发生源假设目标的粒子设置处理。

4.根据权利要求2的信息处理装置，其中所述信息集成处理单元计算在为所述各个粒子设置的事件发生源假设目标和从所述事件检测单元输入的所述事件信息之间的相似度并针对各个粒子将对应于所述相似度的水平的值设置为粒子权重。

5.根据权利要求4的信息处理装置，其中所述信息集成处理单元执行用于优先重新选择具有较大粒子权重的粒子的重新采样处理并为该粒子执行更新处理。

6.根据权利要求1的信息处理装置，其中所述信息集成处理单元在考虑消逝时间的情况下对为所述各个粒子设置的所述目标执行更新处理。

7.根据权利要求2的信息处理装置，其中所述信息集成处理单元针对为所述各个粒子设置的事件发生源假设，执行应用了由所述事件检测单元产生的所述事件信息的更新处理。

8.根据权利要求4的信息处理装置，其中所述信息集成处理单元产生如下的目标信息，在该目标信息中为所述各个粒子设置的目标数据和所述粒子权重的计算加权总和被设置为对应于所述各个目标的用户位置信息和用户识别信息。

9.根据权利要求2的信息处理装置，其中所述信息集成处理单元根据为所述各个粒子设置的事件发生源假设目标的数量产生作为事件发生源的概率值的信号信息。

10.根据权利要求1的信息处理装置，其中所述信息集成处理单元产生具有由统一数据构成的用户位置信息和用户识别信息的临时目标，并且在所述临时目标和由所述事件检测单元产生的所述事件信息之间的相似度是大于对应于现有目标的事件目标相似度的值时，执行用于将所述临时目标重新添加到所述各个粒子的处理。

11.根据权利要求4的信息处理装置，其中所述信息集成处理单元在作为包括在为所述各个粒子设置的目标数据和所述粒子权重的计算加权总和中的用户位置信息的高斯分布数据的峰值小于预先设置的阈值时，执行用于删除所述目标的处理。

12.一种用于在信息处理装置中执行信息分析处理的信息处理方法，所述信息处理方法包括：

信息输入步骤，其中多个信息输入单元输入包括实际空间中的图像信息或声音信息在内的信息；

事件检测步骤，其中事件检测单元通过分析在所述信息输入步骤中输入的信息来产生包括所述实际空间中存在的用户的估计位置信息和估计识别信息在内的事件信息；和

信息集成处理步骤，其中信息集成处理单元设置与所述用户的位置和识别信息相关的假设的概率分布数据，并且通过基于所述事件信息更新并选择所述假设来执行包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息的产生，

其中所述信息集成处理步骤是输入由所述事件检测单元产生的所述事件信息、执行应用了设置有对应于虚拟用户的多个目标的多个粒子的粒子滤波处理、并产生包括所述实际空间中存在的所述用户的用户位置信息和用户识别信息在内的分析信息的步骤。

13.根据权利要求12的信息处理方法，其中

所述事件检测步骤是产生包括包含有高斯分布的用户的估计位置信息、以及指示对应于所述用户的概率值的用户置信度信息在内的事件信息的步骤，和

所述信息集成处理单元保持设置有多个目标的粒子，所述目标具有包括对应于虚拟用户的高斯分布的用户位置信息和指示对应于所述用户的概率值的用户置信度信息，并且

所述信息集成处理步骤是计算作为在为所述各个粒子设置的所述目标和所述事件信息之间的相似性指示值的事件目标相似度、并执行将具有较高的事件目标相似度的目标优先设置为事件发生源假设目标的粒子设置处理的步骤。

14.根据权利要求13的信息处理方法，其中所述信息集成处理步骤是计算所述事件目标相似度和为所述各个粒子设置的粒子权重的加权总和数据作为目标权重、并执行将具有较大目标权重的目标优先设置为事件发生源假设目标的粒子设置处理的步骤。

15.根据权利要求13的信息处理方法，其中所述信息集成处理步骤是计算在为所述各个粒子设置的事件发生源假设目标和从所述事件检测单元输入的所述事件信息之间的相似度、并针对各个粒子将对应于所述相似度的水平的值设置为粒子权重的步骤。

16.根据权利要求15的信息处理方法，其中所述信息集成处理步骤是执行用于优先重新选择具有较大粒子权重的粒子的重新采样处理并为该粒子执行更新处理的步骤。

17.根据权利要求12的信息处理方法，其中所述信息集成处理步骤是在考虑消逝时间的情况下对为所述各个粒子设置的所述目标执行更新处理的步骤。

18.根据权利要求13的信息处理方法，其中所述信息集成处理步骤是针对为所述各个粒子设置的事件发生源假设，执行应用了由所述事件检测单元产生的所述事件信息的更新处理的步骤。

19.根据权利要求15的信息处理方法，其中所述信息集成处理步骤是产生其中为所述各个粒子设置的目标数据和所述粒子权重的计算加权总和被设置为对应于所述各个目标的用户位置信息和用户识别信息的目标信息的步骤。

20.根据权利要求13的信息处理方法，其中所述信息集成处理步骤是根据为所述各个粒子设置的事件发生源假设目标的数量产生作为事件发生源的概率值的信号信息的步骤。

21.根据权利要求12的信息处理方法，其中所述信息集成处理步骤包括：产生具有由统一数据构成的用户位置信息和用户识别信息的临时目标、并且在所述临时目标和由所述事件检测单元产生的所述事件信息之间的相似度是大于对应于现有目标的事件目标相似度的值时，执行用于将所述临时目标重新添加到所述各个粒子的处理的步骤。

22.根据权利要求15的信息处理方法，其中所述信息集成处理步骤包括：在作为包括在为所述各个粒子设置的目标数据和所述粒子权重的计算加权总和中的用户位置信息的高斯分布数据的峰值小于预先设置的阈值时，执行用于删除所述目标的处理的步骤。