CN103106390A

CN103106390A - 信息处理设备、信息处理方法及程序

Info

Publication number: CN103106390A
Application number: CN2012104337871A
Authority: CN
Inventors: 山田敬一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-11-11
Filing date: 2012-11-02
Publication date: 2013-05-15
Also published as: US20130124209A1; JP2013104938A; US9002707B2

Abstract

本发明涉及信息处理设备、信息处理方法及程序。一种信息处理设备，包括：多个信息输入单元；事件检测单元，其基于对从所述信息输入单元输入的信息的分析，产生事件信息，所述事件信息包括存在于所述真实空间中的用户的估计的位置信息和估计的标识信息；以及信息整合处理单元，其输入所述事件信息，并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息，其中所述信息整合处理单元包括话语源概率计算单元，并且其中所述话语源概率计算单元进行以下处理：通过将基于说话场景的权重乘以来自所述事件检测单元的多条不同信息，来计算作为代表每个目标的话语源概率的指标值的话语源分数。

Description

信息处理设备、信息处理方法及程序

技术领域

本公开涉及信息处理设备、信息处理方法及程序，更具体而言，涉及通过从外界输入输入信息，如图像、声音等，基于输入信息分析外部环境，特别是分析正在说话的人的位置等的信息处理设备、信息处理方法及程序。

本公开涉及识别正在说话的用户并且当多个人同时说话时分析每个话语的信息处理设备、信息处理方法及程序。

背景技术

在人和诸如PC或机器人等信息处理设备之间进行交互式过程（例如通信过程或交互式过程）的系统，被称为人机交互系统。在人机交互系统中，诸如PC或机器人等的信息处理设备通过输入图像信息或声音信息基于输入信息进行分析，以识别出人的动作，如人的行为或言语。

当人发送除了言语以外的信息时，姿态、视线、面部表情等的各种信道被用作信息发送信道。如果可以在机器中分析所有这些信道，那么人和机器之间的通信可以达到的水平与人与人之间通信水平相同。能够分析来自这些多个信道（也被称为模态或模式）的输入信息的界面被称为多模式界面，并且近年来对这种界面进行了广泛的研究和开发。

例如，当通过输入由照相机拍摄的图像信息和由麦克风获得的声音信息进行分析时，为了进行更专门的分析，从位于不同点的多个照相机和多个麦克风输入大量信息是有效的。

例如，采用如下系统作为专用系统。信息处理设备（电视机）通过照相机和麦克风接收或被输入位于该电视机前方的多个用户（爸爸、妈妈、妹妹和弟弟）的图像和语音，并且分析正在说话的每个用户的位置等，从而可以实现能够根据分析信息进行处理的系统，例如，照相机针对说话的用户放大、针对说话的用户进行恰当的响应等。

公开了现有的人机互动系统的相关技术的例子包括例如日文未审查的专利申请2009-31951号公报和日本未审查的专利申请2009-140366号公报。在该相关技术中，进行以下处理，在该处理中，以概率性的方式整合来自多信道（模式）的信息，并且确定多个用户中每个用户的位置，所述多个用户都是谁，以及谁正在发出信号，即，关于所述多个用户中的每个用户来确定谁正在说话。

例如，当确定谁正在发出信号时，设置与所述多个用户相对应的虚拟目标（tID=1至m），并且根据对照相机拍摄的图像数据或麦克风获取的声音信息的分析结果来计算各个目标是话语源的概率。

具体而言，例如，计算以下各量，

(a)可通过麦克风获得的语言事件的声源方向信息、可从说话者标识(ID)信息获得的用户位置信息和只能从用户标识信息获得的目标tID的话语源概率P(tID)，以及

(b)基于可通过照相机获得的图像可通过面部识别处理获得的面部属性分数[S(tID)]的面积S_Δt(tID)。

其中计算(a)和(b)，从而基于权重α，使用α作为预设的分配权重系数，通过相加或相乘，计算每个目标(tID=1至m)的说话者概率Ps(tID)或Pp(tID)。

另外，例如在日本未审查的专利申请2009-140366号公报中描述了该处理的细节。

在上述相关技术中说话者概率的计算过程中，如上所述，必须预先调节权重系数α。预先调节该权重系数是麻烦的，并且当该权重系数没有被调节到适当的数值时，存在严重影响说话者概率计算结果正确性的问题。

发明内容

希望提供一种信息处理设备、信息处理方法和程序，其可以在用于对来自多个信道（模态或模式）的输入信息进行分析的系统中，通过进行用于整合通过针对包括在诸如图像信息、声音信息等各种输入信息中的不确定信息进行随机处理更准确地估计的信息的处理，更具体而言，进行诸如周围区域中人的位置等的特殊处理，从而可以提高鲁棒性，并且可以进行高度准确的分析。

另外，希望提供一种用于识别正在说话的用户并且当多个人同时说话时分析每个话语的信息处理设备、信息处理方法和程序。

根据本公开的第一实施例，提供一种信息处理设备，其包括：多个信息输入单元，其输入真实空间的观测信息；事件检测单元，其基于对从所述信息输入单元输入的信息的分析，产生包括事件信息，事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息；以及信息整合处理单元，其被输入所述事件信息，并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息，其中所述信息整合处理单元包括话语源概率计算单元，并且其中所述话语源概率计算单元进行以下处理：通过将基于说话场景的权重乘以从所述事件检测单元输入的多条不同信息，来计算作为代表每个目标的话语源概率的话语源分数的指标值。

在所述信息处理设备中，所述话语源概率计算单元可以接收对应于话语事件的(a)第一用户位置信息（声源方向信息）和(b)第一用户标识信息（说话者标识信息）的输入，作为来自构成所述事件检测单元的语音事件检测单元的输入信息，可以接收(a)第二用户位置信息（面部位置信息）、(b)第二用户标识信息（面部标识信息）和(c)唇部运动信息的输入，作为基于来自构成所述事件检测单元的图像事件检测单元的输入信息产生的目标信息，并且进行通过采用上述信息中的至少一条基于所述输入信息计算所述话语源分数的处理。

在所述信息处理设备中，所述话语源概率计算单元可以应用声源方向信息D、说话者标识信息S和唇部运动信息L，并且根据以下话语源分数P的计算等式P=D^α·S^β·L^γ进行计算所述话语源分数的处理，其中α是声源方向信息的权重系数，β是说话者标识信息的权重系数，γ是唇部运动信息的权重信息，并且α+β+γ=1。

在所述信息处理设备中，所述话语源概率计算单元可以根据说话场景进行调节所述权重系数α、β和γ的处理。

在所述信息处理设备中，所述话语源概率计算单元可以根据以下两个条件进行调节所述权重系数α、β和γ的处理：条件1，它是仅来自一个目标的单个话语，还是来自两个目标的同时话语；以及条件2，这两个目标的位置相互靠近，还是这两个目标的位置相互远离。

在所述信息处理设备中，所述话语源概率计算单元可以进行调节所述权重系数α、β和γ的处理，使得在存在两个具有话语概率的目标并且这两个目标同时说话的情况下，所述唇部运动信息的权重系数γ小。

在所述信息处理设备中，所述话语源概率计算单元可以进行调节所述权重系数α、β和γ的处理，使得在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且只有一个目标说话的情况下，所述声源方向信息的权重系数α小。

在所述信息处理设备中，所述话语源概率计算单元可以进行调节所述权重系数α、β和γ的处理，使得在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且这两个目标同时说话的情况下，所述唇部运动信息的权重系数γ和所述声源方向信息的权重系数α小。

根据本公开的第二实施例，提供一种在信息处理设备中进行信息分析处理的信息处理方法，该方法包括：通过多个信息输入单元接收真实空间的观测信息的输入；通过事件检测单元基于对从所述信息输入单元输入的信息的分析，产生事件信息，事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息；以及通过信息整合处理单元接收事件的输入，并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息，其中在所述目标信息的产生中，进行以下处理：通过将基于说话场景的权重乘以在所述事件信息的产生中输入的多条不同信息，来计算作为代表每个目标的话语源概率的指标值的话语源分数。

根据本公开的第三实施例，提供一种使信息处理设备执行以下信息分析的程序：通过多个信息输入单元接收对真实空间的观测信息的输入；通过事件检测单元基于对从所述信息输入单元输入的信息的分析，产生事件信息，事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息；以及通过信息整合处理单元接收事件的输入，并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息，其中在所述目标信息的产生中，进行以下处理：通过将基于说话场景的权重乘以在所述事件信息的产生中输入的多条不同信息，来计算作为代表每个目标的话语源概率的指标值的话语源分数。

本公开的程序是可以以计算机可读的格式提供在例如信息处理设备中或者能够执行各种程序代码的计算机系统中的存储介质中或者通信介质中的程序。通过以计算机可读格式提供该程序，在该信息处理设备或该计算机系统中实现了与该程序相对应的处理。

通过基于附图的详细描述，可以阐明本公开的其它目的、特征和优点。说明书中的系统是多个设备的逻辑组配置，并且本公开不局限于在此情况下给出的具有每个配置的设备。

根据本公开一实施例的配置，实现了基于不确定的并且不同时的输入信息通过信息分析产生用户位置、标识信息、说话者信息等的配置。

具体而言，该信息处理设备可以包括信息整合处理单元，其接收包括基于图像信息或语音信息的用户的估计的位置和估计的识别数据的事件信息的输入，并且基于输入的事件信息和代表事件产生源的概率值的信号信息产生包括每个用户的位置和用户标识信息的目标信息。该信息整合处理单元包括话语源概率计算单元，该话语源概率计算单元通过将基于说话场景的权重乘以从事件检测单元输入的多条不同信息进行计算话语源分数作为代表每个目标的话语源概率的指标值的处理。

根据该处理，例如，即使在两个目标（两个人）同时说话的情况下，仍可以高度精确地估计出谁正在说话。

附图说明

图1是示出根据本公开一实施例的信息处理设备进行的处理的概要的图。

图2是示出根据本公开一实施例的信息处理设备的配置和处理的图。

图3A和图3B是示出由语音事件检测单元和图像事件检测单元所产生并且被输入到信息整合处理单元的信息例子的图。

图4A至图4C是示出应用粒子滤波器的基本处理例子的图。

图5是示出在本处理例子中设置的粒子配置的图。

图6是示出包括在各个粒子中的每个目标的目标数据配置的图。

图7是示出目标信息的配置和产生过程的图。

图8是示出目标信息的配置和产生过程的图。

图9是示出目标信息的配置和产生过程的图。

图10是示出由信息整合处理单元进行的处理序列的流程图。

图11是详细示出粒子权重的计算过程的图。

图12是示出说话者指定过程的图。

图13是示出由话语源概率计算单元进行的处理序列例子的流程图。

图14是示出由话语源概率计算单元进行的计算话语源分数的过程的图。

图15是示出由话语源概率计算单元进行的话语源分数的计算处理序列的流程图。

图16A至图16D是示出在由话语源概率计算单元进行的计算话语源分数的过程中作为权重系数的确定要素的说话场景的例子的图。

图17是示出在由话语源概率计算单元进行的计算话语源分数的过程中确定权重系数的处理例子的图。

图18A和图18B是示出在由话语源概率计算单元进行的计算话语源分数的过程中确定权重系数的处理例子的图。

具体实施方式

下面结合附图详细描述根据本公开的示例性实施例的信息处理设备、信息处理方法和程序。将按照以下条目进行说明：

1．由本公开的信息处理设备进行的处理的概要

2．本公开的信息处理设备的配置和处理的细节

3．由本公开的信息处理设备进行的处理序列

4．由话语源概率计算单元进行的处理的细节

5．计算话语源分数的处理

6．本公开的配置的总结

1．由本公开的信息处理设备进行的处理的概要

首先描述本公开的信息处理设备进行的处理的概要。

本公开实现了以下配置，在该配置中当计算话语源概率时，针对与输入的事件信息中的用户话语相对应的语音事件信息使用标识符，从而不需要预先调节背景技术中描述的权重系数。

具体而言，使用用于识别每个目标是否是话语源的标识符，或者用于针对仅两条目标信息确定这两条目标信息中的哪一条更像是话语源的标识符。使用包括在语音事件信息中的声源方向信息或者说话者标识信息、包括在事件信息内的图像事件信息中的唇部运动信息以及包括在目标信息中的目标位置或目标总数作为对标识符的输入信息。通过在计算话语源概率时使用标识符，不需要预先调节背景技术中描述的权重系数，从而可以计算出更适当的话语源概率。

首先，参照图1描述由根据本公开的信息处理设备进行的处理概要。本公开的信息处理设备100输入来自传感器的图像信息和语音信息，并且基于输入的信息对环境进行分析，其中传感器在此例如是照相机21和多个麦克风31至34，在其中实时输入观测信息。具体而言，进行用户1，11和用户2，12的位置分析和相应位置的用户的识别。

在图中所示的例子中，例如，在用户1，11至用户2，12是家庭中的兄妹的情况下，信息处理设备100对从照相机21和多个麦克风31至34输入的图像信息和语音信息进行分析，从而识别这两个用户1和2的位置，并且确定每个位置中的用户是妹妹还是哥哥。识别结果被用于各种处理。例如，识别结果被用于如下处理：照相机对说过话的用户进行放大；电视机对谈话的用户进行响应等等。

另外，作为根据本公开的信息处理设备100的主要处理，基于来自多个信息输入单元（照相机21和麦克风31至34）的输入信息进行用户位置识别和用户指定处理作为用户识别处理。识别结果的应用不受具体限制。从照相机21和多个麦克风31至34输入的图像信息和语音信息中包括各种不确定的信息。在根据本公开的信息处理设备100中，对包括在输入信息中的不确定信息进行随机处理，并且将经过随机处理的信息整合为估计是高度准确的信息。通过该估计处理，提高了进行高准确度分析的鲁棒性。

2.本公开的信息处理设备的配置和处理细节

在图2中示出了信息处理设备100的配置例子。信息处理设备100包括图像输入单元（照相机）111和多个语音输入单元（麦克风）121a至121d作为输入装置。信息处理设备100输入来自图像输入单元（照相机）111的图像信息，并且输入来自语音输入单元（麦克风）121的语音信息，从而基于该输入信息进行分析。如图1中所示，所述多个语音输入单元（麦克风）121a至121d中的每一个被设置在不同的位置中。

从多个麦克风121a至121d输入的语音信息经由语音事件检测单元122输入到信息整合处理单元131。语音事件检测单元122分析并整合从设置在多个不同位置中的多个语音输入单元（麦克风）121a至121d输入的语音信息。具体而言，基于从语音输入单元（麦克风）121a至121d输入的语音信息生成产生声音的位置和表示哪个用户产生该声音的用户标识信息，并且将所生成的信息输入到信息整合处理单元131。

另外，作为信息处理设备100进行的特殊处理，在图1中所示的存在多个用户中的环境中，识别每个用户A和B的位置以及用户A和B中哪一个说话了，也就是说，进行用户位置和用户行为识别。具体而言，该特殊处理是用于指定诸如正在说话的人（说话者）等事件产生源的处理。

语音事件检测单元122分析从设置在多个不同位置中的多个语音输入单元（麦克风）121a至121d输入的语音信息，并且产生语音产生源的位置信息作为概率分布数据。具体而言，语音事件检测单元122针对声源方向产生预期值和分布数据N(m_e,σ_e)。另外，语音事件检测单元122基于与预先注册的用户语音的特征信息的比较，产生用户标识信息。该标识信息还被产生作为概率性的估计值。由于预先核实的多个用户的语音的特征信息被注册在语音事件检测单元122中，所以进行输入的语音与注册的语音之间的比较，并且进行确定哪个用户的语音与输入的语音相对应的概率高的处理，从而计算出关于所有注册用户的后验概率或分数。

语音事件检测单元122以这种方式分析从设置在多个不同位置中的多个语音输入单元（麦克风）121a至121d输入的语音信息，产生“整合语音事件信息”，“整合语音事件信息”由作为语音产生源的位置信息的概率分布数据和由概率性的估计值构成的用户标识信息配置的，并且将产生的整合语音事件信息输入到信息整合处理单元131。

同时，从图像输入单元（照相机）111输入的图像信息经由图像事件检测单元112输入到信息整合处理单元131。图像事件检测单元112分析从图像输入单元（照相机）111输入的图像信息，提取包括在该图像中的人的面部，并且产生该面部的位置信息作为概率分布数据。具体而言，产生该面部的位置或方位的预期值和分布数据N(m_e,σ_e)。

另外，图像事件检测单元112通过与预先注册的用户面部的特征信息进行比较来识别面部，并且产生用户标识信息。该标识信息被产生作为概率性的估计值。由于在图像事件检测单元112中注册了预先核实的多个用户的面部的特征信息，所以在从输入的图像提取的面部区域图像的特征信息和注册的面部图像的特征信息之间进行比较，确定哪个用户面部与输入的图像相对应的概率高，从而计算出关于所有注册用户的后验概率或分数。

另外，图像事件检测单元112计算与包括在从图像输入单元（照相机）111输入的图像中的面部相对应的属性分数，例如基于嘴部区域的运动产生的面部属性分数。

可以进行设置以计算以下各种面部属性分数：

(a)与包括在该图像中的面部的嘴部区域的运动相对应的分数，

(b)根据包括在该图像中的面部是否是笑脸设置的分数，

(c)根据包括在该图像中的面部是男性面部还是女性面部设置的分数，以及

(d)根据包括在该图像中的面部是成人面部还是小孩面部设置的分数。

在下面描述的实施例中，描述计算(a)与包括在该图像中的面部的嘴部区域的运动相对应的分数，并且将其用作面部属性分数的例子。也就是说，计算与面部的嘴部区域的运动相对应的分数作为面部属性分数，并且基于该面部属性分数进行说话者的指定。

图像事件检测单元112从在从图像输入单元（照相机）111输入的图像输入中包括的面部区域中识别嘴部区域，并且检测该嘴部区域的运动，从而在确定检测到与运动检测结果相对应的分数的情况下，例如，当检测到嘴部区域的运动时，计算出具有较高值的分数。

另外，进行嘴部区域的运动检测处理，作为应用VSD（Visual SpeechDetection，视觉语音检测）的处理。应用日本未审查的专利申请2005-157679号公报中公开的方法，该申请的申请人与本公开的申请人为同一申请人。具体而言，例如，从图像输入单元（照相机）111输入的图像中检测到的面部图像中检测唇部的左右角，在第N帧和第N+1帧中对准唇部的左右角之后计算亮度差异，并且处理该差异值作为阈值，从而检测唇部的运动。

另外，还可以将该相关技术应用于在语音事件检测单元122或图像事件检测单元112中进行的语音识别处理、面部检测处理或者面部识别处理。例如，在2004年第十届图像感测学术研讨会论文集的547~552页的作者为Sabe Kotaro,Hidai Kenichi的标题为“Learning for real-timearbitrary posture face detectors using pixel difference characteristics”的文章和日本未审查的专利申请2004-302644号公报（标题为：Faceidentification apparatus,Face identification method,Recording medium,and Robot apparatus）公开了面部检测处理和面部识别处理的应用。

信息整合处理单元131基于来自语音事件检测单元122或图像事件检测单元112的输入信息进行概率性地估计多个用户中的每一个是谁，多个用户中每一个的位置以及谁正在产生诸如语音等信号的处理。

具体而言，信息整合处理单元131基于从语音事件检测单元122或图像事件检测单元112输入的信息将以下每条信息输出到处理确定单元132：(a)“目标信息”，其作为与多个用户中每一个的位置以及他们是谁有关的估计信息；以及(b)“信号信息”，其作为例如正在说话的用户等的事件产生源。

另外，该信号信息中包括以下两条信号信息：(b1)基于语音事件的信号信息和(b2)基于图像事件的信号信息。

信息整合处理单元131的目标信息更新单元141通过输入在图像事件检测单元112中检测到的图像事件信息使用例如粒子滤波器进行目标更新，并且基于图像事件产生该目标信息和该信号信息，从而将产生的信息输出到处理确定单元132。另外，作为更新结果获得的目标信息也被输出到话语源概率计算单元142。

信息整合处理单元131的话语源概率计算单元142通过输入在语音事件检测单元122中检测到的语音事件信息使用标识模式（标识符）计算每个目标是输入的语音事件的产生源的概率。话语源概率计算单元142基于计算出的值产生基于语音事件的信号信息，并且将产生的信息输出到处理确定单元132。

稍后详细描述该处理。

处理确定单元132接收包括由信息整合处理单元131产生的目标信息和信号信息的识别处理结果，使用该识别处理结果进行处理。例如，进行诸如照相机对例如说过话的用户进行放大或者电视机对说过话的用户作出响应等处理。

如上所述，语音事件检测单元122产生语音产生源的位置信息的概率分布数据，更具体而言，针对声源方向产生预期值和分布数据N(m_e,σ_e)。另外，语音事件检测单元122基于例如与预先注册的用户特征信息的比较结果产生用户标识信息，并且将产生的信息输入到信息整合处理单元131。

另外，图像事件检测单元112提取包括在该图像中的人的面部，并且产生该面部的位置信息作为概率分布数据。具体而言，图像事件检测单元112针对面部的位置和方向产生预期值和分布数据N(m_e,σ_e)。另外，图像事件检测单元112基于与预先注册的用户面部特征信息进行的比较处理产生用户标识信息，并且将产生的信息输入到信息整合处理单元131。另外，图像事件检测单元112根据图像输入单元（照相机）111输入的图像内的面部区域（例如，嘴部区域）的运动，检测面部属性分数作为面部属性信息，计算与嘴部区域的运动检测结果相对应的分数，更具体而言，当检测到嘴部区域的显著运动时计算出的面部属性分数值高，并且将计算出的分数输入到信息整合处理单元131。

参照图3A和图3B描述由语音事件检测单元122和图像事件检测单元112产生的并且被输入到信息整合处理单元131的信息的例子。

在本公开的配置中，图像事件检测单元112产生数据，如，(Va)关于面部的位置和方向的预期值和分布数据N(m_e,σ_e)；(Vb)基于面部图像特征信息的用户标识信息；以及(Vc)与检测到的面部属性相对应的分数，例如基于嘴部区域的运动产生的面部属性分数，并且将所产生的数据输入到信息整合处理单元131。

另外，语音事件检测单元122将诸如(Aa)关于声源方向的预期值和分布数据N(mz_e,σ_e)以及(Ab)基于语音特征的用户标识信息等数据输入到信息整合处理单元131。

图3A中示出包括与参照图1描述的相同的照相机和麦克风的真实环境的例子，并且存在多个用户1至k，201至20k。在该环境中，当这些用户中的任何一个说话时，语音都通过麦克风输入。另外，照相机连续拍摄图像。

由语音事件检测单元122和图像事件检测单元112产生的并且被输入到信息整合处理单元131的信息被分为三类，如：(a)用户位置信息，(b)用户标识信息（面部标识信息或者说话者标识信息）以及(c)面部属性信息（面部属性分数）。

也就是说，(a)用户位置信息是(Va)由图像事件检测单元112产生的关于面部位置或方向的预期值和分布数据N(m_e,σ_e)以及(Aa)由语音事件检测单元122产生的关于声源方向的预期值和分布数据(m_e,σ_e)的整合信息。

另外，(b)用户标识信息（面部标识信息或说话者标识信息）是(Vb)由图像事件检测单元112产生的基于面部图像的特征信息的用户标识信息以及(Ab)由语音事件检测单元122产生的基于语音特征信息的用户标识信息的整合信息。

(c)面部属性信息（面部属性分数）对应于以下分数，该分数与图像事件检测单元112产生的检测到的面部属性(Vc)相对应，例如基于唇部区域的运动产生的面部属性分数。

针对每个事件产生这三类信息，如(a)用户位置信息，(b)用户标识信息（面部标识信息或者说话者标识信息）以及(c)面部属性信息（面部属性分数）。

当从语音输入单元（麦克风）121a至121d输入语音信息时，语音事件检测单元122基于该语音信息产生上述(a)用户位置信息和(b)用户标识信息，并且将产生的信息输入到信息整合处理单元131。图像事件检测单元112基于从图像输入单元（照相机）111以预先确定的一定帧间隔输入的图像信息产生(a)用户位置信息、(b)用户标识信息以及(c)面部属性信息（面部属性分数），并且将产生的信息输入到信息整合处理单元131。另外，在本实施例中，图像输入单元（照相机）111示出了设置单个照相机并且该单个照相机拍摄多个用户的图像的例子。在此情况下，针对包括在单个图像中的多个面部中的每一个产生(a)用户位置信息和(b)用户标识信息，并且产生的信息被输入到信息整合处理单元131。

将基于从语音输入单元（麦克风）121a至121d输入的语音信息，来描述语音事件检测单元122产生(a)用户位置信息和(b)用户标识信息（说话者标识信息）的过程。

[语音事件检测单元122产生(a)用户位置信息的过程]

语音事件检测单元122基于从语音输入单元（麦克风）121a至121d输入的语音信息来生成产生所分析的语音的用户的位置的估计信息，即，说话者的位置。也就是说，语音事件检测单元122产生估计说话者所在的位置，作为从预期值（平均值）[m_e]和分布值[σ_e]获得的高斯分布（正态分布）数据N(m_e,σ_e)。

[语音事件检测单元122产生(b)用户标识信息（说话者标识信息）的过程]

语音事件检测单元122通过比较从语音输入单元（麦克风）121a至121d输入的语音的特征信息与预先注册的用户1至k的语音的特征信息，基于该语音信息估计说话者是谁。具体而言，计算说话者是用户1至k中各个用户的概率。计算出的值(b)被用作用户标识信息（说话者标识信息）。例如，最高分数分配给注册的语音特征最靠近输入语音的特征的用户，并且最低分数（例如，零）分配给注册的语音特征与输入语音的特征最不同的用户，从而产生设定了输入语音属于各个用户的概率的数据，并且所产生的数据被用作(b)用户标识信息（说话者标识信息）。

接下来描述图像事件检测单元112基于从图像输入单元（照相机）111输入的图像信息产生诸如以下信息的过程：(a)用户位置信息、(b)用户标识信息（面部标识信息）和(c)面部属性信息（面部属性分数）。

[图像事件检测单元112产生(a)用户位置信息的过程]

图像事件检测单元112针对包括在从图像输入单元（照相机）111输入的图像信息中的每个面部产生面部位置的估计信息。也就是说，产生估计从该图像检测到的面部所处的位置，作为根据预期值（平均值）[m_e]和分布值[σ_e]获得的高斯分布（正态分布）数据N(m_e,σ_e)。

[图像事件检测单元112产生(b)用户标识信息（面部标识信息）的过程]

图像事件检测单元112基于从图像输入单元（照相机）111输入的图像信息检测包括在该图像信息中的面部，并且通过比较输入的图像信息与预先注册的每个用户1至k的面部特征信息来估计每个面部是谁。具体而言，计算所提取的每个面部是用户1至k中各个用户的概率。计算出的值被用作(b)用户标识信息（面部标识信息）。例如，最高分数分配给具有与在输入图像中包括的面部特征最接近的注册面部特征的用户，并且最低分数（例如，零）分配给具有与输入的面部特征最不同的注册面部特征的用户，从而产生设定了输入语音属于各个用户的概率的数据，并且所产生的数据被用作(b)用户标识信息（面部标识信息）。

[图像事件检测单元112产生(c)面部属性信息（面部属性分数）的过程]

图像事件检测单元112基于从图像输入单元（照相机）111输入的图像信息来检测包括在图像信息中的面部区域，并且计算检测到的面部的属性，具体而言，计算属性分数，如面部的嘴部区域的上述运动、检测到的面部是否是笑脸、检测到的面部是男性面部还是女性面部、检测到的面部是否是成人面部等。然而，在该处理例子中，将描述计算与包括在该图像中的面部的嘴部区域的运动相对应的分数并且将该分数作为面部属性分数的例子。

作为计算与面部的唇部区域的运动相对应的分数的处理，图像事件检测单元112从图像输入单元（照相机）111输入的图像中检测到的面部图像中检测唇部的左右角，在将第N帧与第(N+1)帧中唇部的左右角对准之后，计算亮度差异，并且处理该差异值作为阈值。通过该处理，检测唇部的运动，并且以唇部运动越大获得的分数越高的方式设置面部属性分数。

另外，当从照相机拍摄的图像中检测到多个面部时，图像事件检测单元112根据检测到的作为单独事件的每个面部产生与每个面部相对应的事件信息。也就是说，图像事件检测单元112产生包括以下信息的事件信息并且将它们输入到信息整合处理单元131。图像事件检测单元112产生诸如以下信息：(a)用户位置信息、(b)用户标识信息（面部标识信息）和(c)面部属性信息（面部属性分数），并且将所产生的信息输入到信息整合处理单元131。

在本实施例中，描述了使用单个照相机作为图像输入单元111的例子，但是也可以使用多个照相机拍摄的图像。在此情况下，图像事件检测单元112针对包括在多个照相机拍摄的每个图像中的每个面部产生以下信息：(a)用户位置信息、(b)用户标识信息（面部标识信息）和(c)面部属性信息（面部属性分数），并且将所产生的信息输入到信息整合处理单元131。

接下来，描述由信息整合处理单元131进行的处理。信息整合处理单元131按照以下顺序输入如上所述的来自语音事件检测单元122和图像事件检测单元112的图3B中所示的三条信息，即，(a)用户位置信息、(b)用户标识信息（面部标识信息或者说话者标识信息）和(c)面部属性信息（面部属性分数）。然而，另外可以针对上述每条信息的输入时序进行各种设置，例如，当新的语音被输入时，语音事件检测单元122产生并输入上述(a)和(b)的每条信息作为语音事件信息，从而图像事件检测单元112以特定帧周期单位产生并输入信息(a)(b)和(c)中的每一条作为语音事件信息。

将参照图4A至图4C描述由信息整合处理单元131进行的处理。

如上所述，信息整合处理单元131包括目标信息更新单元141和话语源概率计算单元142，并且进行以下处理。

目标信息更新单元141输入在图像事件检测单元112中检测到的图像事件信息，例如，使用粒子滤波器进行目标更新处理，并且基于图像事件产生目标信息和信号信息，从而将产生的信息输出到处理确定单元132。另外，该目标信息作为更新结果被输出到话语源概率计算单元142。

话语源概率计算单元142输入在语音事件检测单元122中检测到的语音事件信息，并且使用标识模式（标识符）计算每个目标是输入语音事件的话语源的概率。话语源概率计算单元142基于计算出的值产生基于该语音事件的信号信息，并且将产生的信息输出到处理确定单元132。

首先，描述由目标信息更新单元141进行的处理。

信息整合处理单元131的目标信息更新单元141进行如下处理：通过针对用户的位置和标识信息设置假定的概率分布数据来只留下更有可能的假定；以及基于输入信息更新所述假定。作为该处理方案，进行应用粒子滤波器的处理。

通过设置与各种假定相对应的大量的粒子进行应用粒子滤波器的处理。在本实施例中，设置与用户的位置和用户是谁有关的假定相对应的大量的粒子，并且基于来自图像事件检测单元112的图3B中所示的三条信息，即，(a)用户位置信息、(b)用户标识信息（面部标识信息或者说话者标识信息）和(c)面部属性信息（面部属性分数），来进行增加所述假定的更可能的权重的处理。

将参照图4A至图4C描述应用粒子滤波器的基本处理例子。例如，图4A至图4C中所示的例子示出了通过粒子滤波器估计与用户相对应的存在位置的处理例子。在图4A至图4C中所示的例子中，进行估计用户301在任意直线上的一维区域内的位置的处理。

如图4A中所示，初始假定(H)变为均匀的粒子分布数据。接下来，获取图像数据302，并且获取基于所获取的图像的用户301存在的概率分布数据作为图4B的数据。基于以所获取的图像为基础的概率分布数据，更新图4A的粒子分布数据，从而获得图4C的更新后的假定概率分布数据。基于输入信息重复进行该处理，从而获得该用户的更可能的位置信息。

另外，例如在[D.Schulz,D.Fox,and J.Hightower.People Trackingwith Anonymous and ID-sensors Using Rao-Blackwellised Particle Filters.Proc.of the International Joint Conference on Artificial Intelligence(IJCAI-03)]中描述了使用粒子滤波器的处理细节。

在图4A至图4C中所示的处理例子中，仅使用图像数据并且仅针对用户的存在位置处理输入信息。因此，每个粒子只具有关于用户301的存在位置的信息。

信息整合处理单元131的目标信息更新单元141从图像事件检测单元112获取图3B中所示的信息，即，(a)用户位置信息、(b)用户标识信息（面部标识信息或者说话者标识信息）和(c)面部属性信息（面部属性分数），并且确定多个用户的位置和所述多个用户中的每一个是谁。因此，在应用粒子滤波器的处理中，信息整合处理单元131设置与关于用户的位置和用户是谁的假定相对应的大量粒子，从而在图像事件检测单元112中基于图3B中所示的两条信息进行粒子更新。

将参照图5描述信息整合处理单元131通过输入来自语音事件检测单元122和图像事件检测单元112的图3B中所示的以下三条信息来进行的粒子更新处理例子，这三条信息即，(a)用户位置信息、(b)用户标识信息（面部标识信息或者说话者标识信息）和(c)面部属性信息（面部属性分数）。

另外，下面描述的粒子更新处理将被描述为在信息整合处理单元131的目标信息更新单元141中只使用图像事件信息进行的处理例子。

将描述粒子的配置。信息整合处理单元131的目标信息更新单元141具有预定数目m个粒子。图5中所示的粒子是1至m。在每个粒子中，粒子ID（pID=1至m）被设置为标识符。

在每个粒子中，设置与虚拟对象相对应的多个目标tID=1,2，...,n。在本实施例中，将比估计的真实空间中存在的人数多的多个“n个”与虚拟用户相对应的目标设置为每个粒子。m个粒子中的每一个按照目标单位的目标数目保持数据。在图5中所示的例子中，每个粒子中包括n个（n=2）目标。

信息整合处理单元131的目标信息更新单元141输入来自图像事件检测单元112的图3B中所示的事件信息，即，(a)用户位置信息、(b)用户标识信息（面部标识信息或者说话者标识信息）和(c)面部属性信息（面部属性分数），并且进行m个粒子的更新（pID=1至m）。

图5中所示的由信息整合处理单元131设置的包括在每个粒子1至m中的每个目标1至n可以预先与每个输入事件信息条目（eID=1至k）相关联，并且根据该关联性对选择的与输入事件相对应的目标进行更新。具体而言，例如，通过将目标与每个面部图像事件相关联，对在图像事件检测单元112中检测到的面部图像作为单独事件进行更新处理。

将描述具体的更新处理。例如，图像事件检测单元112基于从图像输入单元（照相机）111以预先确定的一定帧时间间隔输入的图像信息，产生(a)用户位置信息、(b)用户标识信息和(c)面部属性信息（面部属性分数），并且将产生的信息输入到信息整合处理单元131。

在该实例中，当图5中所示的图像帧350是被检测到的一帧事件时，该图像帧中包括与面部图像的数目相对应的事件。也就是说，检测到与图5中所示的第一面部图像351相对应的事件1（eID=1）和与第二面部图像352相对应的事件2（eID=2）。

图像事件检测单元112针对每个事件（eID=1,2，...）产生(a)用户位置信息、(b)用户标识信息（面部标识信息或者说话者标识信息）和(c)面部属性信息（面部属性分数），并且将产生的信息输入到信息整合处理单元131。也就是说，所产生的信息是与图5中所示的事件相对应的信息361和362。

在信息整合处理单元131的目标信息更新单元141中设置的每个粒子1至m中包括的每个目标1至n能够与每个事件（eID=1至k）相关联，并且具有预先设置更新每个粒子中所包括的哪个目标的配置。另外，与每个事件（eID=1至k）相对应的目标（tID）的关联性被设置为不重叠。也就是说，通过获取的事件来产生事件产生源假定，使得在每个粒子中不发生重叠。

在图5中所示的例子中，

（1）粒子1（pID=1）是[事件ID=1(eID=1)]=[目标ID=1(tID=1)]的对应目标和[事件ID=2(eID=2)]=[目标ID=2(tID=2)]的对应目标，

（2）粒子2（pID=2）是[事件ID=1(eID=1)]=[目标ID=1(tID=1)]的对应目标和[事件ID=2(eID=2)]=[目标ID=2(tID=2)]的对应目标，

（m）粒子m（pID=m）是[事件ID=1(eID=1)]=[目标ID=2(tID=2)]的对应目标和[事件ID=2(eID=2)]=[目标ID=1(tID=1)]的对应目标。

以这种方式，在信息整合处理单元131的目标信息更新单元141中设置的每个粒子1至m中所包括的每个目标1至n能够预先与每个事件（eID1至k）相关联，并且具有根据每个事件ID确定更新每个粒子中所包括的哪个目标的配置。例如，通过图5中所示的[事件ID=1(eID=1)]的事件对应信息361，在粒子1（pID=1）中只选择性地更新目标ID=1(tID=1)的数据。

类似地，通过图5中所示的[事件ID=1(eID=1)]的事件对应信息361，在粒子2（pID=2）中只选择性地更新目标ID=1(tID=1)的数据。另外，通过图5中所示的[事件ID=1(eID=1)]的事件对应信息361，在粒子m（pID=m）中只选择性地更新目标ID=2(tID=2)的数据。

图5中所示的事件产生源假定数据371和372是在每个粒子中设置的事件产生源假定数据，并且根据与在每个粒子中设置事件产生源假定有关的信息来确定更新与该事件ID对应的更新目标。

将参照图6描述每个粒子中所包括的目标数据的每个包。在图6中，示出了图5中所示的粒子1（pID=1）中所包括的单个目标375（目标ID：tID=n）的目标数据的配置。如图6中所示，目标375的目标数据由以下数据配置而成，即，(a)与每个目标相对应的存在位置的概率分布[高斯分布：N(m_1n,σ_1n)]和(b)表示每个目标是谁的用户置信度信息(uID)

uID_1n1=0.0

uID_1n2=0.1

uID_1nk=0.5。

另外，在上面的(a)中所示的高斯分布：N(m_1n,σ_1n)中[m_1n,σ_1n]的(1_n)表示作为与粒子ID:pID=1中的目标ID:tID=n相对应的存在概率分布的高斯分布。

另外，在上面的(b)中所示的用户置信度信息(uID)的[uID_ln1]中包括的(ln1)表示粒子ID：pID=1中目标ID：tID=n的用户是用户1的概率。也就是说，目标ID=n的数目表示是用户1的概率是0.0，是用户2的概率是0.1，…，是用户k的概率是0.5。

再次参考图5，继续描述在信息整合处理单元131的目标信息更新单元141中设置的粒子。如图5中所示，信息整合处理单元131的目标信息更新单元141设置预定数目m个粒子（pID=1至m），并且每个粒子具有例如如下目标数据：(a)与每个目标相对应的存在位置的概率分布[高斯分布：N(m,σ)]，以及(b)关于估计真实空间中存在的每个目标（tID=1至n），表示每个目标是谁的用户置信度信息(uID)。

信息整合处理单元131的目标信息更新单元141输入来自语音事件检测单元122和图像事件检测单元112的图3B中所示的事件信息（eID=1，2…），即，(a)用户位置信息、(b)用户标识信息（面部标识信息或者说话者标识信息）和(c)面部属性信息（面部属性分数[S_eID]），并且对与预先设置在每个粒子中的事件相对应的目标进行更新。

另外，要被更新的目标是包括在目标数据的每个包中的数据，即，(a)用户位置信息和(b)用户标识信息（面部标识信息或者说话者标识信息）。

(c)面部属性信息（面部属性分数[S_eID]）最后被用作表示事件产生源的信号信息。当一定数目的事件被输入时，每个粒子的权重也被更新，使得具有最靠近真实空间中的信息的数据的粒子的权重增加，并且具有与真实空间中的信息不相称的数据的粒子的权重减小。以这种方式，当粒子权重发生偏离以及汇聚时，计算出基于面部属性信息的信号信息（面部属性分数），即，表示事件产生源的信号信息。

将任一特定目标x(tID=x)是任一事件(eID=y)的产生源的概率表示为P_eID=x(tID=y)。例如，如图5中所示，当设置了m个粒子（pID=1至m），并且在每个粒子中设置了两个目标(tID=1,2)时，第一目标(tID=1)是第一事件(eID=1)的产生源的概率是P_eID=1(tID=1)，并且第二目标(tID=2)是第一事件(eID=1)的产生源的概率是P_eID=1(tID=2)。

另外，第一目标(tID=1)是第二事件(eID=2)的产生源的概率是P_eID=2(tID=1)，并且第二目标(tID=2)是第二事件(eID=2)的产生源的概率是P_eID=2(tID=2)。

表示事件产生源的信号信息是，任一事件(eID=y)的产生源是特定目标x(tID=x)的概率P_eID=x(tID=y)，并且这对应于在信息整合处理单元131的目标信息更新单元141中设置的粒子数目m和分配给每个事件的目标数目的比率。在此，在图5中所示的例子中，获得以下对应关系：

P_eID=1(tID=1)=[将tID=1分配给第一事件(eID=1)的粒子的数目/(m)],

P_eID=1(tID=2)=[将tID=2分配给第一事件(eID=1)的粒子的数目/(m)],

P_eID=2(tID=1)=[将tID=1分配给第二事件(eID=2)的粒子的数目/(m)],以及

P_eID=2(tID=2)=[将tID=2分配给第二事件(eID=2)的粒子的数目/(m)]。

该数据最后被用作表示事件产生源的信号信息。

另外，任一事件(eID=y)的产生源是特定目标x(tID=x)的概率是P_eID=y(tID=x)。该数据还被用于计算包括在目标信息中的面部属性信息。也就是说，该数据被用于计算面部属性信息S_tID=1至n。面部属性信息S_tID=x对应于目标ID=x的最终面部属性的预期值，即，表示是说话者的概率的值。

信息整合处理单元131的目标信息更新单元141输入来自图像事件检测单元112的事件信息(eID=1,2…)，并且对与每个粒子中预先设置的事件相对应的目标进行更新。接下来，目标信息更新单元141产生(a)目标信息，其包括表示多个用户中每一个的位置的位置估计信息；表示所述多个用户中的每一个是谁的估计信息（uID估计信息）；以及面部属性信息的预期值(S_tID)，例如，表示通过嘴部运动说话的面部属性预期值，以及(b)表示事件产生源的信号信息（图像事件对应信号信息），如正在说话的用户，并且将产生的信息输出到处理确定单元132。

如图7的右手侧所示的目标信息380中所示，该目标信息被产生作为包括在每个粒子（pID=1至m）中的每个目标（tID=1至n）的对应数据的加权求和数据。在图7中，示出了信息整合处理单元131的m个粒子（pID=1至m）和从该m个粒子（pID=1至m）产生的目标信息380。稍后描述每个粒子的权重。

目标信息380是表示关于与信息整合处理单元131预先设置的虚拟用户相对应的目标（tID=1至n）的(a)存在位置、(b)该用户是（用户uID1至uIDk当中的）谁以及(c)面部属性的预期值（在本实施例中，是说话者的预期值（概率））。

基于与上述表示事件产生源的信号信息相对应的概率P_eID=x(tID=y)和与每个事件相对应的面部属性分数S_eID=i，来计算(c)每个目标的面部属性的预期值（在本实施例中，是说话者的预期值（概率））。在此，“i”表示事件ID。

例如，根据如下等式计算目标ID=1的面部属性的预期值：S_tID=1

当S_tID=1=∑_eIDP_eID=i(tID=1)×S_eID=i被推广并示出时，根据如下等式计算该目标的面部属性的预期值：S_tID

<等式1>

S_tID=∑_eIDP_eID=i(tID)×S_eID

例如，在如图5中所示的系统内存在两个目标的情况下，在图像1的帧内从图像事件检测单元112向信息整合处理单元131输入两个面部图像事件（eID=1,2）时每个目标（tID=1,2）的面部属性的预期值的计算例子在图8中示出。

图8的右端所示的数据是与图7中所示的目标信息380相对应的目标信息390，并且对应于作为包括在每个粒子（pID=1至m）中的每个目标（tID=1至n）的对应数据的加权求和数据所产生的信息。

基于与上述表示事件产生源的信号信息相对应的概率P_eID=x(tID=y)以及与每个事件相对应的面部属性分数S_eID=i来计算目标信息390中每个目标的面部属性。在此，“i”表示事件ID。

目标ID=1的面部属性的预期值：S_tID=1被表示为S_tID=1=∑_eIDP_eID=i(tID=1)×S_eID=i，并且目标ID=2的面部属性的预期值：S_tID=2被表示为S_tID=2=∑_eIDP_eID=i(tID=2)×S_eID=i。每个目标的面部属性的预期值的所有目标的总和：S_tID为[1]。在本实施例中，由于关于每个目标设置了面部属性的预期值1至0：S_tID，所以具有高预期值的目标被确定为使得是说话者的概率高。

另外，当在面部图像事件eID中不存在面部属性分数[S_eID]时（例如，当尽管检测到面部，但是由于手覆盖了嘴部而没有检测到嘴部运动时），在面部属性分数S_eID中使用先验知识的值S_prior等。作为先验知识的值，当存在针对每个目标预先获得的值时，使用该值，或者使用根据预先离线获得的面部图像事件计算出的面部属性的平均值。

目标的数目和图像1的帧内面部图像事件的数目通常是不相同的。由于当目标的数目大于面部图像事件的数目时，与表示上述事件产生源的信号信息相对应的概率之和P_eID(tID)不为[1]，所以关于每个目标的面部属性的预期值的上述计算等式的每个目标的预期值之和，即S_tID=∑_eIDP_eID=i(tID)×S_eID（等式1），不为[1]，从而计算不出具有高准确度的预期值。

如图9中所示，当在图像帧350中没有检测到与前一处理帧中存在的第三事件相对应的第三面部图像395时，上述等式1中所示的关于每个目标的预期值之和不为[1]，并且计算不出具有高准确度的预期值。在此情况下，改变每个目标的面部属性的预期值计算等式。也就是说，为了使每个目标的面部属性的预期值S_tID之和为[1]，使用补数[1-∑_eIDP_eID(tID)]和先验知识的值[S_prior]，通过如下等式2计算面部事件属性的预期值S_tID。

<等式2>

S_tID=∑_eIDP_eID(tID)×S_eID+(1-∑_eIDP_eID(tID))×S_prior

然而，在图9中，系统内设置了与事件相对应的三个目标，描述当只有两个目标从图像事件检测单元112输入到信息整合处理单元131作为图像1的帧内的面部图像事件时，面部属性的预期值的计算例子。

进行该计算，使得：目标ID=1的面部属性的预期值S_tID=1为S_tID=1=∑_eIDP_eID=i(tID=1)×S_eID=i+(1-∑_eIDP_eID(tID=1))×S_prior，目标ID=2的面部属性的预期值S_tID=2为S_tID=2=∑_eIDP_eID=i(tID=2)×S_eID=i+(1-∑_eIDP_eID(tID=2))×S_prior，并且目标ID=3的面部属性的预期值S_tID=3为S_tID=3=∑_eIDP_eID=i(tID=3)×S_eID=i+(1-∑_eIDP_eID(tID=3))×S_prior。

相反，当目标的数目小于面部图像事件的数目时，产生该目标，使得目标的数目与事件的数目相同，并且通过应用上述等式1来计算每个目标的面部属性的预期值[S_tID=1]。

另外，在本实施例中，面部属性被描述为基于与嘴部运动相对应的分数的面部属性预期值，即，表示每个目标是说话者的预期值的数据，然而，如上文所述，该面部属性分数可以被计算为诸如笑脸或年龄等的分数，并且在此情况下面部属性预期值被计算为与对应于该分数的属性相对应的数据。

随着粒子的更新，目标信息被顺序更新，并且例如当用户1至k不在真实环境中没有运动时，每个用户1至k收敛为与从n个目标tID=1至n中选择的k个目标中的每一个相对应的数据。

例如，图7中所示的目标信息380内的第一目标1（tID=1）的数据中包括的用户置信度信息（uID）关于用户2具有最高概率（uID₁₂=0.7）。因此，估计该目标1（tID=1）的数据对应于用户2。另外，表示用户置信度信息uID的数据[uID₁₂=0.7]内的uID₁₂的12是对应于目标ID=1的用户=2的用户置信度信息uID的概率。

在该目标信息380内第一目标1（tID=1）的数据中，是用户2的概率最高，并且估计用户2处于以下存在概率分布数据中所示的范围内，在该存在概率分布数据中，用户2的存在位置被包括在目标信息380的第一目标1（tID=1）的数据中。

以这种方式，目标信息380是表示关于最初设置为虚拟对象（虚拟用户）的每个目标（tID=1至n）的以下各项的信息：(a)存在位置、(b)该用户是（用户uID1至uIDk当中的）谁以及(c)面部属性的预期值（在本实施例中是说话者的预期值（概率））。因此，当用户不动时，每个目标（tID=1至n）的k个目标信息中的每一个收敛为对应于用户1至k。

如上所述，信息整合处理单元131基于输入信息对粒子进行更新，并且产生：(a)目标信息，其作为关于多个用户的位置和所述多个用户中的每一个是谁的估计信息；以及(b)信号信息，其表示事件产生源，如正在说话的用户，从而将产生的信息输出到处理确定单元132。

以这种方式，信息整合处理单元131的目标信息更新单元141进行应用于多个粒子的粒子过滤处理，并且产生包括存在于真实空间中的用户的位置信息的分析信息，其中所述多个粒子设置与虚拟用户相对应的多个目标数据。也就是说，在粒子中设置的目标数据的每个包被设置为与从事件检测单元输入的每个事件相关联，并且根据输入的事件标识符对与从每个粒子中选择的事件相对应的目标数据进行更新。

另外，目标信息更新单元141根据从事件检测单元输入的事件信息来计算在每个粒子中设置的事件内产生源假定目标似然，并且设置与该似然的等级相对应的值作为每一个粒子的粒子权重，从而进行优选选择具有大权重的粒子的再采样处理以更新粒子。稍后描述该处理。另外，关于在每个粒子中设置的目标，随着时间的推移进行更新。另外，根据在每个粒子中设置的事件产生源假定目标的数目，产生信号信息作为事件产生源的概率值。

同时，信息整合处理单元131的话语源概率计算单元142输入在语音事件检测单元122中检测到的语音事件信息，并且使用标识模式（标识符）计算每个目标是输入的语音事件的话语源的概率。话语源概率计算单元142基于计算出的值来产生关于语音事件的信号信息，并且将产生的信息输出到处理确定单元132。

稍后描述话语源概率计算单元142进行的处理的细节。

[3.本公开的信息处理设备进行的处理序列]

接下来，参照图10中所示的流程图描述信息整合处理单元131进行的处理序列。

信息整合处理单元131输入来自语音事件检测单元122和图像事件检测单元112的图3B中所示的事件信息，即，用户位置信息和用户标识信息（面部标识信息或说话者标识信息），产生：(a)目标信息，其作为与多个用户的位置以及所述多个用户中的每一个是谁有关的估计信息；以及(b)信号信息，其表示例如正在说话的用户等的事件产生源，并且将所产生的信息输出到处理确定单元132。将参照图10中所示的流程图描述该处理序列。

首先，在步骤S101中，信息整合处理单元131输入来自语音事件检测单元122和图像事件检测单元112的事件信息，如:(a)用户位置信息，(b)用户标识信息（面部标识信息或者说话者标识信息）以及(c)面部属性信息（面部属性分数）.

当成功进行了事件信息的获取时，该处理前进到步骤S102，而当错误地进行了事件信息的获取时，该处理前进到步骤S121。稍后描述步骤S121的处理。

当成功地进行了事件信息的获取时，在步骤S102中，信息整合处理单元131确定语音事件是否被输入。当输入的事件是语音事件时，该处理前进到步骤S111，而当输入的事件是图像事件时，该处理前进到步骤S103。

当输入的事件是语音事件时，在步骤S111中，使用标识模式（标识符）计算每个目标是输入的语音事件的话语源的概率。计算结果被输出到处理确定单元132（见图2）作为基于语音事件的信号信息。稍后描述步骤S111的细节。

当输入的事件是图像事件时，在步骤S103中，基于输入的信息对粒子进行更新，然而，在对该粒子进行更新之前，在步骤S103中，确定是否需要针对每个粒子进行新目标的设置。在本公开的配置中，如参照图5描述的，在信息整合处理单元131中设置的每个粒子1至m中包括的每个目标1至n能够与每个输入事件信息（eID=1至k）相关联，并且根据该关联性对所选择的与输入事件相对应的目标进行更新。

因此，当从图像事件检测单元112输入的事件的数目大于目标的数目时，需要进行新目标的设置。具体而言，这对应于在图5中所示的图像帧350中出现了目前不存在的面部的情况。在此情况下，该处理前进到步骤S104，从而在每个粒子中设置新目标。该目标被设置为更新为与新事件等同的目标。

接下来，在步骤S105中，在信息整合处理单元131中设置的m个粒子（pID=1至m）的每个粒子1至m中设置事件产生源的假定。对于事件产生源，例如，当事件产生源是语音事件时，正在说话的用户是事件产生源，而当事件产生源是图像事件时，具有所提取的面部的用户是事件产生源。

如参照图5描述的，进行设置本公开的假定的处理，使得每个输入事件信息条目（eID=1至k）被设置为与包括在每个粒子1至m中的每个目标1至n相关联。

也就是说，如参照图5描述的，包括在每个粒子1至m中的每个目标1至n与每个事件信息（eID=1至k）相关联，并且预先设置更新包括在每个粒子中的哪个目标。以这种方式，在每个粒子中产生获取事件的事件产生源假定。另外，例如，最初可以使用均匀分布每个事件的设置。由于粒子的数目m被设置为大于目标的数目n，所以将多个粒子设置为具有相同的事件ID-目标ID的对应性。例如，当目标的数目n为10时，进行将粒子的数目m设置为100至1000的处理。

当在步骤S105中完成了对假定的设置时，该处理前进到步骤S106。在步骤S106中，计算与每个粒子相对应的权重，即，计算粒子权重[W_pID]。对于粒子权重[W_pID]，最初将均匀值设置给每个粒子，然而，根据事件输入进行更新。

将参照图11详细描述粒子权重[W_pID]的计算过程。粒子权重[W_pID]对应于每个粒子产生事件产生源的假定目标的假定正确性的指标。计算粒子权重[W_pID]，作为事件和目标之间的似然度，即，与能够与m个粒子中的每一个（pID-1至m）中设置的多个目标中的每一个相关联的事件产生源的输入事件的相似性。

在图11中，信息整合处理单元131示出与从语音事件检测单元122和图像事件检测单元112输入的单个事件（eID=1）相对应的事件信息401和由信息整合处理单元131保持的单个粒子421。粒子421的目标（tID=2）是能够与事件（eID=1）相关联的目标。

在图11的下端，示出了事件和目标之间似然度的计算处理例子。计算粒子权重[W_pID]，作为与事件和目标之间的似然度之和相对应的值，该似然度是在每个粒子中计算出的事件和目标之间的相似度指标。

进行图11的下端示出的计算似然度的处理，使得分别计算出：(a)高斯分布之间的似然度[DL]，作为关于用户位置信息的事件与目标数据之间的相似性数据；以及(b)用户置信度信息（uID）之间的似然度[UL]，作为关于用户标识信息（面部标识信息或者说话者标识信息）的事件与目标数据之间相似性数据。

作为(a)关于用户位置信息的事件与假定目标之间相似性数据的高斯分布之间的似然度[DL]的计算处理是如下处理。

当与输入事件信息内的用户位置信息相对应的高斯分布是N(m_e,σ_e)，并且与从粒子中选择的假定目标的用户位置信息相对应的高斯分布是N(m_t,σ_t)时，通过如下等式计算高斯分布之间的似然度[DL]。

DL=N(m_t,σ_t+σ_e)x|m_e

在上面的等式中，在以中心m_t分布σ_t+σ_e的高斯分布中计算x=m_e的位置值。

(b)按如下进行作为用户标识信息（面部标识信息或说话者标识信息）的事件与假定目标之间的相似性数据的用户置信度信息（uID）之间的似然度[UL]的计算处理。

假定在输入的事件信息内用户置信度信息(uID)的每个用户1至k的置信度值是Pe[i]。另外，“i”是与用户标识符1至k相对应的变量。

使用从粒子中选择的假定目标的用户置信度信息(uID)的每个用户1至k的置信度的值（分数）作为Pt[i]，通过如下等式计算用户置信度信息(uID)之间的似然度[UL]。

UL=∑P_e[i]×P_t[i]

在上面的等式中，获得包括在两条数据的用户置信度信息(uID)中的各个相应用户置信度的值（分数）的乘积之和，并且所获得的和作为用户置信度信息(uID)之间的似然度[UL]。

基于以上两个似然度，即，高斯分布之间的似然性[DL]和用户置信度信息(uID)之间的似然度[UL]，使用权重α（α=0至1），通过如下等式计算粒子权重[W_pID]。

[W_pID]＝∑_nUL^α×DL^1-α

在此，n表示与包括在粒子中的事件相对应的目标的数目。使用上面的等式，计算粒子权重[W_pID]。然而，α=0至1。针对每个粒子计算粒子权重[W_pID]。

用于计算粒子权重[W_pID]的权重[α]可以是预定的固定值，或者是随着输入的事件值变化的值。例如，当输入事件是图像时，成功进行面部检测以获取位置信息，然而，当面部识别被错误地进行时，作为α=0的设置，满足用户置信度信息(uID)之间的似然度：UL=1，从而可以只根据高斯分布之间的似然度[DL]计算粒子权重[W_pID]。另外，当输入事件是语音时，成功地进行说话者识别以获取说话者信息，然而，当位置信息的获取被错误地进行时，作为α=0的设置，满足高斯分布之间的似然度[DL]＝1，从而可以只根据用户置信度信息(uID)之间的似然度[UL]计算粒子权重[W_pID]。

进行图10的流程图的步骤S106中对应于每个粒子的权重[W_pID]的计算，即参照图11描述的处理。接下来，在步骤S107中，基于在步骤S106中设置的每个粒子的粒子权重[W_pID]进行粒子的再采样处理。

进行粒子的再采样处理，即根据粒子权重[W_pID]从m个粒子中选出粒子的处理。具体而言，例如，在粒子数目m=5的情况下，当分别设置以下粒子权重时：

粒子1：粒子权重[W_pID]=0.40，

粒子2：粒子权重[W_pID]=0.10，

粒子3：粒子权重[W_pID]＝0.25，

粒子4：粒子权重[W_pID]＝0.05，以及

粒子5：粒子权重[W_pID]＝0.20。

粒子1以40%的概率被再采样，并且粒子2以10%的概率被再采样。另外，实际上，m=100至1000，并且再采样结果由具有与粒子权重相对应的分布比率的粒子配置而成。

通过该处理，留下了更多个具有大粒子权重[W_pID]的粒子。另外，即使在再采样之后，粒子的总数[m]也不改变。另外，在再采样之后，每个粒子的权重[W_pID]被重新设置，并且根据新事件的输入从步骤S101起重新进行该处理。

在步骤S108中，对包括在每个粒子中的目标数据（用户位置和用户置信度）进行更新。如参照图7描述的，每个目标由如下数据配置而成：

(a)用户位置：与每个目标相对应的存在位置的概率分布[高斯分布：N(m_t,σ_t)]，

(b)是用户1至k的估计值（分数）：Pt[i](i=1至k)作为用户置信度：用户置信度信息(uID)表示每个用户是谁，即，

uID_t1=Pt[1]

uID_t2=Pt[2]

:

uID_tk=Pt[k]，以及

(c)面部属性的预期值（在本实施例中，是说话者的预期值（概率））。

基于与上述表示事件产生源的信号信息相对应的概率P_eID＝x(tID=y)和与每个事件相对应的面部属性分数S_eID=i来计算(c)面部属性的预期值（在本实施例中，是说话者的预期值（概率））。在此，“i”是事件ID。例如，通过如下等式计算目标ID=1的面部属性的预期值:S_tID=i。

S_tID=1=∑_eIDP_eID=i(tID=1)×S_eID=i

当被推广并示出时，通过如下等式1来计算目标的面部属性的预期值:S_tID=i。

<等式1>

S_tID=∑_eIDP_eID＝i(tID)×S_eID

另外，当目标的数目大于面部图像事件的数目，使得每个目标的面部属性的预期值[S_tID]之和为[1]时，使用补数[1-∑_eIDP_eID(tID)]和先验知识的值[S_prior]，通过如下等式2计算面部事件属性的预期值S_tID。

<等式2>

S_tID=∑_eIDP_eID(tID)×S_eID+(1-∑_eIDP_eID(tID))×S_prior

针对(a)用户位置、(b)用户置信度和(c)面部属性的预期值（在本实施例中，是说话者的预期值（概率））中的每一个进行步骤S108中的目标数据更新。首先，描述对(a)用户位置的更新。

进行(a)用户位置的更新即如下两级更新：(a1)针对所有粒子的所有目标的更新；以及(a2)针对每个粒子中设置的事件产生源假定目标的更新。

针对被选择为事件产生源假定目标的目标和其它目标进行(a1)针对所有粒子的所有目标的更新。该更新是在用户位置的散布随着时间扩展的假定基础上进行的，并且利用从前一次更新处理以来经过的时间和事件的位置信息，使用卡尔曼滤波器进行该更新。

下面描述在位置信息是一维的情况下更新处理的例子。首先，当前一次更新处理之后经过的时间是[dt]时，针对所有目标，计算dt之后用户位置的预测分布。也就是说，针对高斯分布即用户位置的分布信息：N(m_t,σ_t)的预期值（平均值）：[m_t]和分布[σ_t]，进行以下更新。

m_t=m_t+xc×dt

σ_t ²=σ_t ²+σc²×dt

在此，m_t表示预测的预期值（预测状态），σ_t ²表示预测的协方差（预测的估计协方差），xc表示运动信息（控制模式），σc²表示噪声（过程噪声）。

另外，在用户不动的条件下进行更新的情况下，使用xc=0进行该更新。

通过上述计算处理，作为包括在所有目标中的用户位置信息的高斯分布N(m_t,σ_t)被更新。

接下来，描述针对每个粒子中设置的事件产生源假定目标的更新。

在步骤S104中，更新根据设置的事件产生源假定所选择的目标。首先，如参照图5描述的，将包括在每个粒子1至m中的每个目标1至n设置为可以与每个事件（eID=1至k）相关联的目标。

也就是说，预先设置根据事件ID（eID）更新每个粒子中包括的哪个目标，并且基于该设置只更新可以与输入的事件相关联的目标。例如，通过图5中所示的[事件ID=1(eID=1)]的事件对应信息361，在粒子1（pID=1）中只选择性地更新目标ID=1(tID=1)的数据。

在基于事件产生源假定进行的更新处理中，进行能够与该事件相关联的目标的更新。进行使用表示从语音事件检测单元122或图像事件检测单元112输入的事件信息中包括的用户位置的高斯分布：N(m_e,σ_e)的更新处理。

例如，当假定K表示卡尔曼增益，m_e表示包括在输入事件信息：N(m_e,σ_e)中的观测值（观测状态），并且σ_e ²表示包括在输入事件信息：N(m_e,σ_e)中的观测值（观测协方差）时，进行如下更新：

K＝σ_t ²/(σ_t ²+σ_e ²),

m_t=m_t+K(xc-m_t),以及

σ_t ²=(1-K)σ_t ²。

接下来，描述作为目标数据的更新处理进行的用户置信度的更新。在目标数据中，除了用户位置信息以外，还包括表示每个目标是谁的用户置信度信息(uID)，即，是每个用户1至k的概率（分数）：Pt[i](i=1至k)。在步骤S108中，进行针对用户置信度信息(uID)的更新处理。

利用所有注册用户的后验概率和包括在从语音事件检测单元122或图像事件检测单元112输入的事件信息中的用户置信度信息(uID):Pe[i](i=1至k)，通过应用具有预先设置的范围在0至1的值的更新率[β]，进行关于包括在每个粒子Pt[i](i=1至k)中的目标的用户置信度信息(uID)的更新。

通过如下等式进行针对目标：Pt[i](i=1至k)的用户置信度信息(uID)的更新。

Pt[i]=(1-β)×Pt[i]+β*Pe[i]

在此，i=1至k，β=0至1。另外，更新率[β]对应于0至1的值，并且被预先设置。

在步骤S108中，更新后的目标数据中包括以下数据，即：(a)用户位置：与每个目标相对应的存在位置的概率分布[高斯分布：N(m_t,σ_t)]；(b)作为用户置信度的是每个用户1至k的估计值（分数）：Pt[i](i=1至k)：表示每个目标是谁的用户置信度信息(uID)，即

uID_t1=Pt[1]

uID_t2=Pt[2]

:

uID_tk=Pt[k]；以及

(c)面部属性的预期值（在本实施例中是说话者的预期值（概率））。

基于上述数据和每个粒子权重[W_pID]产生目标信息，并且将所产生的目标信息输出到处理确定单元132。

另外，作为包括在每个粒子（pID=1至m）中的每个目标（tID=1至n）的对应数据的加权求和数据，产生该目标信息。该目标信息是图7的右端中所示的目标信息380中所示的数据。该目标数据被产生为包括每个目标（tID=1至n）的以下信息：(a)用户位置信息、(b)用户置信度信息以及(c)每个面部属性的预期值（在本实施例中是说话者的预期值（概率））。

例如，与目标(tID=1)相对应的目标信息的用户位置信息被表示为如下等式A。

Σ_{i = 1}^{m} W_{i} \cdot N (m_{i 1}, σ_{i 1})

...(等式A)

在上面的等式中，W_i表示粒子权重[W_pID]。

另外，与目标(tID=1)相对应的目标信息的用户置信度信息被表示为如下等式B。

Σ_{i = 1}^{m} W_{i} \cdot {uID}_{i 11}

Σ_{i = 1}^{m} W_{i} \cdot {uID}_{i 12}

.

Σ_{i = 1}^{m} W_{i} \cdot {uID}_{i 1 k}

...(等式B)

在上面的等式B中，W_i表示粒子权重[W_pID]。

另外，与目标(tID=1)相对应的目标信息的面部属性的预期值（在本实施例中是说话者的预期值（概率））被表示为S_tID=1=∑_eIDP_eID=i(tID=1)×S_eID=i或者S_tID=1=∑_eIDP_eID=i(tID=1)×S_eID=i+(1-∑_eIDP_eID(tID=1))×S_prior。

信息整合处理单元131针对n个目标（tID=1至n）中的每一个计算上述目标信息，并且将计算出的目标信息输出到处理确定单元132。

接下来，描述图8的流程图中所示的步骤S109的处理。在步骤S109中，信息整合处理单元131计算n个目标（tID=1至n）中的每一个是事件产生源的概率，并且将计算出的概率作为信号信息输出到处理确定单元132。

如上所述，表示事件产生源的信号信息是表示谁正在说话的数据，也就是说，表示关于语音事件的说话者的数据，并且是表示包括在图像中的面部是谁的数据和表示关于该图像事件的说话者的数据。

信息整合处理单元131基于每个粒子中设置的事件产生源的假定目标的数目，计算每个目标是事件产生源的概率。也就是说，每个目标（tID=1至n）是事件产生源的概率被表示为[P(tID=i)]。在此，i=1至n。例如，任一事件(eID=y)的产生源是特定目标x(tID=x)的概率被表示为上文所述的P_eID=x(tID=y)，并且对应于信息整合处理单元131中设置的粒子数目m和分配给每个事件的目标数目之间的比率。例如，在图5中所示的例子中，获得如下对应关系：

P_eID=1(tID=1)=[将tID=1分配给第一事件(eID=1)的粒子数目/(m)]，

P_eID=1(tID=2)=[将tID=2分配给第一事件(eID=1)的粒子数目/(m)]，

P_eID=2(tID=1)=[将tID=1分配给第二事件(eID=2)的粒子数目/(m)]，

P_eID=2(tID=2)=[将tID=2分配给第二事件(eID=2)的粒子数目/(m)]

该数据被输出到处理确定单元132作为表示事件产生源的信号信息。

当完成了步骤S109的处理时，该处理返回到步骤S101，从而进入等待从语音事件检测单元122和图像事件检测单元112输入事件信息的状态。

上面对图10中所示的步骤S101至S109进行了描述。当在步骤S101中信息整合处理单元131未从语音事件检测单元122和图像事件检测单元112获取到图3B中所示的事件信息时，在步骤S121中进行包括在每个粒子中的目标的配置数据的更新。该更新是考虑到用户位置随时间变化的处理。

该目标更新是与步骤S108中描述的(a1)针对所有粒子的所有目标的更新相同的处理，在假定用户位置的分布随时间扩展的基础上进行，并且利用从前一次更新处理以来经过的时间和前一次更新的事件位置信息，使用卡尔曼滤波器进行。

下面描述在位置信息是一维的情况下的更新处理例子。首先，利用从前一次针对所有目标的更新处理以来经过的时间[dt]，计算dt之后用户位置的预测计算。也就是说，以高斯分布作为用户位置的分布信息：N(m_t,σ_t)的预期值（平均值）：[m_t]和分布[σ_t]，进行以下更新。

m_t=m_t+xc×dt

σ_t ²=σ_t ²+σc²×dt

通过上述计算处理，更新作为包括在所有目标中的用户位置信息的高斯分布N(m_t,σ_t)。

另外，除非获取了该事件的所有注册用户的后验概率或来自该事件信息的分数[Pe]，否则不进行针对包括在每个粒子的目标中的用户置信度信息(uID)的更新。

在完成了步骤S121的处理之后，在步骤S122中确定是否需要删除该目标，并且当需要删除该目标时，在步骤S123中删除该目标。进行该目标删除，即删除没有获得具体用户位置的数据，例如在包括在该目标中的用户位置信息中没有检测到峰值的情况等。当上述数据不存在时，进行不必删除的布置S122至S123，然后该处理返回到步骤S101，从而进入到等待从语音事件检测单元122和图像事件检测单元112输入事件信息的状态。

上面参照图10描述了由信息整合处理单元131进行的处理。信息整合处理单元131针对从语音事件检测单元122和图像事件检测单元112输入的每个事件信息，基于图10中所示的流程图重复进行该处理。通过该重复进行的处理，增加了将更可靠的目标设置为假定目标的粒子的权重，并且基于粒子权重通过再采样处理留下具有较大权重的粒子。结果，与从语音事件检测单元122和图像事件检测单元112输入的事件信息相似的高度可靠的数据留下来，从而最终产生以下高度可靠的信息，即：(a)目标信息，其作为表示多个用户中的每一个的位置以及所述多个用户中每一个是谁的估计信息；以及例如(b)信号信息，其表示事件产生源，如正在说话的用户，并且所产生的信息被输出到处理确定单元132。

另外，在该信号信息中，包括两条信号信息，如：(b1)基于由步骤S111的处理产生的语音事件的信号信息；以及(b2)基于由步骤S103至S109的处理产生的图像事件的信号信息。

4.由话语源概率计算单元进行的处理的细节

接下来，详细描述图10的流程图中所示的步骤S111的处理，即，基于语音事件产生的信号信息的处理。

如上文所述，图2中所示的信息整合处理单元131包括目标信息更新单元141和话语源概率计算单元142。

在目标信息更新单元141中针对每个图像事件信息更新的目标信息被输出到话语源概率计算单元142。

话语源概率计算单元142通过应用从语音事件检测单元122输入的语音事件信息和在目标信息更新单元141中针对每个图像事件更新的目标信息，产生基于该语音事件的信号信息。也就是说，上述信号信息是作为话语源概率的表示每个目标与语音事件信息的话语源近似到什么程度的信号信息。

当语音事件信息被输入时，话语源概率计算单元142使用从目标信息更新单元141输入的目标信息，计算表示每个目标与语音事件信息的话语源近似到什么程度的话语源概率。

在图12中，示出了输入信息的例子，如：(A)语音事件信息；和(B)被输入到话语源概率计算单元142的目标信息。

(A)语音事件信息是从语音事件检测单元122输入的语音事件信息。

(B)目标信息是在目标信息更新单元141中针对每个图像事件信息更新的目标信息。

在话语源概率的计算中，使用包括在图12的(A)中所示的语音事件信息中的声源方向信息（位置信息）或者说话者标识信息、包括在图像事件信息中的唇部运动信息或者包括在目标信息中的目标位置n或目标的总数。

另外，最初包括在图像事件信息中的唇部运动信息被从目标信息更新单元141提供给话语源概率计算单元142，作为包括在目标信息中的一条面部属性信息。

另外，本实施例中的唇部运动信息是从可通过应用可视化语音检测技术获得的唇部状态分数产生的。另外，例如在[Visual lip activitydetectionand speaker detection using mouth region intensities/IEEE Transactionson Circuits and Systems for Video Technology，Volume 19,Issue 1(2009年1月)，133-137页(见URL:http://poseidon.csd.auth.gr/papers/PUBLISHED/JOURNAL/pdf/Siatras0 9a)]和[Facilitating Speech Detection in Style!:The Effect of VisualSpeaking Style on the Detection of Speech in Noise Auditory-VisualSpeech Processing 2005(见URL:http://www.isca-speech.org/archive/avsp05/av05023.html)]等中描述了这种可视化语音检测技术，并且该技术是可以应用的。

下面描述唇部运动信息的产生方法的概况。

输入的语音事件信息对应于任意时间事件间隔Δt，从而将包括在时间间隔Δt=（t_结束至t_开始）中的多个唇部状态分数顺序排列以获得时间序列数据。包括该时间序列数据的区域面积被用作唇部运动信息。

在图12的(B)的目标信息的底部示出的时间/唇部状态分数的曲线对应于唇部运动信息。

另外，利用所有目标的唇部运动信息之和将唇部运动信息归一化。

另外，作为产生唇部运动信息的处理，例如，公开了日本未审查的专利申请2009-223761号公报或者日本专利4462339号公报，并且这些文献中公开的处理是可应用的。

另外，作为产生声源方向信息的处理，公开了日本未审查的专利申请2010-20294号公报，作为说话者标识信息，公开了日本未审查的专利申请2004-286805号公报，并且可以应用现有的处理。

如图12中所示，话语源概率计算单元142获取(a)用户位置信息（声源方向信息）和(b)对应于正在说话的用户标识信息（说话者标识信息），作为从语音事件检测单元122输入的语音事件信息。

另外，话语源概率计算单元142获取如下信息：(a)用户位置信息、(b)用户标识信息和(c)唇部运动信息，作为在目标信息更新单元141中针对每个图像事件信息更新的目标信息。

另外，还输入包括在目标信息中的事件信息，如目标位置或者目标的总数。

话语源概率计算单元142基于上述信息产生每个目标是话语源的概率（信号信息），并且将所产生的概率输出到处理确定单元132。

将参照图13中所示的流程图描述由话语源概率计算单元142进行的计算每个目标是话语源的概率的序列方法的例子。

图13的流程图中所示的处理例子是使用标识符的处理例子，其中目标被分别选择，并且仅根据所选择的目标的信息确定表示目标是否是产生源的话语源概率（话语源分数）。

首先，在步骤S201中，从所有目标中选择单个目标，作为要被处理的目标。

接下来，在步骤S202中，使用话语源概率计算单元142的标识符获得作为所选择的目标是否是话语源的概率值的话语源分数。

该标识符是用于基于如下输入信息计算每个目标的话语源概率的标识符：从语音事件检测单元122输入的(a)用户位置信息（声源方向信息）和(b)用户标识信息（说话者标识信息）；以及从目标信息更新单元141输入的(a)用户位置信息、(b)用户标识信息、(c)唇部运动信息和(d)目标位置或目标数目。

另外，该标识符的输入信息可以是上面描述的所有信息，然而，也可以只使用这些输入信息中的一些项。

在步骤S202中，该标识符计算话语源分数，作为表示所选择的目标是否是话语源的概率值。

稍后将参照图14详细描述在步骤S202中进行的计算话语源分数的处理细节。

在步骤S203中，确定是否存在其它未处理的目标，当存在其它未处理的目标时，针对其它未处理的目标进行步骤S201之后的处理。

在步骤S203中，当不存在其它未处理的目标时，该处理前进到步骤S204。

在步骤S204中，利用所有目标的话语源分数之和对针对每个目标获得的话语源分数进行归一化，从而确定该话语源分数作为与每个目标对应的话语源概率。

将具有最高话语源分数的目标估计为话语源。

[5.计算话语源分数的处理]

接下来，将描述在图13中所示的流程图中步骤S202中计算话语源分数的处理细节。

在图2中所示的话语源概率计算单元142中计算话语源分数。也就是说，计算该话语源分数作为所选择的目标是否是话语源的概率值。

如上所述，例如，话语源概率计算单元142输入来自语音事件检测单元122的(a)用户位置信息（声源方向信息）和(b)用户标识信息（说话者标识信息），并且输入来自目标信息更新单元141的(a)用户位置信息、(b)用户标识信息、(c)唇部运动信息和(d)目标位置或目标总数，以计算用于获得每个目标的话语源概率的话语源分数。

话语源概率计算单元142可以具有使用上述所有信息计算该分数的配置，但是也可以具有使用这些信息的一部分计算该分数的配置。

将参照图14及之后的附图描述应用了声源方向信息D、说话者标识信息S和唇部运动信息L这三类信息计算话语源分数P的处理例子。

例如，如图14中所示，可以由如下等式定义使用三类信息D、S和L计算话语源分数P的等式。

P=D^α·S^β·L^γ，

其中

D是声源方向信息，

S是说话者标识信息，

L是唇部运动信息，

α是声源方向信息的权重系数，

β是说话者标识信息的权重系数，

γ是唇部运动信息的权重系数，

以及

α+β+γ=1。

应用话语源计算等式：P=D^αS^β·L^γ，并且将话语源分数作为所选择的目标是否是话语源的概率值来计算。

当进行应用话语源计算等式：P=D^α·S^β·L^γ计算话语源分数的处理时的条件是获取D：声源方向信息、S：说话者标识信息和L：唇部运动信息这三类信息作为输入信息。

另外，还需要确定以下系数的处理：声源方向信息的系数α、说话者标识信息的权重系数β和唇部运动信息的权重系数γ。

将参照图15中所示的流程图描述应用上述计算等式P=D^α·S^β·L^γ计算话语源分数的处理序列，附带描述确定用于进行计算话语源分数的处理的系数的处理。

另外，在从语音事件检测单元122输入的语音事件中所包括的一个语音识别结果包括以下信息。

(1)语音片段信息（该语音的开始时间和结束时间）

(2)声源方向信息

(3)说话者标识信息

话语源概率计算单元142通过根据作为话语源分数计算处理的目标的语音事件与前一语音事件之间是否存在时间重叠以及是否存在位置靠近该目标的其它目标来改变唇部运动信息和声源方向信息的权重，调节所有权重系数，以使用所有调节后的权重系数计算话语源分数。

对于确定用于使用话语源分数计算等式：P=D^α·S^β·L^γ计算话语源分数的系数（α、β和γ）的处理，话语源概率计算单元142基于从图像事件检测单元112和语音事件检测单元122输入的信息，获取并应用与是否存在话语的时间重叠以及是否存在位置靠近的其它目标有关的信息，并且进行确定应用于计算话语源分数的处理的系数（α、β和γ）的处理。

将描述图15中所示的流程的各步骤的处理。

首先，在步骤S301中，确认作为计算话语源分数的处理的处理目标的语音事件和前一语音事件之间的时间重叠。

另外，可以仅通过后一语音事件的时间偏离来进行是否存在时间重叠的确定。这是因为难以在检测到前一语音事件的时间点（在前一语音事件的结束时间被确定时的时间）完全确定是否存在时间上重叠的其它语音事件。

然后，在步骤S302中，确认是否存在位置靠近该处理目标的其它目标。例如，可以使用从目标信息更新单元141输入的用户位置信息进行该处理。

然后，在步骤S303中，根据在步骤S301中确定的是否存在时间重叠和步骤S302中确定的是否存在位置靠近的其它目标，改变以下权重系数：声源方向信息的权重系数α和唇部运动信息的权重系数γ，并且调节所有权重系数。

另外，在所述权重系数的调节中，进行该调节以满足约束条件α+β+γ=1。

最后，在步骤S304中，话语源概率计算单元142通过应用声源方向信息D、说话者标识信息S和唇部运动信息L作为输入信息，应用在步骤S303中确定的权重系数，即，声源方向信息的权重系数α、说话者标识信息的权重系数β和唇部运动信息的权重系数γ，并且应用话语源分数计算等式P=D^α·S^β·L^γ，来计算该目标的话语源分数，其中α+β+γ=1。

将参照图16A至图16D等详细描述根据情况计算话语源分数的处理的特定例子。

如参照图15的流程描述的，在计算话语源分数的处理中，根据发出语音的情况适应性地改变什么输入信息是重要的。

当存在可能正在说话的两个人时，作为发出语音的情况的例子，例如，假定如图16A至图16D中所示的如下情况。

(a)当两个人的位置很远并且只有一个人在说话时

(b)当两个人的位置很远并且两个人同时在说话时

(c)当两个人的位置很近并且只有一个人在说话时

(d)当两个人的位置很近并且两个人同时在说话时

图17示出发出语音的情况、调节应用于使用上述话语源分数计算等式P=D^α·S^β·L^γ计算话语源分数的处理的系数（α、β和γ）的方法的关系以及数值例子。

话语源概率计算单元142根据发出语音的情况，动态地调节输入信息的权重系数被设置为什么值。

通过结合以下两个条件完成调节权重系数的情况。

（条件1）来自仅一个用户（一个目标）的单个话语，还是来自两个用户（两个目标）的同时话语

（条件2）两个用户（两个目标）的位置很近，还是两个用户（两个目标）的位置很远

考虑上述（条件2）中的两个用户的位置是近还是很远，基于声源方向（即，代表声源方向的角度）的差异，应用预设的预定阈值，以确定是近还是远。

例如，将与两个用户的位置相对应的声源方向的差异的绝对值等于或小于10°的情况确定为“两个用户的位置很近”。

另外，声源方向的差异的绝对值等于或小于10°的情况对应于在与麦克风距离3米远的位置处两个用户之间的距离在大约53厘米内的情况。

如上所述，“声源方向很近”被“用户之间的距离很近”或者“用户的位置很近”代替。

下面将描述根据图16A至图16D的话语条件调节权重系数的方法的具体例子，即，权重系数（α、β和γ）：声源方向的权重系数α、说话者标识信息的权重系数β和唇部运动信息的权重系数γ，其中α+β+γ=1。

当如图16A中所示，两个用户的位置很远并且只有一个用户独自说话时，不对所有权重系数（α、β和γ）进行调节，而使用预设值。

也就是说，在存在两个具有话语概率的目标的情况下，当只有一个目标在独自说话时，话语源概率计算单元142不对所有权重系数（α、β和γ）进行调节，而使用预设值。

当如图16B中所示，两个用户的位置很远并且两个用户在同时说话时，进行调节以使得唇部运动信息的权重(γ)变小。

也就是说，在存在两个具有话语概率的目标的情况下，当两个目标同时说话时，话语源概率计算单元142进行调节权重系数α、β和γ的处理，使得唇部运动信息的权重γ变小。

当如图16C中所示，两个用户的位置很近并且只有一个用户在独自说话时，进行调节以使得声源方向信息的权重(α)变小。

也就是说，在存在两个具有话语概率的目标的情况下，当两个目标的位置很近并且只有一个目标在独自说话时，话语源概率计算单元142进行调节权重系数α、β和γ的处理，使得声源方向信息的权重α变小。

当如图16D中所示，两个用户的位置很近并且两个用户同时说话时，进行调节以使得唇部运动信息的权重(γ)和声源方向信息的权重(α)变小。

也就是说，在存在两个具有话语概率的目标的情况下，当两个目标的位置很近并且两个目标同时说话时，话语源概率计算单元142进行调节权重系数α、β和γ的处理，使得唇部运动信息的权重γ和声源方向信息的权重α变小。

在任意处理中，进行该调节以满足约束条件α+β+γ=1。图17中示出了总结权重系数（α、β和γ）的调节的例子。

在发出语音的情况下，关于所需的权重系数为多大或者怎样设置权重系数，可以使用先前利用评估数据的调查进行的确定。

图18A和图18B是示出作为权重系数（α、β和γ）的特定调节例子的如下两个例子。

(A)所有权重系数的数值例子（所有预设值都相同，预设值：α=β＝γ）

(B)所有权重系数的数值例子（预设值不同，预设值：α≠β≠γ）

在(A)的情况下，预设值为α=β=γ=0.333。

在(B)的情况下，预设值α≠β≠γ，其中α=0.500,β=0.200,γ=0.300。

在(A)和(B)任一情况下，当所需的权重系数很小时，进行调节以使得它为该权重系数的当前值的1/2。

在只有一个权重系数的情况下，其它两个权重系数被调节为使得它们的比率与预设值相同。

在图18A中，当唇部运动信息的权重系数(γ)为1/2（从0.333到0.167）时，其它两个权重系数的预设值为相同的数值（0.333和0.333）。因此，在调节之后这两个权重系数为0.417，以保持相同的比率。

在图18B中，当唇部运动信息的权重系数(γ)为1/2（从0.300到0.150）时，其它两个权重系数的预设值为0.500和0.200。因此，在调节之后这两个权重系数为0.607和0.243，以保持相同的比率。

在图15中所示的流程图中的步骤S303中，例如，如上所述，调节以下三个权重系数：声源方向信息的权重系数α、话语标识信息的权重系数β和唇部运动信息的权重系数γ。

之后，应用调节之后的权重系数，利用话语源分数计算等式P：P=D^α·S^β·L^γ计算目标的话语源分数。

根据上述等式，计算每个目标的话语源分数，并且可以通过比较分数将具有最高分数的目标确定为话语源。

在本公开的信息处理设备中，如上所述，考虑话语标识信息和唇部运动信息二者，改变对这些信息条目施加的权重系数以计算话语源分数，并且根据计算出的分数计算话语源概率。

根据该处理，例如，甚至在多个说话者同时说话的情况下，通过使用分数计算和分数比较，都可以高度精确地指定说话者。

也就是说，即使在各种各样的更真实的情况下，都可以正确地估计出说话者。

[6.本公开的配置的总结]

上文关于特定的例子描述了几个例子。然而，本领域的技术人员显然可以在不偏离本公开的主要概念的范围内进行修改或替换。也就是说，本公开是使用例子的形式公开的，因此不应以受限制的方式分析本公开。为了确定本公开的主要概念，应当参考权利要求。

本说明书中公开的技术可以具有以下配置。

（1）一种信息处理设备，包括：

多个信息输入单元，其输入真实空间的观测信息；

事件检测单元，其基于对从所述信息输入单元输入的信息的分析，产生事件信息，所述事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息；以及

信息整合处理单元，其接收所述事件信息，并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息，

其中所述信息整合处理单元包括话语源概率计算单元，并且

其中所述话语源概率计算单元进行以下处理：通过将基于说话场景的权重乘以从所述事件检测单元输入的多条不同信息，来计算作为代表每个目标的话语源概率的指标值的话语源分数。

（2）根据上述（1）所述的信息处理设备，其中所述话语源概率计算单元接收与话语事件对应的(a)第一用户位置信息即声源方向信息和(b)第一用户标识信息即说话者标识信息的输入，作为来自构成所述事件检测单元的语音事件检测单元的输入信息，接收(a)第二用户位置信息即面部位置信息、(b)第二用户标识信息即面部标识信息和(c)唇部运动信息的输入，作为基于来自构成所述事件检测单元的图像事件检测单元的输入信息而产生的目标信息，并且通过采用从所述事件检测单元输入的信息中的至少一条进行基于所述信息计算所述话语源分数的处理。

（3）根据上述（1）或（2）所述的信息处理设备，其中所述话语源概率计算单元应用声源方向信息D、说话者标识信息S和唇部运动信息L，并且进行根据用于计算话语源分数P的公式P=D^α·S^β·L^γ来计算所述话语源分数的处理，

其中α是声源方向信息的权重系数，β是说话者标识信息的权重系数，γ是唇部运动信息的权重系数，并且α+β+γ=1。

（4）根据上述（3）所述的信息处理设备，其中所述话语源概率计算单元进行根据说话场景来调节所述权重系数α、β和γ的处理。

（5）根据上述（3）或（4）所述的信息处理设备，其中所述话语源概率计算单元根据以下两个条件进行调节所述权重系数α、β和γ的处理：条件1，仅来自一个目标的单个话语，还是来自两个目标的同时话语；以及条件2，这两个目标的位置相互靠近，还是这两个目标的位置相互远离。

（6）根据上述（3）至（5）中任一项所述的信息处理设备，其中所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标同时说话的情况下，进行调节所述权重系数α、β和γ的处理，使得所述唇部运动信息的权重系数γ小。

（7）根据上述（3）至（5）中任一项所述的信息处理设备，其中，所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且只有一个目标说话的情况下，进行调节所述权重系数α、β和γ的处理，使得所述声源方向信息的权重系数α更小。

（8）根据上述（3）至（5）中任一项所述的信息处理设备，其中所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且这两个目标同时说话的情况下，进行调节所述权重系数α、β和γ的处理，使得所述唇部运动信息的权重系数γ和所述声源方向信息的权重系数α更小。

本公开的配置包括一种在上述设备中进行的处理的方法或者用于执行处理的程序。

本说明书中描述的一系列处理可以由硬件或软件或者通过二者的复合配置来进行。在由软件进行所述处理的情况下，其中记录有所述处理序列的程序被安装在专用硬件中内置的计算机内的存储器中，以进行所述处理，或者安装在可以进行各种处理的通用计算机中，从而进行所述处理。例如，所述程序可以被预先记录在记录介质中。除了从记录介质安装到计算机以外，还可以通过网络接收该程序，如LAN（局域网）或因特网，或者将该程序安装在诸如内置硬盘等记录介质中。

另外，本说明书中描述的各种处理可以按所描述的序列进行，并且可以响应于进行所述处理的装置的处理能力或要求并行地或单独地进行。另外，本说明书中的系统是按照逻辑设定的多个装置的配置，并且每个配置中的装置不一定在同一外壳中。

本公开包含2011年11月11日提交到日本专利局的2011-247130号日本在先专利申请中公开的相关主题，该申请的全部内容通过引入包含在本申请中。

本领域的技术人员应当理解，可以根据设计要求和其它因素进行各种修改、组合、子组合和改造，只要它们在所附权利要求或其等同物的范围内即可。

Claims

1.一种信息处理设备，包括：

多个信息输入单元，其输入真实空间的观测信息；

其中所述信息整合处理单元包括话语源概率计算单元，并且

其中所述话语源概率计算单元进行以下处理：通过将基于说话场景的权重乘以从所述事件检测单元输入的多条不同信息，来计算代表每个目标的话语源概率的指标值，作为话语源分数。

2.根据权利要求1所述的信息处理设备，其中所述话语源概率计算单元接收与话语事件对应的(a)第一用户位置信息即声源方向信息和(b)第一用户标识信息即说话者标识信息的输入，作为来自构成所述事件检测单元的语音事件检测单元的输入信息，接收(a)第二用户位置信息即面部位置信息、(b)第二用户标识信息即面部标识信息和(c)唇部运动信息的输入，作为基于来自构成所述事件检测单元的图像事件检测单元的输入信息而产生的目标信息，并且通过采用从所述事件检测单元输入的信息中的至少一条进行基于所述信息计算所述话语源分数的处理。

3.根据权利要求1所述的信息处理设备，其中所述话语源概率计算单元应用声源方向信息D、说话者标识信息S和唇部运动信息L，并且进行根据用于计算话语源分数P的公式P=D^α·S^β·L^γ来计算所述话语源分数的处理，

4.根据权利要求3所述的信息处理设备，其中所述话语源概率计算单元进行根据说话场景来调节所述权重系数α、β和γ的处理。

5.根据权利要求3所述的信息处理设备，其中所述话语源概率计算单元根据以下两个条件进行调节所述权重系数α、β和γ的处理：条件1，仅来自一个目标的单个话语，还是来自两个目标的同时话语；以及条件2，这两个目标的位置相互靠近，还是这两个目标的位置相互远离。

6.根据权利要求3所述的信息处理设备，其中所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标同时说话的情况下，进行调节所述权重系数α、β和γ的处理，使得所述唇部运动信息的权重系数γ更小。

7.根据权利要求3所述的信息处理设备，其中，所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且只有一个目标说话的情况下，进行调节所述权重系数α、β和γ的处理，使得所述声源方向信息的权重系数α更小。

8.根据权利要求3所述的信息处理设备，其中所述话语源概率计算单元在存在两个具有话语概率的目标并且这两个目标的位置相互靠近并且这两个目标同时说话的情况下，进行调节所述权重系数α、β和γ的处理，使得所述唇部运动信息的权重系数γ和所述声源方向信息的权重系数α小。

9.一种在信息处理设备中进行信息分析处理的信息处理方法，该方法包括：

通过多个信息输入单元接收真实空间的观测信息的输入；

通过事件检测单元基于对从所述信息输入单元输入的信息的分析，产生事件信息，所述事件信息包括存在于所述真实空间中的用户的估计位置信息和估计标识信息；以及

通过信息整合处理单元接收所述事件信息的输入，并且基于输入的事件信息来产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息，

其中在所述目标信息的产生中，进行以下处理：通过将基于说话场景的权重乘以在所述事件信息的产生中输入的多条不同信息，来计算代表每个目标的话语源概率的指标值，作为话语源分数。

10.一种使信息处理设备执行以下信息分析的程序：

通过多个信息输入单元接收真实空间的观测信息的输入；

通过信息整合处理单元接收事件的输入，并且基于输入的事件信息产生包括每个用户的位置和用户标识信息的目标信息以及代表事件产生源的概率值的信号信息，