CN102194456A

CN102194456A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN102194456A
Application number: CN2011100597428A
Authority: CN
Inventors: 泽田务
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-11
Filing date: 2011-03-04
Publication date: 2011-09-21
Also published as: US20110224978A1; JP2011186351A

Abstract

本发明涉及一种信息处理设备、信息处理方法和程序。信息处理设备包括：基于音频的语音识别处理单元，输入有作为真实空间的观察信息的音频信息，其执行基于音频的语音识别处理，从而生成被确定有高概率是被说出的字信息；基于图像的语音识别处理单元，输入有作为真实空间的观察信息的图像信息，其分析包含在输入图像中的每个用户的嘴部运动，从而生成嘴部运动信息；音频图像结合的语音识别得分计算单元，输入有字信息和嘴部运动信息，其执行对接近字信息的嘴部运动设置高得分的得分设置处理，从而执行得分设置处理；以及信息整合处理单元，输入有得分，并且执行说话者指定处理。

Description

信息处理设备、信息处理方法和程序

技术领域

本发明涉及一种信息处理设备、信息处理方法和程序。更具体地，本发明涉及这样的信息处理设备、信息处理方法和程序：其使得能够从外部环境输入诸如图像和声音的信息并且基于输入信息分析外部环境，具体地，指定(specify)对象的位置和辨识诸如说话人的对象。

背景技术

在人与诸如PC或机器人的信息处理设备之间执行通信或交互处理的系统称为人机交互系统。在这种人机交互系统中，诸如PC或机器人的信息处理设备接收图像信息或音频信息，分析所接收的信息，并且辨识人的语音或动作。

当人传递信息时，使用不仅包括字而且包括手势、视线方向、面部表情等各种范围的途径作为信息传递途径。如果机器可以执行所有途径的分析，则可以在与人与人之间的水平相同的水平实现人与机器之间的通信。执行来自该多个途径(在下文中，也称作模态或模式)的输入信息的分析的接口称为多模式接口，近年来已对其积极地进行了开发和研究。

当要输入并分析由摄像设备拍摄的图像信息以及由麦克风获取的音频信息时，例如，从安装在各个地点的多个摄像设备和麦克风输入大量信息以执行深入分析是有效的。

作为具体系统，例如，可以提出如下系统。可行的系统是这样的信息处理设备(电视机)：其经由摄像设备和麦克风输入电视机前方用户(父亲、母亲、姐妹和兄弟)的语音和图像，该信息处理设备分析每个用户在哪、哪个用户说了话等，并且根据向其输入的分析出的信息执行例如摄像设备朝向做出谈话的用户推进(zoom-in)、对用户谈话进行正确响应等处理。

相关技术中大多数一般的人机交互系统执行了诸如这样的处理：确定性地整合来自多个途径(模态)的信息，并且确定用户中的每个用户在哪、他们是谁以及谁发送了信号。对于引入这种系统的相关技术，存在例如日本未审查专利申请2005-271137和2002-264051号公报。

然而，在相关技术的系统中使用从摄像设备和麦克风输入的不确定和不同步数据的这种确定性的整合处理方法中，问题在于：只能获得鲁棒性不足和准确性低的数据。在实际系统中，可以从真实环境获取的传感器信息，换言之，来自摄像设备的输入图像或者从麦克风输入的音频信息包含包含例如噪声和不必要信息的不确定数据的多余信息，且当要执行图像分析或语音分析的处理时，有效率地整合来自这种传感器信息的有用信息是重要的。

本申请人已提交了日本未审查专利申请2009-140366号公报的申请作为用以解决问题的配置。日本未审查专利申请2009-140366号公报中公开的配置用于执行基于音频和图像事件检测信息的粒子滤波处理以及指定用户位置或用户身份的处理。该配置通过从包含噪声或不必要信息的不确定数据中选择具有高准确性的可靠数据实现用户位置和用户身份的指定。

日本未审查专利申请2009-140366号公报中公开的设备进一步执行通过检测从图像数据获得的嘴部运动指定说话者的处理。例如，这是估计出示出活跃嘴部运动的用户是说话者的概率高的处理。计算根据嘴部运动的得分，并将记录有高得分的用户指定为说话者。在此处理中，然而，由于只有嘴部运动是要评估的主题，所以存在例如咀嚼口香糖的用户也会被辨认为说话者的问题。

发明内容

本发明考虑到例如上述问题，期望提供这样的信息处理设备、信息处理方法和程序：使得能够通过与基于图像的语音识别处理相结合的使用基于音频的语音识别处理进行说话者的估计处理，来估计作为说话者的具体说话的用户。

根据本发明的实施例，一种信息处理设备包括：基于音频的语音识别处理单元，输入有作为真实空间的观察信息的音频信息，该基于音频的语音识别处理单元执行基于音频的语音识别处理，从而生成被确定有高概率是被说出的字信息；基于图像的语音识别处理单元，输入有作为真实空间的观察信息的图像信息，该基于图像的语音识别处理单元分析包含在输入图像中的每个用户的嘴部运动，从而生成以用户为单位的嘴部运动信息；音频图像结合的语音识别得分计算单元，从基于音频的语音识别处理单元输入有字信息，并且从基于图像的语音识别处理单元输入有以用户为单位的嘴部运动信息，该音频图像结合的语音识别得分计算单元执行对接近字信息的嘴部运动设置高得分的得分设置处理，从而执行以用户为单位的得分设置处理；以及信息整合处理单元，输入有得分，并且基于所输入的得分执行说话者指定处理。

此外，根据本发明的实施例，基于音频的语音识别处理单元执行作为基于音频的语音识别处理的ASR(音频语音识别)，以生成被确定有高概率是被说出的字信息的音素序列以作为ASR信息，基于图像的语音识别处理单元执行作为基于图像的语音识别处理的VSR(视觉语音识别)，以生成至少包含指示字语音时段中嘴部形状的视素信息的VSR信息，并且音频图像结合的语音识别得分计算单元以构成ASR信息中包含的字信息的音素为单位，将VSR信息中包含的以用户为单位的视素信息与注册视素信息相比较，以执行为具有高相似性的视素设置高得分的视素得分设置处理，并且通过与进一步构成字的所有音素相对应的视素得分的算术平均值或几何平均值的计算处理来计算作为与用户相对应的得分的AVSR得分。

此外，根据本发明的实施例，音频图像结合的语音识别得分计算单元执行与包含在ASR信息中的字信息之前和之后的静默时段相对应的视素得分设置处理，并且通过包括与构成字的所有音素相对应的视素得分以及与静默时段相对应的视素得分的得分的算术平均值或几何平均值的计算处理，来计算作为与用户相对应的得分的AVSR得分。

此外，根据本发明的实施例，音频图像结合的语音识别得分计算单元使用预先设置的先验知识的值，作为在未输入指示字语音时段的嘴部运动的视素信息的时段的视素得分。

此外，根据本发明的实施例，信息整合处理单元设置真实空间的用户信息的假设的概率分布数据，并且通过基于AVSR得分更新以及选择假设来执行说话者指定处理。

此外，根据本发明的实施例，信息处理设备还包括：音频事件检测单元，输入有作为真实空间的观察信息的音频信息，并且音频事件检测单元生成包含存在于真实空间中的用户的估计辨识信息和估计定位信息的音频事件信息；以及图像事件检测单元，输入有作为真实空间的观察信息的图像信息，并且图像事件检测单元生成包含存在于真实空间中的用户的估计辨识信息和估计定位信息的图像事件信息，并且信息整合处理单元设置有关用户的定位和辨识信息的假设的概率分布数据，并且通过基于事件信息更新以及选择假设，来生成包含存在于真实空间中的用户的定位信息的分析信息。

此外，根据本发明的实施例，信息整合处理单元被配置为通过执行被应用了设置有与虚拟用户相对应的多个目标数据的多个粒子的粒子滤波处理，来生成包含存在于真实空间中的用户的定位信息的分析信息，以及其中，信息整合处理单元被配置为将设置在所述粒子中的每个目标数据与从音频事件检测单元和图像事件检测单元输入的每个事件相关联地进行设置，并且根据输入事件标识符更新从每个粒子中选择的与所述事件相对应的目标数据。

此外，根据本发明的实施例，信息整合处理单元通过将目标关联到以由事件检测单元检测出的面部图像为单位的每个事件执行处理。

此外，根据本发明的另一实施例，一种在信息处理设备中实施的信息处理方法，包括步骤：处理基于音频的语音识别，其中，基于音频的语音识别处理单元输入有作为真实空间的观察信息的音频信息，该基于音频的语音识别处理单元执行基于音频的语音识别处理，从而生成被确定有高概率是被说出的字信息；处理基于图像的语音识别，其中，该基于图像的语音识别处理单元，输入有作为真实空间的观察信息的图像信息，基于图像的语音识别处理单元分析包含在输入图像中的每个用户的嘴部运动，从而生成以用户为单位的嘴部运动信息；计算音频图像结合的语音识别得分，其中，音频图像结合的语音识别得分计算单元，从基于音频的语音识别处理单元输入有字信息，并且从基于图像的语音识别处理单元输入有以用户为单位的嘴部运动信息，音频图像结合的语音识别得分计算单元执行对接近字信息的嘴部运动设置高得分的得分设置处理，从而执行以用户为单位的得分设置处理；以及处理信息整合，其中，信息整合处理单元，输入有得分，并且基于所输入的得分执行说话者指定处理。

此外，根据本发明的又一实施例，一种使信息处理设备执行信息处理的程序，信息处理包括步骤：处理基于音频的语音识别，其中，基于音频的语音识别处理单元输入有作为真实空间的观察信息的音频信息，该基于音频的语音识别处理单元执行基于音频的语音识别处理，从而生成被确定有高概率是被说出的字信息；处理基于图像的语音识别，其中，基于图像的语音识别处理单元，输入有作为真实空间的观察信息的图像信息，该基于图像的语音识别处理单元分析包含在输入图像中的每个用户的嘴部运动，从而生成以用户为单位的嘴部运动信息；计算音频图像结合的语音识别得分，其中，音频图像结合的语音识别得分计算单元，从基于音频的语音识别处理单元输入有字信息，并且从基于图像的语音识别处理单元输入有以用户为单位的嘴部运动信息，音频图像结合的语音识别得分计算单元执行对接近字信息的嘴部运动设置高得分的得分设置处理，从而执行以用户为单位的得分设置处理；以及处理信息整合，其中，信息整合处理单元，输入有得分，并且基于所输入的得分执行说话者指定处理。

另外，本发明的程序是例如可以对可以实施各种程序代码的计算机系统或信息处理设备以计算机可读形式通过记录介质或通信介质提供的程序。通过以计算机可读形式提供这种程序，在这种信息处理设备或计算机系统上实现根据程序的处理。

通过基于后面要描述的附图和本发明实施例的更详细描述将使得本发明其它的目的、特性或优点变得清楚。另外，本说明书中的系统是多个设备的逻辑组建结构，构成设备中的每个构成设备不限于在同一壳体中。

根据本发明实施例的配置，可以通过分析来自摄像设备或麦克风的输入信息实现说话者指定处理。执行基于音频的语音识别处理和基于图像的语音识别处理。此外，将被确定有高概率是被说出的字信息输入到基于音频的语音识别处理单元，将作为以用户为单位的嘴部运动分析信息的视素信息输入到基于图像的语音识别处理，以构成字的音素为单位在信息接近发出每个音素的嘴部运动时对信息设置高得分，以设置以用户为单位的得分。此外，通过应用以用户为单位的得分基于该得分执行说话者指定处理。通过该处理，可以将示出接近所说内容的嘴部运动的用户指定为生成源，并以高准确性实现说话者指定。

附图说明

图1是例示根据本发明实施例的信息处理设备执行的处理的概况的图；

图2是例示执行用户分析处理的信息处理设备进行的处理和构成的图；

图3A和图3B是例示由音频事件检测单元122和图像事件检测单元112生成的并且输入到音频图像整合处理单元131的信息的实例的图；

图4A至图4C是例示应用了粒子滤波器的基本处理实例的图；

图5是例示处理实例中设置的粒子的构成的图；

图6是例示包括在每个粒子中的每个目标的目标数据的构成的图；

图7是例示目标信息的构成和生成过程的图；

图8是例示目标信息的构成和生成过程的图；

图9是例示目标信息的构成和生成过程的图；

图10是示出由音频图像整合处理单元131进行的执行处理序列的流程图的图；

图11是详细例示粒子权重[W_pID]的计算处理的图；

图12是例示执行语音源指定处理的信息处理设备的构成和进行的处理的图；

图13是例示语音源指定处理的AVSR得分计算处理实例的图；

图14是例示语音源指定处理的AVSR得分计算处理实例的图；

图15是例示语音源指定处理的AVSR得分计算处理实例的图；

图16是例示语音源指定处理的AVSR得分计算处理实例的图；

图17是示出语音源指定处理的AVSR得分计算处理序列的流程图的图。

具体实施方式

下文中，将参照附图详细描述根据本发明实施例的信息处理设备、信息处理方法和程序。将按照下面的主题提供描述。

1.关于通过基于音频和图像事件检测信息的粒子滤波进行的用户定位和用户辨识处理的概况

2.关于通过基于语音和图像的语音识别进行的与得分(AVSR得分)计算处理相关联的说话者指定处理

此外，本发明基于作为申请人先前申请的日本专利申请2007-317711号(日本未审查专利申请2009-140366号公报)的技术，将在以上主题1中描述其中公开的发明的概况和组成。此后，将在以上主题2中描述作为本发明主要主题的通过基于语音和图像的语音识别进行的与得分(AVSR得分)计算处理相关联的说话者指定处理。

[1.关于通过基于音频和图像事件检测信息的粒子滤波进行的用户定位和用户辨识处理的概况]

首先，将提供对通过使用音频事件和图像事件检测信息的粒子滤波进行的用户定位和用户辨识处理的概况的描述。图1是例示该处理的概况的图。

信息处理设备100从输入来自真实空间的观察信息的传感器输入有各种信息。在此实例中，信息处理设备100从作为传感器的摄像设备21和多个麦克风31至34输入图像信息和音频信息，并且基于输入的信息执行环境的分析。信息处理设备100分析附图标记11至14表示的多个用户1至4的定位，并且辨识在这些定位的用户。

在附图标记为11的用户1至附图标记为14的用户4是由父亲、母亲、姐妹以及兄弟组成的家庭的情形中，例如，在图中示出的实例中，信息处理设备100执行从摄像设备21和多个麦克风31至34输入的图像和音频信息的分析，确定从用户1至用户4的4个用户的定位，并且辨识各定位中的每个定位的用户是父亲、母亲、姐妹、还是兄弟。在各种处理中使用辨识处理结果。例如，在这样的处理中使用该结果：摄像设备朝向正说话的用户推进(zoom-in)、从电视机对用户的语音给出响应。

信息处理设备100基于来自多个信息输入单元(摄像设备21和麦克风31至34)的输入信息执行作为用户定位和用户身份指定处理的用户辨识处理。辨识结果的使用没有特定限制。从摄像设备21和多个麦克风31至34输入的图像和音频信息包含各种不确定信息。信息处理设备100对包含在这种输入信息中的不确定信息执行概率处理，然后执行处理以整合到被估计为具有高准确性的信息中。通过估计处理，提高了鲁棒性，并可以以高准确性执行分析。

图2示出信息处理设备100的结构实例。信息处理设备100包括作为输入设备的图像输入单元(摄像设备)111和多个音频输入单元(麦克风)121a至121d。从图像输入单元(摄像设备)111输入图像信息，从音频输入单元(麦克风)121输入音频信息，并基于输入的信息进行分析。多个音频输入单元(麦克风)121a至121d中的每个音频输入单元如图1中所示布置在不同定位。

将从多个麦克风121a至121d输入的音频信息经由音频事件检测单元122输入到音频图像整合处理单元131。音频事件检测单元122分析和整合从布置于多个不同定位的多个音频输入单元(麦克风)121a至121d输入的音频信息。具体地，音频事件检测单元122基于从音频输入单元(麦克风)121a至121d输入的音频信息生成关于产生的声音的定位和哪个用户产生了该声音的用户辨识信息，并输入到音频图像整合处理单元131。

此外，由信息处理设备100执行的具体处理是辨识例如用户1至4在哪、在如图1中所示多个用户存在的环境中哪个用户说了话，换言之，指定用户定位和用户身份，以及执行指定诸如说话的人(说话者)的事件生成源的处理。

音频事件检测单元122分析从布置于不同的多个定位的多个音频输入单元(麦克风)121a至121d输入的音频信息，并作为概率分布数据生成音频生成源的定位信息。具体地，生成关于音频源方向的预期值以及离差数据N(m_e，σ_e)。另外，基于与已预先注册的用户的语音特性的信息的比较处理生成用户辨识信息。作为概率估计值生成辨识信息。音频事件检测单元122预先注册有要验证的多个用户的语音特性信息，通过执行与输入语音和注册语音的比较处理确定哪个用户发出语音的概率高，并且计算所有注册用户的后验概率或得分。

这样，音频事件检测单元122分析从布置在各种不同定位的多个音频输入单元(麦克风)121a至121d输入的音频信息，生成由音频生成源的定位信息的概率分布数据以及用户辨识信息的概率估计值构建的“整合音频事件信息”，以输入到音频图像整合处理单元131。

另一方面，将从图像输入单元(摄像设备)111输入的图像信息经由图像事件检测单元112输入到音频图像整合处理单元131。图像事件检测单元112分析从图像输入单元(摄像设备)111输入的图像信息，提取包含在图像中的人的面部，并且作为概率分布数据的生成面部定位信息。具体地，生成关于面部方向和定位的预期值和离差数据N(m_e，σ_e)。

另外，图像事件检测单元112通过基于与已预先注册的用户面部特性信息的比较处理辨识面部来生成用户辨识信息。作为概率估计值生成辨识信息。图像事件检测单元112预先注册有要验证的多个用户的面部特性的信息，通过执行与从输入图像中提取的面部区域信息的特性信息以及注册的面部图像的特性信息的比较处理来确定哪个用户具有该面部的概率高，并且计算所有注册用户的后验概率或得分。

此外，图像事件检测单元112计算与从图像输入单元(摄像设备)111输入的图像中包含的面部相对应的属性得分，例如，基于例如嘴部区域的运动生成的面部属性得分。

可以在这样的设置下计算面部属性得分，例如：

(a)根据图像中包含的面部的嘴部区域中的运动程度的得分；以及

(b)根据图像中包含的面部的嘴部区域中的运动与语音识别之间的对应关系的得分。

除了这些之外，可以在诸如面部是否微笑、面部是女性的还是男性的、面部是成年人的还是儿童的等的设置下计算面部属性得分。

在下文中，将提供对计算以及使用面部属性得分的实例的描述：

(a)与图像中包含的面部的嘴部区域的运动相对应的得分。

即，计算与面部的嘴部区域中的运动的程度相对应的得分，作为面部属性得分，并基于面部属性得分执行说话者指定处理。

如以上简单描述的，然而，在用以根据嘴部运动的程度计算得分的处理中，问题在于：因为不容易从咀嚼口香糖的或者向系统说无关话的用户进行的运动区分相关嘴部运动，所以不容易指定向系统给出请求的用户的语音(speech)。

在后半部分的主题2(即，<2.关于通过基于语音和图像的语音识别进行的与得分(AVSR得分)计算处理相关联的说话者指定处理>)中，对(b)根据图像中包含的面部的嘴部区域中的运动与语音识别之间的对应关系的得分的计算处理和说话者指定处理提供描述，作为用以解决问题的方式。

首先，在主题1中描述计算并使用(a)根据图像中包含的面部的嘴部区域中的运动程度的得分作为面部属性得分的实例。

图像事件检测单元112从自图像输入单元(摄像设备)111输入的图像中包含的面部区域区分嘴部区域，检测嘴部区域中的运动，并且执行给出与嘴部区域中运动的检测结果相对应的得分(例如，在确定嘴部已运动时给出高得分)的处理。

此外，执行检测嘴部区域中运动的处理作为应用VSD(视觉语音检测，Visual Speech Detection)的处理。可以应用与本发明相同申请人的日本未审查专利申请2005-157679号公报中公开的方法。更具体地，例如，从根据来自图像输入单元(摄像设备)111的输入图像检测的面部图像中检测嘴唇的左右端点，并且在第N帧和第N+1帧中，排列嘴唇的左右端点，然后计算亮度差。通过对该差值执行阈值处理，可以检测嘴部的运动。

此外，将相关领域中的技术应用于由音频事件检测单元122和图像事件检测单元112执行的语音辨识、面部检测和面部辨识的处理。例如，面部检测和面部辨识的处理可以应用以下文件中公开的技术：

Kotaro Sabe和Kenichi Hidai的“Learning of an actual time arbitrary posture and face detector using pixel difference feature”，Proceedings of the 10^th Symposium on Sensing via Imaging Information，第547-552页，2004

日本未审查专利申请2004-302644号公报(P2004-302644A)[发明名称：面部辨识设备、面部辨识方法、记录介质和机器人设备]

音频图像整合处理单元131基于来自音频事件检测单元122和图像事件检测单元112的输入信息，执行概率性地估计多个用户中的每个用户在哪、用户是谁以及哪个用户给出了包含语音的信号的处理。后面将详细描述该处理。音频图像整合处理单元131基于来自音频事件检测单元122和图像事件检测单元112的输入信息将下面的信息输入到处理确定单元132：

(a)作为[目标信息]的用于估计多个用户中的每个用户在哪以及用户是谁的信息；以及

(b)作为[信号信息]的诸如用户(例如说话的用户)的事件生成源。

接收辨识处理结果的处理确定单元132通过使用辨识处理结果执行处理，例如，摄像设备朝向说话的用户推进的处理、或者从电视机向用户发出的语音进行响应的处理。

如上所述，音频事件检测单元122生成关于音频生成源的定位信息的概率分布数据，具体地，音频源方向的预期值以及离差数据N(m_e，σ_e)。另外，该单元基于与预先注册的用户语音的特性信息的比较处理生成用户辨识信息，并且将该信息输入到音频图像整合处理单元131。

另外，图像事件检测单元112提取图像中包含的人的面部，并且作为概率分布数据生成关于面部定位的信息。具体地，该单元生成与面部的方向和定位有关的预期值和离差数据N(m_e，σ_e)。此外，该单元基于与预先注册的用户面部特性信息的比较处理生成用户辨识信息，并将信息输入到音频图像整合处理单元131。此外，图像事件检测单元112例如通过以这样的方式检测嘴部区域的运动、计算与嘴部区域中运动的检测结果相对应的得分(具体地，面部属性得分)，来根据从图像输入单元(摄像设备)111输入的图像中的面部区域检测面部属性得分作为面部属性信息：对确定嘴部中运动的程度大的情形给出高得分并且将得分输入到音频图像整合处理单元131。

将参照图3A和图3B描述由音频事件检测单元122和图像事件检测单元112生成的、并且输入到音频图像整合处理单元131的信息的实例。

在本发明的配置中，图像事件检测单元112生成并将以下数据输入到音频图像整合处理单元131：

(Va)与面部的方向和定位有关的预期值和离差数据N(m_e，σ_e)；

(Vb)基于面部图像的特性的信息的用户辨识信息；以及

(Vc)与检测的面部属性相对应的得分，例如，基于嘴部区域中的运动生成的面部属性得分。

音频事件检测单元122将以下数据输入到音频图像整合处理单元131：

(Aa)与音频源的方向有关的预期值和离差数据N(m_e，σ_e)；以及

(Ab)基于关于语音的特性的信息的用户辨识信息。

图3A示出如参照图1所述布置同样的摄像设备和麦克风、并且存在附图标记为201至20k的多个用户1至k的真实环境的实例。在该环境中，当用户说话时，经由麦克风输入用户的语音。另外，摄像设备连续捕获图像。

将由音频事件检测单元122和图像事件检测单元112生成的、并且输入到音频图像整合处理单元131的信息主要分类成以下三个类型：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分)。

换言之，(a)用户定位信息是结合有如下内容的整合数据：

(Va)由图像事件检测单元112生成的与面部的方向和定位有关的预期值和离差数据N(m_e，σ_e)；以及

(Aa)由音频事件检测单元122生成的与音频源的方向有关的预期值和离差数据N(m_e，σ_e)。

另外，(b)用户辨识信息(面部辨识信息或说话者辨识信息)是结合有如下内容的整合数据：

(Vb)由图像事件检测单元112生成的基于面部图像的特性的信息的用户辨识信息；以及

(Ab)由音频事件检测单元122生成的基于声音的特性的信息的用户辨识信息。

(c)面部属性信息(面部属性得分)对应于：

(Vc)与检测的面部属性相对应的得分，例如，由图像事件检测单元112生成的基于嘴部区域中的运动生成的面部属性得分。

无论何时出现事件均生成以下三项信息：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分)。

音频事件检测单元122在从音频输入单元(麦克风)121a至121d输入音频信息时基于该音频信息生成以上(a)用户定位信息和(b)用户辨识信息，并将该信息输入到音频图像整合处理单元131。图像事件检测单元112以预先确定的规则帧间隔、基于从图像输入单元(摄像设备)111输入的图像信息来生成(a)用户定位信息、(b)用户辨识信息以及(c)面部属性信息(面部属性得分)，并且将信息输入到音频图像整合处理单元131。此外，此实例示出设置一个摄像设备作为图像输入单元(摄像设备)111，并设置该一个摄像设备来捕获多个用户的图像，在此情形中，对一个图像中包含的多个面部中的每个面部生成(a)用户定位信息和(b)用户辨识信息，并且将该信息输入到音频图像整合处理单元131。

将对由音频事件检测单元122进行的基于从音频输入单元(麦克风)121a至121d输入的音频信息生成以下信息的处理提供描述：

(a)用户定位信息；以及

(b)用户辨识信息(说话者辨识信息)。

[由音频事件检测单元122生成(a)用户定位信息的处理]

音频事件检测单元122生成用于估计基于从音频输入单元(麦克风)121a至121d输入的音频信息分析的用户(即，说话的说话者)定位的信息。换言之，将成说话者所在的定位生成为由预期值(均值)[m_e]和离差信息[σ_e]构成的高斯分布(正态分布)数据N(m_e，σ_e)。

[由音频事件检测单元122生成(b)用户辨识信息(说话者辨识信息)的处理]

音频事件检测单元122通过与预先注册的用户1至k的语音特性信息以及输入语音的比较处理基于从音频输入单元(麦克风)121a至121d输入的音频信息估计说话者是谁。更具体而言，计算说话者是用户1至k中每个用户的概率。计算出的值被采用为(b)用户辨识信息(说话者辨识信息)。例如，通过这样的方式的处理生成设置有说话者是用户中每个用户的概率的数据：为音频输入的特性最接近注册的语音特性的用户分配最高得分，并且为特性与注册特性最不同的用户分配最低得分(例如，0)，并且采用所述数据作为(b)用户辨识信息(说话者辨识信息)。

接下来，将对由图像事件检测单元112进行的基于从图像输入单元(摄像设备)111输入的图像信息生成以下信息的处理提供描述：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息)；以及

(c)面部属性信息(面部属性得分)。

[由图像事件检测单元112生成(a)用户定位信息的处理]

图像事件检测单元112生成用于对从图像输入单元(摄像设备)111输入的图像信息中包含的每个面部估计面部的定位的信息。换言之，估计出存在从图像中检测的面部的定位被生成为由预期值(均值)[m_e]和离差信息[σ_e]构成的高斯分布(正态分布)数据N(m_e，σ_e)。

[由图像事件检测单元112生成(b)用户辨识信息(面部辨识信息)的处理]

图像事件检测单元112检测图像信息中包含的面部，并且通过与预先注册的用户1至k的面部特性信息以及输入图像信息的比较处理基于从图像输入单元(摄像设备)111输入的图像信息估计面部是谁的。更具体而言，计算提取的面部是用户1至k中每个用户的概率。采用计算出的值作为(b)用户辨识信息(面部辨识信息)。例如，通过这样的方式的处理生成具有面部是用户中每个用户的概率的数据集：为输入图像中包含的面部的特性最接近面部的注册特性的用户分配最高得分，并且为特性与注册特性最不同的用户分配最低得分(例如，0)，并且采用所述数据作为(b)用户辨识信息(面部辨识信息)。

[由图像事件检测单元112生成(c)面部属性信息(面部属性得分)的处理]

图像事件检测单元112可以基于从图像输入单元(摄像设备)111输入的图像信息检测图像信息中包含的面部区域，并且对每个检测面部的属性计算属性得分，具体地，如上所述的面部的嘴部区域中的运动、面部是否微笑、面部是男性的还是女性的、面部是成年人的还是儿童的等，但是在本处理实例中，对计算以及使用与图像中包含的面部的嘴部区域中的运动相对应的得分作为面部属性得分提供描述。

作为计算与面部的嘴部区域中的运动相对应的得分的处理，图像事件检测单元112从自来自图像输入单元(摄像设备)111的输入图像中检测到的面部图像中检测嘴唇的左右端点，通过在第N帧和第N+1帧中排列嘴唇的左右端点计算亮度差，如上所述执行对此差值的阈值处理。通过该处理，检测嘴部运动，并且设置通过给出与嘴部运动的大小对应的高得分计算的面部属性得分。

此外，当从摄像设备的捕获图像中检测到多个面部时，图像事件检测单元112生成与每个面部相对应的事件信息，作为检测的面部的单独的事件。换言之，该单元生成包含以下信息的事件信息以输入到音频图像整合处理单元131：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息)；以及

(c)面部属性信息(面部属性得分)。

此实例示出了使用一个摄像设备作为图像输入单元111，但是可以使用由多个摄像设备捕获的图像，在该情形中，图像事件检测单元112对由摄像设备捕获的图像中每个图像中包含的每个面部生成以下信息，以输入到音频图像整合处理单元131：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息)；以及

(c)面部属性信息(面部属性得分)。

接下来，将描述由音频图像整合处理单元131执行的处理。音频图像整合处理单元131顺序地输入图3B中示出的三项信息，这些信息是如上所述来自音频事件检测单元122和图像事件检测单元112的：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分)。

对每项信息可以有输入时刻的各种设置，但是例如，可以将音频事件检测单元122设置为生成(a)和(b)信息中的每个信息作为用于在要输入新声音时输入的音频事件信息，可以将图像事件检测单元112设置为生成以上(a)、(b)以及(c)信息中的每个信息，作为用于以规则帧周期为单位输入的图像事件信息。

将参照图4A至图4C以及后续的图描述由音频图像整合处理单元131执行的处理。音频图像整合处理单元131设置关于用户定位和辨识信息的假设的概率分布数据，并通过基于输入信息更新假设以使得只剩余可取假设来执行处理。作为处理方法，执行应用了粒子滤波器的处理。

通过设置与各种假设相对应的大量粒子执行应用了粒子滤波器的处理。根据本实例，对应于诸如用户在哪以及用户是谁的假设设置大量粒子。除此之外，基于图3B中示出的三项输入信息，由音频事件检测单元122和图像事件检测单元112执行增加更可能的粒子的权重的处理，这些信息是：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分)。

将参照图4A至图4C描述应用了粒子滤波器的基本处理实例。例如，图4A至图4C的实例示出了用粒子滤波器估计与用户对应的存在定位的处理。图4A至图4C的实例是估计直线上一维区域中用户301的定位的处理。

初始假设(H)是如图4A中所示的均匀粒子分布数据。接下来，获取图像数据302，获取基于获取图像的用户301的存在概率分布数据作为图4B的数据。更新图4A的粒子分布数据，并且基于根据获取图像的概率分布数据获得图4C的更新后假设概率分布数据。基于输入信息重复执行这种处理，获得更准确的用户定位信息。

此外，例如D.Schulz、D.Fox以及J.Hightower的[People Tracking with Anonymous and ID-sensors Using Rao-Blackwellised Particle Filters]，Proceedings of the International Joint Conference on Artificial Intelligence(IJCAI-03)中公开了使用粒子滤波器的详细处理。

描述了图4A至图4C中示出的处理实例作为只将输入信息设置为关于用户存在定位的图像数据、以及各个粒子只具有关于用户301的存在定位信息的处理实例。

另一方面，基于来自音频事件检测单元122和图像事件检测单元112的图3B中示出的以下三项信息，换言之，基于输入信息：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分)。

执行确定多个用户在哪以及多个用户是谁的这些处理。因此，在应用了粒子滤波器的处理中，音频图像整合处理单元131设置与用户在哪儿以及用户是谁的假设相对应的大量粒子。基于来自音频事件检测单元122和图像事件检测单元112的图3B中示出的三项信息，更新粒子。

将参照图5描述音频图像整合处理单元131通过输入图3B中示出的、来自音频事件检测单元122和图像事件检测单元112的三项信息执行的粒子更新的处理实例：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分)。

将描述粒子的构成。音频图像整合处理单元131具有先前设置数量(＝m)的粒子。它们是图5中示出的粒子1至m。各个粒子设置有作为标识符的粒子ID(pID＝1至m)。

各个粒子设置有与虚拟对象相对应的tID＝1、2、...、n的多个目标。在本实例中，将例如与等于或高于被估计出存在于真实空间中的人的数量的虚拟用户相对应的多个目标(n数量)设置到每个粒子。m数量的粒子中的每个粒子以目标为单位持有目标数量的数据。根据图5中示例的实例，一个粒子包含n个目标。该图只示例了n个目标中两个目标(tID＝1和2)的具体数据实例。

音频图像整合处理单元131通过输入来自音频事件检测单元122和图像事件检测单元112的图3B中示出的事件信息执行m个粒子(pID＝1至m)的更新处理，这些信息是：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分[S_eID])。

图5中示出的音频图像整合处理单元131中设置的粒子1至m中每个粒子中包含的目标1至n中的每个目标预先对应于输入事件信息(eID＝1至k)中的每个输入事件信息，且根据对应性，更新与输入事件相对应的选定目标。更具体而言，例如，执行这样的处理：将图像事件检测单元112中检测的面部图像设置为单独的事件，并将目标与各个面部图像事件相关联。

将描述具体的更新处理。例如，按预定规则帧间隔，图像事件检测单元112基于从图像输入单元(摄像设备)111输入的图像信息生成(a)用户定位信息、(b)用户辨识信息以及(c)面部属性信息(面部属性得分)，以输入到音频图像整合处理单元131。

此时，在图5中示出的图像帧350是事件检测目标帧的情形中，检测按照图像帧中包含的面部图像的数量的事件。换言之，事件是与图5中示出的第一面部图像351相对应的事件1(eID＝1)以及与第二面部图像352相对应的事件2(eID＝2)。

图像事件检测单元112对事件(eID＝1和2)中的每个事件生成以下信息，以输入到音频图像整合处理单元131，这些信息是：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分)。

换言之，整合信息是图5中示出的事件对应信息361和362。

预先将音频图像整合处理单元131中设置的粒子1至m中包含的目标1至n中的每个目标配置为对应于事件(eID＝1至k)中的每个事件，并且预先设置要更新各个粒子中的哪个目标。此外，设置目标(tID)对事件(eID＝1至k)的对应性以不重叠。换言之，生成与获得事件的数量相同数量的事件生成源假设以避免各个粒子中的重叠。

在图5中示出的实例中，(1)粒子1(pID＝1)具有以下设置。

[事件ID＝1(eID＝1)]的对应目标＝[目标ID＝1(tID＝1)]

[事件ID＝2(eID＝2)]的对应目标＝[目标ID＝2(tID＝2)]

(2)粒子2(pID＝2)具有以下设置。

[事件ID＝1(eID＝1)]的对应目标＝[目标ID＝1(tID＝1)]

[事件ID＝2(eID＝2)]的对应目标＝[目标ID＝2(tID＝2)]

.

(m)粒子m(pID＝m)具有以下设置。

[事件ID＝1(eID＝1)]的对应目标＝[目标ID＝2(tID＝2)]

[事件ID＝2(eID＝2)]的对应目标＝[目标ID＝1(tID＝1)]

以此方式，将音频图像整合处理单元131中设置的粒子1至m中每个粒子中包含的目标1至n中的每个目标配置为对应于事件(eID＝1至k)中的每个事件，并且根据事件ID中的每个事件ID确定要更新每个粒子中包含的哪个目标。例如，在粒子1(pID＝1)中，图5中示出的[事件ID＝1(eID＝1)]的事件对应信息361有选择地只更新目标ID＝1(tID＝1)的数据。

相似地，在粒子2(pID＝2)中，图5中示出的[事件ID＝1(eID＝1)]的事件对应信息361有选择地只更新目标ID＝1(tID＝1)的数据。另外，在粒子m(pID＝m)中，图5中示出的[事件ID＝1(eID＝1)]的事件对应信息361有选择地只更新目标ID＝2(tID＝2)的数据。

图5中示出的事件生成源假设数据371和372是各个粒子中设置的事件生成源假设数据。在各个粒子中设置事件生成源假设数据，并根据设置信息确定与事件ID相对应的更新目标。

将参照图6描述粒子中的每个粒子中包含的目标数据中的每个目标数据。图6示出图5中示出的粒子1(pID＝1)中包含的一个目标(目标ID：tID＝n)375的目标数据的构成。如图6中所示，目标375的目标数据由以下数据构成，这些数据是：

(a)与目标中每个目标相对应的现有定位的概率分布[高斯分布：N(m_1n，σ_1n)]；以及

(b)指示各个目标是谁的用户确定性因子信息(uID)是

uID_1n1＝0.0

uID_1n2＝0.1

.

uID_1nk＝0.5

此外，(a)中示出的高斯分布N(m_1n，σ_1n)中的[m_1n，σ_1n]的(1n)指示：作为与粒子ID：pID＝1中目标ID：tID＝n相对应的存在概率分布的高斯分布。

另外，(b)中示出的用户确定性因子信息(uID)中的[uID_1n1]中包含的(1n1)指示：用户＝粒子ID：pID＝1中目标ID：tID＝n的用户1的概率。换言之，目标ID＝n的数据指示：

用户是用户1的概率是0.0；

用户是用户2的概率是0.1；

.

用户是用户k的概率是0.5。

返回图5，将对由音频图像整合处理单元131设置的粒子提供描述。如图5中所示，音频图像整合处理单元131设置预定数量(＝m)的粒子(pID＝1至m)，并且粒子中的每个粒子对被估计出存在于真实空间中的目标(tID＝1至n)中的每个目标具有如下目标数据：

(a)目标中每个目标对应的存在定位的概率分布[高斯分布：N(m，σ)]；以及

(b)指示各个目标是谁的用户确定性因子信息(uID)。

音频图像整合处理单元131输入图3B中示出的事件信息，即，来自音频事件检测单元122和图像事件检测单元112的以下事件信息(eID＝1、2...)，这些信息是：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分[S_eID])，

并且执行与在粒子中的每个粒子中预先设置的每个事件相对应的目标的更新。

此外，要更新目标数据中每个目标数据中包含的以下数据，这些数据是：

(a)用户定位信息；以及

(b)用户辨识信息(面部辨识信息或说话者辨识信息)。

最终使用(c)面部属性信息(面部属性得分[S_eID])作为指示事件生成源的[信号信息]。如果输入了一定数量的事件，则更新每个粒子的权重，从而，持有最接近真实空间信息的数据的粒子的权重增加，持有不适合于真实空间信息的数据的粒子的权重减小。在这样生成以及随后以粒子的权重汇集偏差(bias)的阶段，计算基于面部属性信息(面部属性得分)的信号信息，即，指示事件生成源的[信号信息]。

将特定目标y(tID＝y)是事件(eID＝x)的生成源的概率表示为：

P_eID＝x(tID＝y)。

例如，当如图5中所示设置m个粒子(pID＝1至m)，并将两个目标(tID＝1、2)设置到粒子中的每个粒子时，第一个目标(tID＝1)是第一个事件(eID＝1)的生成源的概率是P_eID＝1(tID＝1)，且第二个目标(tID＝2)是第一个事件(eID＝1)的生成源的概率是P_eID＝1(tID＝2)。另外，第一个目标(tID＝1)是第二个事件(eID＝2)的生成源的概率是P_eID＝2(tID＝1)，且第二个目标(tID＝2)是第二个事件(eID＝2)的生成源的概率是P_eID＝2(tID＝2)。

指示事件生成源的[信号信息]是事件(eID＝x)的生成源是特定目标y(tID＝y)的概率，表示为：

P_eID＝x(tID＝y)，

这等于由音频图像整合处理单元131设置的粒子的数量(m)对分配给事件中每个事件的目标的数量的比率。在图5示出的实例中，建立以下对应关系：

P_eID＝1(tID＝1)＝[将tID＝1被分配给第一个事件(eID＝1)的粒子的数量/m]；

P_eID＝1(tID＝2)＝[将tID＝2被分配给第一个事件(eID＝1)的粒子的数量/m]；

P_eID＝2(tID＝1)＝[将tID＝1被分配给第二个事件(eID＝2)的粒子的数量/m]；以及

P_eID＝2(tID＝2)＝[将tID＝2被分配给第二个事件(eID＝2)的粒子的数量/m]。

最终使用所述数据作为指示事件生成源的[信号信息]。

用P_eID＝x(tID＝y)表示事件(eID＝x)的生成源是特定目标y(tID＝y)的概率，并且该数据还被应用于包含于目标信息中的面部属性信息的计算。换言之，在计算面部属性信息S_tID＝1～n时使用所述数据。面部属性信息S_tID＝y等于目标ID＝y的目标的面部属性的最终预期值，即，指示作为说话者的概率值。

音频图像整合处理单元131输入来自音频事件检测单元122和图像事件检测单元112的事件信息(eID＝1、2、...)，执行与在各粒子的每一个中预先设置的每个事件相对应的目标的更新，并且生成以下信息以输出到处理确定单元132，所述信息是：

(a)[目标信息]，包含：指示多个用户在哪的估计定位信息、指示用户是谁的估计辨识信息(估计uID信息)，此外，面部属性信息(S_tID)的预期值，例如，指示运动嘴部以说话的面部属性预期值；以及

(b)[信号信息]，指示例如说话用户的事件生成源。

[目标信息]被生成为：如图7右端的目标信息380中所示，与各粒子(pID＝1至m)的每一个中包含的各目标(tID＝1至n)中的每一个相对应的数据的加权和数据。图7示出音频图像整合处理单元131具有的m个粒子(pID＝1至m)以及根据该m个粒子(pID＝1至m)生成的目标信息380。后面将描述每个粒子的权重。

目标信息380包含与由音频图像整合处理单元131预先设置的虚拟用户相对应的目标(tID＝1至n)的以下信息：

(a)存在定位；

(b)用户是谁(uIDI至uIDk中的哪个)；以及

(c)面部属性的预期值(在该处理实例中，成为说话者的预期值(概率))。

基于如上所述指示事件生成源的[信号信息]的概率P_eID＝x(tID＝y)以及与每个事件相对应的面部属性得分S_eID＝i计算每个目标的(c)面部属性的预期值(在此处理实例中，成为说话者的预期值(概率))。i表示事件ID。

例如，通过下面给出的公式计算目标ID＝1的面部属性的预期值：S_tID＝1。

S_tID＝1＝∑_eIDP_eID＝i(tID＝1)×S_eID＝i

如果归纳该公式，则通过下面给出的公式计算目标的面部属性的预期值：S_tID。

S_tID＝∑_eIDP_eID＝i(tID)×S_eID...(公式1)

如图5中所示，当系统中存在两个目标时，例如，图8示出在一个图像帧中将两个面部图像事件(eID＝1和2)从图像事件检测单元112输入到音频图像整合处理单元131时对每个目标(tID＝1和2)计算面部属性的预期值的实例。

图8右端的数据是这样的目标信息390：其等同于图7中示出的目标信息380、并且等同于作为与包含于每个粒子(pID＝1至m)中的每个目标(tID＝1至n)相对应的数据的加权和数据生成的信息。

基于如上所述的等同于指示事件生成源的[信号信息]的概率[P_eID＝x(tID＝y)]以及与每个事件相对应的面部属性得分[S_eID＝1]计算目标信息390中每个目标的面部属性。i表示事件ID。

用如下内容表示目标ID＝1的面部属性的预期值：S_tID＝1：

S_tID＝1＝∑_eIDP_eID＝i(tID＝1)×S_eID＝i，以及

用如下内容表示目标ID＝2的面部属性的预期值：S_tID＝2：

S_tID＝2＝∑_eIDP_eID＝i(tID＝2)×S_eID＝i。

每个目标的面部属性预期值的所有目标的和：S_tID是[1]。在处理实例中，从0至1设置每个目标的面部属性：S_tID的预期值，并确定具有高预期值的目标是说话者的概率高。

此外，当面部图像事件eID中不存在(面部属性得分[S_eID])时(例如，当因为用手覆盖嘴部而即使可以检测面部也无法检测嘴部运动时)，在面部属性得分[S_eID]中使用先验知识[S_prior]的值。可以采用这样的配置：当存在对每个目标先前获取的值时，使用该值作为先验知识的值，或者计算来自事先离线获得的面部图像事件的面部属性的平均值以便使用。

一个图像帧中的面部图像事件的数量以及目标的数量不限于在所有时间均相同。由于在目标的数量高于面部图像事件的数量时，等同于指示上述事件生成源的[信号信息]的概率[P_eID(tID)]的和不是[1]，所以基于每个目标的面部属性的上述预期值计算公式，即S_tID＝∑_eIDP_eID＝i(tID)×S_eID...(公式1)，目标的预期值的和不是[1]。因此，无法计算高准确性的预期值。

如图9中所示，由于在未检测到与存在于图像帧350中的先前处理帧中的第三事件相对应的第三面部图像395时，基于上面(公式1)，目标的预期值的和不是[1]，所以无法计算高准确性的预期值。在该情形中，修改目标的面部属性的预期值计算公式。换言之，为了使目标的面部属性预期值[S_tID]的和为[1]，通过使用补数[1-∑_eIDP_eID(tID)]以及先验知识[S_prior]的值通过以下公式(公式2)计算面部事件属性的预期值[S_tID]。

S_tID＝∑_eIDP_eID(tID)×S_eID+(1-∑_eIDP_eID(tID))×S_prior...(公式2)

图9设置有与系统中事件相对应的三个目标，以及示例在一个图像帧中只将两个目标从图像事件检测单元112输入到音频图像整合处理单元131作为面部图像事件时面部属性的预期值的计算实例。

可以进行这样的计算：

通过S_tID＝1＝∑_eIDP_eID＝i(tID＝1)×S_eID＝i+(1-∑_eIDP_eID(tID＝1))×S_prior计算目标ID＝1的面部属性的预期值：S_tID＝1，

通过S_tID＝2＝∑_eIDP_eID＝i(tID＝2)×S_eID＝i+(1-∑_eIDP_eID(tID＝2))×S_prior计算目标ID＝2的面部属性预期值：S_tID＝2，以及

通过S_tID＝3＝∑_eIDP_eID＝i(tID＝3)×S_eID＝i+(1-∑_eIDP_eID(tID＝3))×S_prior计算目标ID＝3的面部属性预期值：S_tID＝3。

相反，当目标的数量低于面部图像事件的数量时，生成目标以使得数量与事件的数量相同，并通过应用上述(公式1)计算每个目标的面部属性预期值[S_tID＝1]。

此外，在该处理实例中，基于与嘴部运动相对应的得分(即，预期各个目标是说话者的值)将面部属性描述为指示面部属性预期值的数据。如上所述，然而，可以作为基于微笑、年龄等的得分计算面部属性得分，并根据该得分作为属性数据计算该情形中面部属性的预期值。

另外，根据后半部分的主题[2.关于通过基于语音和图像的语音识别进行的与得分(AVSR得分)计算处理相关联的说话者指定处理]，还可以计算语音识别的得分(AVSR得分)，根据语音识别的得分作为属性数据计算此情形中面部属性的预期值。

根据粒子的更新，连续更新目标信息，例如，当用户1至k未在真实环境中运动时，用户1至k中的每个用户会聚(converge)为与从n个目标(tID＝1至n)中选择的k个目标相对应的数据。

例如，包含于图7中示出的目标信息380的最上方目标1(tID＝1)的数据中的用户确定性因子信息(uID)时用户2的概率最高(uID₁₂＝0.7)。因此，估计出目标1(tID＝1)的数据对应于用户2。此外，指示用户确定性因子信息(uID)的数据[uID₁₂＝0.7]的(uID₁₂)中的(12)是与目标ID＝1的用户2的用户确定性因子信息(uID)相对应的概率。

目标信息380的最上方目标1(tID＝1)的数据具有是用户2的最高概率，且估计出用户2的现有定位在包含于目标信息380的最上方目标1(tID＝1)的数据中的存在概率分布数据的范围内。

这样，目标信息380指示初始设置为虚拟对象(虚拟用户)的目标(tID＝1至n)中每个目标的以下信息：

(a)现有定位；

(b)用户是谁(uID1至uIDk中的哪一个)；以及

(c)面部属性预期值(在此处理实例中，是说话者的预期值(概率))。

因此，目标(tID＝1至n)中k个目标的每个信息会聚，以在用户不运动时对应于用户1至k。

如前所述，音频图像整合处理单元131基于输入信息执行粒子的更新处理，并生成以下信息以输入到处理确定单元132。

(a)[目标信息]，作为用于估计多个用户中的每个用户在哪以及用户是谁的信息

(b)[信号信息]，指示诸如例如说话用户的事件生成源。

这样，音频图像整合处理单元131执行应用了设置有与虚拟用户相对应的多个目标数据的多个粒子的粒子滤波处理，并且生成包含真实空间中存在的用户的定位信息的分析信息。换言之，将粒子中设置的目标数据中的每个目标数据设置为与从事件检测单元输入的事件中的每个事件相对应，并且根据输入事件标识符更新与从粒子中的每个粒子选择的事件相对应的目标数据。

另外，音频图像整合处理单元131计算各个粒子中设置的事件生成源假设目标与从事件检测单元输入的事件信息之间的似然性，并将根据各个粒子中似然性大小的值设置为粒子权重。然后，音频图像整合处理单元131执行通过优先级重新选择粒子权重大的粒子的重新采样处理，并执行粒子更新处理。下面将描述此处理。此外，对于各个粒子中设置的目标，在将逝去的时间考虑在内的情况下执行更新处理。另外，按照各个粒子中设置的事件生成源假设目标的数量，生成信号信息作为事件生成源的概率值。

参照图10中示出的流程图，将描述处理序列，其中，音频图像整合处理单元131输入图3B中示出的事件信息，换言之，来自音频事件检测单元122和图像事件检测单元112的用户定位信息、用户辨识信息(面部辨识信息或说话者辨识信息)。通过输入这种事件信息，音频图像整合处理单元131生成：

(a)[目标信息]，作为用于估计多个用户中的每个用户在哪以及用户是谁的信息以及

(b)[信号信息]，指示诸如例如说话用户的事件生成源以输出到处理确定单元132。

首先，在步骤S101中，音频图像整合处理单元131输入来自音频事件检测单元122和图像事件检测单元112的如下事件信息，这些信息是：

(a)用户定位信息；

(b)用户辨识信息(面部辨识信息或说话者辨识信息)；以及

(c)面部属性信息(面部属性得分)。

当事件信息的获取成功时，处理前进到步骤S102，当事件信息的获取失败时，处理前进到步骤S121。后面将描述步骤S121中的处理。

当事件信息的获取成功时，音频图像整合处理单元131在步骤S102和后续步骤中基于输入信息执行粒子的更新处理。在粒子更新处理之前，首先，在步骤S102中，确定新目标设置对于各个粒子是否有必要。在根据本发明实施例的配置中，如以上参照图5所述，由音频图像整合处理单元131设置的粒子1至m中的每个粒子中包含的目标1至n中的每个目标预先对应于各项输入事件信息(eID＝1至k)。根据对应性，将更新配置为对与输入事件相对应的选定目标执行。

因此，例如，在从图像事件检测单元112输入的事件的数量高于目标的数量的情形中，有必要进行新的目标设置。更具体而言，例如，该情形对应于迄今尚未存在过的面部在图5中所示的图像帧350中出现的情形等。在这种情形中，处理前进到步骤S103，并在各个粒子中设置新目标。将此目标设置为在对应于新事件的情况下更新的目标。

接下来，在步骤S104中，对由音频图像整合处理单元131设置的各个粒子1至m中的m个粒子(pID＝1至m)设置事件生成源的假设。对于事件生成源，例如，说话的用户是音频事件的事件生成源，具有提取面部的用户是图像事件的事件生成源。

如以上参照图5所述，设置本发明的假设设置处理，使得粒子1至m中的每个粒子中包含的目标1至n中的每个目标对应于每项输入事件信息(eID＝1至k)。

换言之，如之前参照图5所述，粒子1至m的每个粒子中包含的目标1至n中的每个目标被设置为对应于事件(eID＝1至k)中的每个事件，并更新粒子中的每个粒子中包含的哪个目标。以此方式，生成与获得的事件相同数量的事件生成源假设以避免重叠各个粒子。应当注意，在初始阶段，例如，可以采用各个事件均匀分布的这种设置。由于将粒子的数量(＝m)设置得高于目标的数量(＝n)，所以将多个粒子被设置为具有相同事件ID对目标ID的这种对应性的粒子。例如，在目标的数量(＝n)是10的情形中，执行将粒子的数量(＝m)设置为约100至1000等的这种处理。

在步骤S104中的假设设置之后，处理前进到步骤S105。在步骤S105中，计算各个粒子对应的权重，即，粒子权重[W_pID]。在初始阶段，针对粒子中的每个粒子将粒子权重[W_pID]设置为统一值，但是根据每个事件输入对粒子权重进行更新。

参照图11，将详细描述粒子权重[W_pID]的计算处理。粒子权重[W_pID]等同于生成事件生成源假设目标的各个粒子的假设正确性系数。将粒子权重[W_pID]计算为事件与目标之间的似然性，其是与m个粒子(pID＝1至m)中每个粒子中设置的多个目标中的每个目标相对应的事件生成源的输入事件的相似性。

图11示出音频图像整合处理单元131从音频事件检测单元122和图像事件检测单元112输入的与一个事件(eID＝1)相对应的事件信息401，以及音频图像整合处理单元131持有的一个粒子421。粒子421的目标(tID＝2)是与事件(eID＝1)相对应的目标。

图11的下半部分示出事件与目标之间似然性的计算处理实例。粒子权重[W_pID]被计算为与事件与目标之间的似然性的和相对应的值，作为每个粒子中计算的事件与目标之间的相似性指数。

图11的下半部分示出的似然性计算处理示出各自计算以下似然性的实例。

(a)高斯分布之间的似然性[DL]：用作用户定位信息的目标数据与事件之间的相似性数据

(b)用户确定性因子信息(uID)之间的似然性[UL]：用作用户辨识信息(面部辨识信息或说话者辨识信息)的目标数据与事件之间的相似性数据

将(a)高斯分布之间的似然性[DL]用作用户定位信息的目标数据与事件之间的相似性数据的计算处理如下。

在输入事件信息中，利用与用户定位信息相对应的高斯分布是N(m_e，σ_e)以及与从粒子选择的假设目标的用户定位信息相对应的高斯分布是N(m_t，σ_t)的定义，通过以下公式计算高斯分布之间的似然性[DL]。

DL＝N(m_t，σ_t+σ_e)×|m_e

以上公式用于计算离差是σ_t+σ_e并且中心是m_t的高斯分布中x＝m_e的定位的值。

将“(b)用户确定性因子信息(uID)之间的似然性[UL]：用作用户辨识信息(面部辨识信息或说话者辨识信息)的目标数据与事件之间的相似性数据”的计算处理如下。

在输入事件信息中，用户确定性因子信息(uID)中每个用户1至k的确定性因子的值(得分)是Pe[i]。i是与用户标识符1至k相对应的变量。利用从粒子中选择的假设目标的用户确定性因子信息(uID)中每个用户1至k的确定性因子的值(得分)是Pt[i]的定义，通过以下公式计算用户确定性因子信息(uID)之间的似然性[UL]。

UL＝∑P_e[i]×P_t[i]

以上公式用于获得两个目标的用户确定性因子信息(uID)中包含的每个对应用户确定性因子的值(得分)的乘积的和、以及被称作用户确定性因子信息(uID)之间的似然性[UL]的值。

粒子权重[W_pID]使用两个似然性，这两个似然性是高斯分布之间的似然性[DL]以及用户确定性因子信息(uID)之间的似然性[UL]，并使用权重α(α＝0至1)通过以下公式计算。

粒子权重[W_pID]＝∑_nUL^α×DL^1-α

在公式中，n是与粒子中包含的事件相对应的目标的数量。利用上面的公式，计算粒子权重[W_pID]。其中，α是0至1。分别对粒子中的每个粒子计算粒子权重[W_pID]。

此外，应用于粒子权重[W_pID]计算的权重[α]可以是预先固定的值，或者可以被设置为根据输入事件改变该值。例如，当输入事件是图像时，如果面部的检测成功，则获取定位信息，但是如果面部的辨识失败，则可以配置以使得α被设置为0，并且在用户确定性因子信息(uID)之间的似然性[UL]为1的情况下，只凭借高斯分布之间的似然性[DL]计算粒子权重[W_pID]。另外，当输入事件是嗓音时，如果说话者的辨识成功，则获取说话者信息，但是定位信息的获取失败，可以配置以使得α被设置为0，并且在高斯分布之间的似然性[DL]为1的情况下只凭借用户确定性因子信息(uID)之间的似然性[UL]计算粒子权重[W_pID]。

执行图10的流程中步骤S105中与每个粒子相对应的权重[W_pID]的计算，作为参照图11描述的处理。接下来，在步骤S106中，基于步骤S105中设置的粒子权重[W_pID]执行粒子重新采样处理。

执行粒子重新采样处理，作为用以从m个粒子中根据粒子权重[W_pID]做出粒子选取的处理。更具体而言，当粒子的数量(＝m)是5时，例如，将粒子权重计算如下。

粒子1：粒子权重[W_pID]＝0.40

粒子2：粒子权重[W_pID]＝0.10

粒子3：粒子权重[W_pID]＝0.25

粒子4：粒子权重[W_pID]＝0.05

粒子5：粒子权重[W_pID]＝0.20

当如上设置粒子权重时，以40％的概率重新采样粒子1，以10％的概率重新采样粒子2。此外，实际上，数量m是诸如100和1000之间的大数量，且由按照粒子的权重的分布比率的粒子构成重新采样的结果。

利用该处理，剩余粒子权重[W_pID]更大的更多粒子。另外，粒子的和[m]在重新采样之后不改变。此外，在重新采样之后重新设置每个粒子权重[W_pID]，并根据新事件的输入从步骤S101重复该处理。

在步骤S107中，执行每个粒子中包含的目标数据(用户定位和用户确定性因子)的更新。如之前参照图7所述，每个目标由以下数据构成。

(a)用户定位：与每个目标相对应的现有定位的概率分布[高斯分布：N(m_t，σ_t)]

(b)用户确定性因子：作为指示目标是谁的用户确定性因子信息(uID)的是从1至k的用户的概率值：Pt[i](i＝1至k)

换言之，

uID_t1＝Pt[1]

uID_t2＝Pt[2]

.

uID_tk＝Pt[k]

(c)面部属性的预期值(在此处理实例中，是说话者的预期值(概率))

基于如上所述等同于指示事件生成源的[信号信息]的下面示出的概率以及每个事件对应的面部属性得分S_eID＝i计算(c)面部属性的预期值(在此处理实例中，是说话者的预期值(概率))。在面部属性得分中，i是事件ID。

P_eID＝x(tID＝y)

例如，通过以下公式计算目标ID＝1的面部属性的预期值：S_tID＝1。

S_tID＝1＝∑_eIDP_eID＝i(tID＝1)×S_eID＝i

如果归纳该公式，则通过以下公式计算目标的面部属性的预期值S_tID。

S_tID＝∑_eIDP_eID＝i(tID)×S_eID...(公式1)

此外，当目标的数量大于面部图像事件的数量时，为了使每个目标的面部属性预期值[S_tID]的和为[1]，通过使用补数[1-∑_eIDP_eID(tID)]以及先验知识[S_prior]的值通过以下公式(公式2)计算面部事件属性的预期值[S_tID]。

S_tID＝∑_eIDP_eID(tID)×S_eID+(1-∑_eIDP_eID(tID))×S_prior...(公式2)

对(a)用户定位、(b)用户确定性因子以及(c)面部属性的预期值(在此处理实例中，是说话者的预期值(概率))中的每个执行步骤S107中的目标数据的更新。首先，将描述(a)用户定位的更新处理。

通过更新处理的以下两个阶段执行用户定位的更新。

(a1)所有粒子的所有目标的更新处理

(a2)每个粒子中设置的事件生成源的假设目标的更新处理

对被选择为事件生成源假设目标的目标以及其它目标执行(a1)所有粒子的所有目标的更新处理。基于这样的假定执行该处理：用户定位的离差根据逝去的时间扩大，并且利用从先前更新处理逝去的时间以及事件的定位信息通过使用卡尔曼滤波器对处理进行更新。

在下文中，将描述定位信息是一维的情形中更新处理的实例。首先，从先前更新处理逝去的时间是[dt]，计算dt之后所有目标的用户定位预测分布。换言之，对作为用户定位分布信息的高斯分布：N(m_t，σ_t)的预期值(均值)：[m_t]以及离差[σ_t]，执行更新如下。

m_t＝m_t+xc×dt

σ_t ²＝σ_t ²+σc²×dt

其中，

m_t：预测预期值(预测状态)；

σ_t ²：预测协方差(预测估计协方差)；

xc：运动信息(控制模型)；以及

σc²：噪声(处理噪声)。

此外，当在用户未运动的条件下执行处理时，可以在xc＝0的情况下执行更新处理。

利用以上计算处理，更新作为所有目标中包含的用户定位信息的高斯分布：N(m_t，σ_t)。

接下来，将描述(a2)每个粒子中设置的事件生成源的假设目标的更新处理。

对根据步骤S103中设置的事件生成源的假设选择的目标执行更新。如之前参照图5所述，将粒子1至m中每个粒子中包含的目标1至n中的每个目标设置为与事件(eID＝1至k)中的每个事件相对应的目标。

换言之，如果根据事件ID(eID)预先设置要更新每个粒子中包含的哪个目标，则根据设置只更新与输入事件相对应的目标。例如，利用图5中示出的[事件ID＝1(eID＝1)]的事件对应信息361，在粒子1(pID＝1)中选择性地只更新目标ID＝1(tID＝1)的数据。

在根据事件生成源假设的更新处理中，更新与如上事件相对应的目标。通过使用指示从音频事件检测单元122和图像事件检测单元112输入的事件信息中包含的用户定位的高斯分布：N(m_e，σ_e)执行更新处理。

例如，利用如下内容将更新处理执行如下：

K：卡尔曼增益；

m_e：输入事件信息中包含的观察值：N(m_e，σ_e)(观察状态)；以及

σ_e ²：输入事件信息中包含的观察值：N(m_e，σ_e)(观察协方差)。

K＝σ_t ²/(σ_t ²+σ_e ²)

m_t＝m_t+K(xc-m_t)

σ_t ²＝(1-K)σ_t ²

接下来，将描述要执行的作为目标数据更新处理的(b)用户确定性因子的更新处理。除了以上用户定位信息之外，目标数据包含是从1至k的用户的概率值(得分)：Pt[i](i＝1至k)作为指示目标是谁的用户确定性因子信息(uID)。在步骤S107中，对用户确定性因子信息(uID)执行更新处理。

通过预先设置的值在0至1的范围中的更新率[β]的应用通过从音频事件检测单元122和图像事件检测单元112输入的事件信息中包含的用户确定性因子信息(uID)：Pt[i](i＝1至k)以及所有注册用户的后验概率更新每个粒子中包含的目标的用户确定性因子信息(uID)：Pt[i](i＝1至k)。

通过以下公式执行目标的用户确定性因子信息(uID)：Pt[i](i＝1至k)的更新。

Pt[i]＝(1-β)×Pt[i]+β＊Pe[i]

其中，i是1至k，β是0至1。此外，更新率[β]是预先设置的在0至1的范围中的值。

在步骤S107中，每个目标由更新后目标数据中包含的以下数据构成，这些数据是：

(b)用户确定性因子：作为指示目标是谁的用户确定性因子信息(uID)的是从1至k的用户的概率值(得分)：Pt[i](i＝1至k)换言之，

uID_t1＝Pt[1]

uID_t2＝Pt[2]

.

uID_tk＝Pt[k]

基于每个粒子权重[W_pID]和这些数据生成目标信息，并输出到处理确定单元132。

此外，目标信息被生成为与每个粒子(pID＝1至m)中包含的每个目标(tID＝1至n)相对应的数据的加权和数据。信息是图7右端的目标信息380中示出的数据。目标信息被生成为包含每个目标(tID＝1至n)以下信息的信息。

(a)用户定位信息

(b)用户确定性因子信息

例如，用以下公式表示与目标(tID＝1)相对应的目标信息中的用户定位信息。

Σ_{i = 1}^{m} W_{i} \cdot N (m_{i 1}, σ_{i 1})

其中，W_i指示粒子权重[W_pID]。

另外，用以下公式表示与目标(tID＝1)相对应的目标信息中的用户确定性因子信息。

.

Σ_{i = 1}^{m} W_{i} \cdot {uID}_{i 11}

Σ_{i = 1}^{m} W_{i} \cdot {uID}_{i 12}

Σ_{i = 1}^{m} W_{i} \cdot {uID}_{i 1 k}

其中，W_i指示粒子权重[W_pID]。

另外，用以下公式表示与目标(tID＝1)相对应的目标信息中的面部属性的预期值(在此处理实例中，是说话者的预期值(概率))。

S_tID＝1＝∑_eIDP_eID＝i(tID＝1)×S_eID＝i，或者

S_tID＝1＝∑_eIDP_eID＝i(tID＝1)×S_eID＝i+(1-∑_eIDP_eID(tID＝1))×S_prior

音频图像整合处理单元131计算n个目标(tID＝1至n)中每个目标的目标信息以及将计算的目标信息输出到处理确定单元132。

接下来，将描述图10中示出的流程的步骤S108中的处理。音频图像整合处理单元131在步骤S108中计算n个目标(tID＝1至n)中的每个目标是事件生成源的概率，以及将概率输出到处理确定单元132作为信号信息。

如前所述，指示事件生成源的[信号信息]是指示谁说了话(换言之，对于音频事件[说话者]是谁)、以及指示图像中包含的面部是谁的(换言之，面部对于图像事件是否是[说话者])的数据。

音频图像整合处理单元131基于每个粒子中设置的事件生成源的假设目标的数量计算每个目标是事件生成源的概率。换言之，目标(tID＝1至n)中的每个目标是事件生成源的概率是[P(tID＝i)]。其中，i是1至n。例如，如前所述，用如下内容表示事件(eID＝x)的生成源是特定目标y(tID＝y)的概率：

P_eID＝x(tID＝y)。

这等同于音频图像整合处理单元131中设置的粒子的数量(＝m)对分配给事件中每个事件的目标的数量的比率。在图5中示出的实例中，建立以下对应关系：

P_eID＝1(tID＝1)＝[将tID＝1分配给第一个事件(eID＝1)的粒子的数量/(m)]；

P_eID＝1(tID＝2)＝[将tID＝2分配给第一个事件(eID＝1)的粒子的数量/(m)]；

P_eID＝2(tID＝1)＝[将tID＝1分配给第二个事件(eID＝2)的粒子的数量/(m)]；以及

P_eID＝2(tID＝2)＝[将tID＝2分配给第二个事件(eID＝2)的粒子的数量/(m)]。

将数据输出到处理确定单元132作为指示事件生成源的[信号信息]。

当步骤S108中的处理结束时，处理返回步骤S101，来自音频事件检测单元122和图像事件检测单元112的事件信息的输入转为等候状态。

在上文中，已描述了图10中示出的流程的步骤S101至S108。在步骤S101中，当音频图像整合处理单元131未能从音频事件检测单元122和图像事件检测单元112获取图3B中示出的事件信息时，步骤S121中更新构成每个粒子中包含的目标的数据。此更新是将根据逝去时间的用户定位的改变考虑在内的处理。

目标更新处理是与步骤S107的先前描述中(a1)所有粒子的所有目标的更新处理相同的处理，其基于用户定位的离差根据逝去的时间扩大的假定执行，并且通过使用卡尔曼滤波器通过从先前更新处理逝去的时间以及事件的定位信息进行更新。

将描述定位信息是一维的情形中更新处理的实例。首先，从先前更新处理逝去的时间是[dt]，计算dt之后所有目标的用户定位预测分布。换言之，对作为用户定位分布信息的高斯分布：N(m_t，σ_t)的离差[σ_t]以及预期值(均值)：[m_t]执行更新如下。

m_t＝m_t+xc×dt

σ_t ²＝σ_t ²+σc²×dt

其中，

m_t：预测预期值(预测状态)；

σ_t ²：预测协方差(预测估计协方差)；

xc：运动信息(控制模型)；以及

σc²：噪声(处理噪声)。

通过以上计算处理，更新作为所有目标中包含的用户定位信息的高斯分布：N(m_t，σ_t)。

此外，只要未获取来自事件信息的得分[Pe]或事件的所有注册用户的后验概率就不更新每个粒子的目标中包含的用户确定性因子信息(uID)。

在步骤S121中的处理结束之后，在步骤S122中确定是否有必要删除目标，根据步骤S123中的必要性删除目标。执行目标的删除作为例如在目标中包含的用户定位信息中未检测到峰值的情形中删除不太可能获得特定用户定位的数据的处理。在这种目标不存在的情形中，流程在删除处理没有必要的步骤S122和S123中的处理之后返回步骤S101。状态对来自音频事件检测单元122和图像事件检测单元112的事件信息的输入转为等候状态。

在上文中，已参照图10描述了音频图像整合处理单元131执行的处理。音频图像整合处理单元131对来自音频事件检测单元122和图像事件检测单元112的事件信息的各个输入根据图10中示出的流程重复执行该处理。通过重复的处理，将可靠性更高的目标设置成假设目标的粒子权重变大，基于粒子权重通过重新采样处理剩余权重更大的粒子。作为结果，与从音频事件检测单元122和图像事件检测单元112输入的事件信息相似地剩余可靠性更高的数据，从而，最终生成可靠性更高的以下信息以输入到处理确定单元132。

(a)[目标信息]，作为用于估计多个用户在哪以及用户是谁的信息

(b)[信号信息]，指示诸如例如说话用户的事件生成源

[2.关于通过基于语音和图像的语音识别进行的与得分(AVSR得分)计算处理相关联的说话者指定处理]

在上述主题1<1.关于通过基于音频和图像事件检测信息的粒子滤波进行的用户定位和用户辨识处理的概况>的处理中，生成面部属性信息(面部属性得分)以指定说话者。

换言之，图2中示出的信息处理设备中提供的图像事件检测单元112根据输入图像中包含的面部中嘴部运动的程度来计算得分，并且通过使用该得分指定说话者。然而，如之前简单描述的，问题在于：因为无法区分咀嚼口香糖的、向系统说无关话的或者给出无关嘴部运动的用户，在基于嘴部运动的程度计算得分的处理中，难以指定正向系统做出要求的用户的语音。

作为用以解决问题的方法，将在下文中描述这样的配置：通过根据图像中包含的面部的嘴部区域中的运动与语音识别之间的对应关系计算得分来指定说话者。

图12是示出执行以上处理的信息处理设备500的结构实例的图。图12中示出的信息处理设备500包括：作为输入设备的图像输入单元(摄像设备)111，以及多个音频输入单元(麦克风)121a至121d。从图像输入单元(摄像设备)111输入图像信息，从音频输入单元(麦克风)121输入音频信息，基于输入的信息执行分析。将多个音频输入单元(麦克风)121a至121d中的每个音频输入单元如图1中所示布置在不同定位中。

图12中示出的信息处理设备500的图像事件检测单元112、音频事件检测单元122、音频图像整合处理单元131以及处理确定单元132基本上与图2中示出的信息处理设备100具有同样的相应结构以及执行同样的处理。

换言之，音频事件检测单元122分析从多个不同位置中布置的多个音频输入单元(麦克风)121a至121d输入的音频信息，并将嗓音生成源的定位信息生成为概率分布数据。更具体而言，该单元生成关于音频源方向的预期值和离差数据N(m_e，σ_e)。另外，该单元基于与预先注册的用户嗓音特性信息的比较处理生成用户辨识信息。

图像事件检测单元112分析从图像输入单元(摄像设备)111输入的图像信息，提取图像中包含的人的面部，并将面部的定位信息生成为概率分布数据。更具体而言，该单元生成关于面部方向和定位的预期值和离差数据N(m_e，σ_e)。

此外，如图12中所示，在本实施例的信息处理设备500中，音频事件检测单元122具有基于音频的语音识别处理单元522，且图像事件检测单元112具有基于图像的语音识别处理单元512。

音频事件检测单元122的基于音频的语音识别处理单元522分析从音频输入单元(麦克风)121a至121d输入的音频信息，执行音频信息同数据库510中存储的字识别词典中注册的字的比较处理，并且执行ASR(音频语音识别)作为基于音频的语音识别处理。换言之，执行辨识说了哪种字的音频识别处理，并且对于被估计出有高概率是被说出的字生成信息(ASR信息)。此外，可以在例如应用了以往已知的隐马尔可夫模型(HMM，Hidden Markov Model)的这种处理中应用音频识别处理。

另外，图像事件检测单元112的基于图像的语音识别处理单元512分析从图像输入单元(摄像设备)111输入的图像信息，并且然后进一步分析用户嘴部的运动。基于图像的语音识别处理单元512分析从图像输入单元(摄像设备)111输入的图像信息，并且生成与图像中包含的目标(tID＝1至n)相对应的嘴部运动信息。换言之，利用VSR(视觉语音识别)生成VSR信息。

音频事件检测单元122的基于音频的语音识别处理单元522执行音频语音识别(ASR)作为基于音频的语音识别处理，并将被估计出有高概率是被说出的字的信息(ASR信息)输入到音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530。

以同样方式，图像事件检测单元112的基于图像的语音识别处理单元512执行视觉语音识别(VSR)作为基于图像的语音识别处理，并生成关于嘴部运动的信息作为VSR的结果(VSR信息)，以输入到音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530。基于图像的语音识别处理单元512在与由基于音频的语音识别处理单元522检测出的字的语音时段相对应的时段中生成至少包含指示嘴部形状的视素信息的VSR信息。

在音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530中，计算这样的音频视觉语音识别(AVSR)得分：该音频视觉语音得分是利用从基于音频的语音识别处理单元522输入的ASR信息以及由基于图像的语音识别处理单元512生成的VSR信息的应用、既应用了音频信息又应用了图像信息的得分，并且将该得分输入到音频图像整合处理单元131。

换言之，音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530输入来自基于音频的语音识别处理单元522的字信息，输入来自基于图像的语音识别处理单元512的以用户为单位的嘴部运动信息，执行对接近字信息的嘴部运动设置高得分的得分设置处理，并且执行以用户为单位的得分(AVSR得分)设置处理。

更具体而言，通过以构成ASR信息中包含的字信息的音素单位，将VSR信息中包含的以用户为单位的视素信息与注册的视素信息相比较，执行为相似性高的视素分配高得分的视素得分设置处理，此外，对与构成字的所有音素相对应的视素得分执行几何平均值或算术平均值的计算处理，从而，计算对应于用户的AVSR得分。后面将参照附图描述其具体处理实例。

此外，AVSR得分计算处理可以应用有以与ASR处理中相同的方式应用了隐马尔可夫模型(HMM)的音频识别处理。另外，例如，可以对其应用[http://www.clsp.jhu.edu/ws2000/final_reports/avsr/ws00avsr.pdf]中公开的处理。

使用由音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530计算的AVSR得分作为与先前主题[1.关于通过基于音频和图像事件检测信息的粒子滤波进行的用户定位和用户辨识处理的概况]中描述的面部属性得分相对应的得分。换言之，在说话者指定处理中使用得分。

参照图13，将描述ASR信息、VSR信息以及AVSR得分计算处理的实例。

图13中示出的真实环境601是如图1中所示设置有麦克风和摄像设备的环境。摄像设备拍摄多个用户(在此实例中，三个用户)，经由麦克风获取字“konnichiwa(下午好)”。

将经由麦克风获取的音频信号输入到音频事件检测单元122中的基于音频的语音识别处理单元522。基于音频的语音识别处理单元522执行基于音频的语音识别处理[ASR]，并生成被估计出有高概率是被说出的字的信息(ASR信息)，以输入到音频图像整合处理单元131。

在此实例中，只要信息中并未特别地包含噪声等，就将字“konnichiwa”的信息输入到音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530，作为ASR信息。

另一方面，将经由摄像设备获取的图像信号输入到图像事件检测单元112中的基于图像的语音识别处理单元512。基于图像的语音识别处理单元512执行基于图像的语音识别处理[VSR]。具体地，如图13中所示，当获取的图像中包含多个用户[目标(tID＝1至3)]时，分析用户[目标(tID＝1至3)]中每个用户的嘴部运动。将以用户为单位的嘴部运动的分析信息输入到音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530，作为VSR信息。

音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530计算这样的音频视觉语音识别(AVSR)得分：该音频视觉语音识别得分是利用从基于音频的语音识别处理单元522输入的ASR信息以及由基于图像的语音识别处理单元512生成的VSR信息的应用、既应用了音频信息又应用了图像信息的得分，并且将该得分输入到音频图像整合处理单元131。

作为与用户[目标(tID＝1至3)]中每个用户相对应的得分来计算并向音频图像整合处理单元131输入AVSR得分。

参照图14，将描述由音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530执行的AVSR得分计算处理的实例。

在图14中示出的实例中，从基于音频的语音识别处理单元522输入的ASR信息(即，作为语音分析的结果识别的字)是“konnichiwa”，且实例是这样的处理实例：获得与两个用户[目标(tID＝1和2)]相对应的各嘴部运动(视素)的信息，作为从基于图像的语音识别处理单元512输入的VSR信息。

音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530按照下面的处理步骤对目标(tID＝1和2)中的每个目标计算AVSR得分。

(步骤1)在与每个音素相对应的时间(t_i至t_i-1)处对每个音素计算视素的得分。

(步骤2)利用算术平均值或几何平均值计算AVSR得分。

此外，通过上述处理，在计算多个目标对应的AVSR得分之后，执行归一化处理，并且将归一化的AVSR得分数据输入到音频图像整合处理单元131。

如图14中所示，从基于图像的语音识别处理单元512输入的VSR信息是与用户[目标(tID＝1和2)]相对应的各嘴部(视素)的运动信息。

VSR信息是在说了从基于音频的语音识别处理单元522输入的“konnichiwa”的ASR信息时，在时间(t₁至t₆)中，在与每个字母单位(每个音素)相对应的时间(t_i至t_i-1)处的嘴部形状的信息。

在以上(步骤1)中，音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530基于这样的确定计算与音素中每个音素相对应的视素的得分(S(t_i至t_i-1))：确定与音素中的每个音素相对应的嘴部形状是否接近发出从基于音频的语音识别处理单元522输入的[konnichiwa]的ASR信息的音素[k0][n][ni][chi][wa]中每个音素的嘴部形状。

此外，在以上(步骤2)中，利用所有得分的算术或几何平均值计算AVSR得分。

在图14的实例中，

目标ID＝1(tID＝1)的用户的AVSR得分S(tID＝1)是：

S(tID＝1)＝均值S((t_i至t_i-1))，以及

目标ID＝2(tID＝2)的用户的AVSR得分S(tID＝2)是：

S(tID＝2)＝均值S((t_i至t_i-1))。

此外，图14中示出的实例示例了从基于图像的语音识别处理单元512输入的VSR信息不仅包含从基于音频的语音识别处理单元522输入[konnichiwa]的ASR信息时在时间(t₁至t₆)内在与每个字母单位(每个音素)相对应的时间(t_i至t_i-1)的嘴部形状的信息，而且包含语音之前和之后在静默状态中时间(t₀至t₁以及t₆至t₇)的视素信息。

这样，每个目标的AVSR得分可以是这样的计算值：其包含字“konnichiwa”的语音时间之前和之后静默状态的视素得分。

此外，基于视素是否接近发出[ko][n][ni][chi][wa]中每个音素的嘴部形状计算实际语音时段(即，每个音素[ko][n][ni][chi][wa]的语音时段)的得分，作为与每个音素相对应的视素的得分(S(t_i至t_i-1))。另一方面，对于静默状态的视素得分，例如，将时间t₀至t₁的视素得分、“ko”的语音之前和之后的嘴部形状存储在数据库501中作为注册信息，在嘴部形状接近注册信息时对该形状设置高得分。

在数据库501中，例如，记录音素单位的嘴部形状的以下注册信息(视素信息)，作为每个字的嘴部形状的注册信息。

ohayou(早上好)：o-ha-yo-u

konnichiwa(下午好)：ko-n-ni-chi-wa

音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530在嘴部形状接近注册信息时对该形状设置高得分。

此外，作为用于基于嘴部形状计算得分的数据生成处理，已知作为音频识别通用手段的用于字识别的隐马尔可夫模型(HMM)的学习处理中的音素HMM学习处理是有效的。例如，以与IT Text Voice Recognition System ISBN4-274-13228-5的第2章和第3章中公开的配置相同的手段，可以在学习字HMM时学习视素HMM。此时，如果共同的音素和视素定义有ASR和VSR如下，则可以计算静默的VSR得分。

a：a(音素)

ka：ka(音素)

...

sp：静默(句子中间)

q：静默(成双辅音)

silB：静默(句首)

silE：静默(句尾)

此外，当学习隐马尔可夫模型(HMM)时，在音素中存在“一个音素(单音)”和“三个连续音素(三音)”时，还优选地通过记录在数据库中作为学习数据来使用诸如视素中“一个视素”与“三个连续视素”的对应关系。

参照图15，将描述从图像输入单元(摄像设备)111输入的图像包括三个用户[目标(tID＝1至3)]并且用户中的一个人(tID＝1)实际说“konnichiwa”的情形中AVSR得分计算的处理实例。

在图15中示出的实例中，将三个目标(tID＝1至3)中的每个目标设置如下。

tID＝1说“konnichiwa”。

tID＝2持续静默。

tID＝3咀嚼口香糖。

在这种设置下，在先前描述的主题[1.关于通过基于音频和图像事件检测信息的粒子滤波进行的用户定位和用户辨识处理的概况]的处理中，由于基于嘴部运动的程度确定面部属性信息(面部属性得分)，所以可能将咀嚼口香糖的目标tID＝3的得分设置得高。

然而，对于此处理实例中计算的AVSR得分，嘴部运动更接近“konnichiwa”(基于音频的语音识别处理单元522检测的说的话)的目标的得分(AVSR得分)变高。

在图15中示出的实例中，以与图14中示出的实例中相同的方式，对于[ko][n][ni][chi][wa]中每个音素的语音时段的得分，基于视素是否接近发出[ko][n][ni][chi][wa]中每个音素的嘴部形状计算与每个音素相对应的视素的得分(S(t_i至t_i-1))。即使在静默的状态中，例如，对于时间t₀至t₁的视素得分，也以与上述处理相同的方式，将“ko”的语音之前和之后的嘴部形状存储在数据库501中作为注册信息，并且在形状接近注册信息时对嘴部的形状设置高得分。

于是，如图15中所示，实际说“konnichiwa”的tID＝1的用户的视素得分(S(t_i至t_i-1))在所有时间均超过其它目标(tID＝2和3)的视素得分。

因此，对于最终计算的AVSR得分，目标(tID＝1)的AVSR得分：[S(tID＝1)＝均值S(t_i至t_i-1)]的值超过其它目标的得分。

将与目标相对应的AVSR得分输入到音频图像整合处理单元131。在音频图像整合处理单元131中，使用AVSR得分作为替换以上主题1中描述的面部属性得分的得分的值，并执行说话者指定处理。在处理中，可以以高准确性指定实际说话的用户。

此外，如先前主题1中所述，例如，存在因为用手覆盖嘴部而即使检测面部也无法检测嘴部运动的情形。在该情形中，无法获取目标的VSR信息。在这种情形中，代替视素得分(S(t_i至t_i-1))，只将先验知识值[S_prior]应用于这种时段。

将参照图16描述处理实例。

以与上述图14的处理实例中相同的方式，在图16中示出的实例中，从基于音频的语音识别处理单元522输入的ASR信息(即，作为语音分析的结果识别的字)是“konnichiwa”，并且存在这样的处理实例：获得作为从基于图像的语音识别处理单元512输入的VSR信息的、与两个用户[目标(tID＝1和2)]相对应的各嘴部运动(视素)的信息。

然而，对tID＝1的目标，在时间t₂至t₄的时段中无法观察嘴部运动。相似地，对tID＝2的目标，在时间t₅之前直到t₆之后的时间为止的时段中无法观察嘴部运动。

换言之，对tID＝1的目标在“nni”中以及对tID＝2的目标在“chiwa”中无法计算视素得分。

在无法计算视素得分的这种时段，替换与音素相对应的视素的先验知识值[S_{prior(ti至ti-1)}]。

此外，例如，可以应用以下值作为视素的先验知识值[S_{prior(ti至ti-1)}]。

a)任意固定值(0.1、0.2等)

b)所有视素(N)的统一值(1/N)

c)根据事先测量的所有视素的出现频率设置的出现概率在数据库501中预先注册这种值。

接下来，将参照图17中示出的流程图描述AVSR得分计算处理的处理序列。此外，执行图17中示出的流程的主要执行体是基于音频的语音识别处理单元522、基于图像的语音识别处理单元512以及音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530。

首先，在步骤S201中，经由图15中示出的音频输入单元(麦克风)121a至121d以及图像输入单元(摄像设备)111输入音频信息和图像信息。将音频信息输入到音频事件检测单元122，并将图像信息输入到图像事件检测单元112。

步骤S202是音频事件检测单元122的基于音频的语音识别处理单元522的处理。基于音频的语音识别处理单元522分析从音频输入单元(麦克风)121a至121d输入的音频信息，执行和与数据库501中存储的字识别词典中注册的字相对应的音频信息的比较处理，并执行ASR(音频语音识别)作为基于音频的语音识别处理。换言之，基于音频的语音识别处理单元522执行辨识说了哪种字的音频识别处理，并且生成被估计出有高概率是被说出的字的信息(ASR信息)。

步骤S203是图像事件检测单元112的基于图像的语音识别处理单元512的处理。基于图像的语音识别处理单元512分析从图像输入单元(摄像设备)111输入的图像信息，并进一步分析用户的嘴部运动。基于图像的语音识别处理单元512分析从图像输入单元(摄像设备)111输入的图像信息，并且生成与图像中包含的目标(tID＝1至n)相对应的嘴部运动信息。换言之，通过应用VSR(视觉语音识别)生成VSR信息。

步骤S204是音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530的处理。音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530计算这样的AVSR(音频视觉语音识别)得分：该得分通过基于音频的语音识别处理单元522生成的ASR信息以及基于图像的语音识别处理单元512生成的VSR信息的应用，既应用了音频信息又应用了图像信息。

已参照图14至图16描述了该得分计算处理。例如，基于视素是否接近发出从基于音频的语音识别处理单元522输入的“konnichiwa”的ASR信息的音素[ko][n][ni][chi][wa]中每个音素的嘴部形状计算与每个音素相对应的视素的得分(S(t_i至t_i-1))，利用视素得分(S(t_i至t_i-1))的算术或几何平均值等计算AVSR得分。此外，计算已经过归一化的与每个目标相对应的AVSR得分。

此外，将由音频图像结合的语音识别得分计算单元(AVSR得分计算单元)530计算的AVSR得分输入到图12中示出的音频图像整合处理单元131，并应用于说话者指定处理。

具体地，代替先前在主题1中描述的面部属性信息(面部属性得分)，应用AVSR得分，并基于AVSR得分执行粒子更新处理。

与面部属性信息(面部属性得分[S_eID])相似，最终使用AVSR得分作为指示事件生成源的[信号信息]。如果输入了一定数量的事件，则更新每个粒子的权重，数据最接近真实空间中的信息的粒子的权重变大，且数据不适用于真实空间中的信息的粒子的权重变小。这样，在偏差在粒子的权重中出现并会聚的阶段，计算基于面部属性信息(面部属性得分)的信号信息，即，指示事件生成源的[信号信息]。

换言之，在粒子更新处理之后，将AVSR得分应用于图10中示出的流程图中步骤S108的处理中的信号信息生成处理。

将描述图8中示出的流程的步骤S108的处理。音频图像整合处理单元131在步骤S108中计算n个目标(tID＝1至n)中的每个目标是事件生成源的概率，并将结果输出到处理确定单元132作为信号信息。

如前所述，指示事件生成源的[信号信息]是指示谁说了话(换言之，指示音频事件中的[说话者])的数据、以及指示在图像事件中[说话者]是谁以及图像中包含的面部是谁的的数据。

音频图像整合处理单元131基于每个粒子中设置的事件生成源的假设目标的数量计算每个目标是事件生成源的概率。换言之，假定目标(tID＝1至n)中的每个目标是事件生成源的概率为[P(tID＝i)]。其中，i是1至n。例如，如前所述，事件(eID＝x)的生成源是特定目标y(tID＝y)的概率被表示为：

P_eID-x(tID＝y)，

该概率等于音频图像整合处理单元131中设置的粒子的数量(＝m)与对每个事件分配的目标的数量的比率。例如，在图5中示出的实例中，建立对应关系如下：

将该数据输出到处理确定单元132作为指示事件生成源的[信号信息]。

在如上处理实例中，通过结合基于音频的语音识别处理和基于图像的语音识别处理的处理计算每个目标的AVSR得分，通过AVSR得分的应用执行语音源的指定，因此，可以用高准确性将根据实际语音内容示出了嘴部运动的用户(目标)确定为语音源。通过这样的语音源的估计，可以改进作为说话者指定处理的分别(diarization)性能。

在上文中，已参照具体实施例详细描述了本发明。然而，显然本领域技术人员可以在不脱离本发明实质的范围中执行实施例的替换和修改。换言之，本发明已以示例的形式公开，并不应该解释为限制的范围。应该考虑本发明的权利要求以判断本发明的实质。

另外，可以通过硬件、软件或者二者的组合结构执行本说明书中描述的一系列处理。当通过软件执行处理时，可以通过安装在专用硬件中结合的计算机上的存储器中执行其中记录处理顺序的程序，或者可以通过安装在可以执行各种处理的通用计算机中执行程序。例如，可以将这种程序预先记录在记录介质中。除了将程序从记录介质安装到计算机中之外，可以经由诸如LAN(局域网)或互联网的网络接收、以及可以在诸如内置硬盘等的记录介质中安装程序。

此外，不仅可以按照描述的时间序列而且可以根据执行处理的设备的处理性能或者根据必要性并行地或单独地执行说明书中描述的各种处理。另外，本说明书中的系统已在逻辑上组建了多个设备的结构，构成设备中的每个构成设备不限于在同一壳体中。

本申请包含与2010年3月11日提交日本专利局的日本优先权专利申请JP 2010-054016中公开的主题相关的主题，其全部内容经引用合并于此。

本领域技术人员应当理解，根据设计需要和其它因素，可以做出各种修改、组合、子组合和变换，只要它们在所附权利要求或其等同物的范围内。

Claims

1.一种信息处理设备，包括：

基于音频的语音识别处理单元，输入有作为真实空间的观察信息的音频信息，所述基于音频的语音识别处理单元执行基于音频的语音识别处理，从而生成被确定有高概率是被说出的字信息；

基于图像的语音识别处理单元，输入有作为所述真实空间的观察信息的图像信息，所述基于图像的语音识别处理单元分析包含在所述输入图像中的每个用户的嘴部运动，从而生成以用户为单位的嘴部运动信息；

音频图像结合的语音识别得分计算单元，从所述基于音频的语音识别处理单元输入有字信息，并且从所述基于图像的语音识别处理单元输入有所述以用户为单位的嘴部运动信息，所述音频图像结合的语音识别得分计算单元执行对接近所述字信息的嘴部运动设置高得分的得分设置处理，从而执行以用户为单位的得分设置处理；以及

信息整合处理单元，输入有所述得分，并且基于所输入的得分执行说话者指定处理。

2.如权利要求1所述的信息处理设备，其中，

所述基于音频的语音识别处理单元执行作为基于音频的语音识别处理的音频语音识别ASR，以生成被确定有高概率是被说出的字信息的音素序列以作为音频语音识别信息，

所述基于图像的语音识别处理单元执行作为基于图像的语音识别处理的视觉语音识别VSR，以生成至少包含指示字语音时段中嘴部形状的视素信息的视觉语音识别信息，以及

所述音频图像结合的语音识别得分计算单元以构成所述音频语音识别信息中包含的字信息的音素为单位，将所述视觉语音识别信息中包含的以用户为单位的视素信息与注册视素信息相比较，以执行为具有高相似性的视素设置高得分的视素得分设置处理，并且通过与进一步构成字的所有音素相对应的视素得分的算术平均值或几何平均值的计算处理来计算作为与用户相对应的得分的音频视觉语音识别AVSR得分。

3.如权利要求2所述的信息处理设备，其中，所述音频图像结合的语音识别得分计算单元执行与包含在音频语音识别信息中的所述字信息之前和之后的静默时段相对应的视素得分设置处理，并且通过包含与构成字的所有音素相对应的视素得分以及与静默时段相对应的视素得分的得分的算术平均值或几何平均值的计算处理，来计算作为与用户相对应的得分的音频视觉语音识别AVSR得分。

4.如权利要求2或3所述的信息处理设备，其中，所述音频图像结合的语音识别得分计算单元使用预先设置的先验知识的值，作为在未输入指示字语音时段的嘴部形状的视素信息的时段的视素得分。

5.如权利要求1至4中任一项所述的信息处理设备，其中，所述信息整合处理单元设置有关所述真实空间的用户信息的假设的概率分布数据，并且通过基于所述音频视觉语音识别AVSR得分更新以及选择假设来执行说话者指定处理。

6.如权利要求1至5中任一项所述的信息处理设备，还包括：

音频事件检测单元，输入有作为所述真实空间的观察信息的音频信息，并且所述音频事件检测单元生成包含存在于所述真实空间中的用户的估计辨识信息和估计定位信息的音频事件信息；以及

图像事件检测单元，输入有作为所述真实空间的观察信息的图像信息，并且所述图像事件检测单元生成包含存在于所述真实空间中的用户的估计辨识信息和估计定位信息的图像事件信息，

其中，所述信息整合处理单元设置有关用户的定位和辨识信息的假设的概率分布数据，并且通过基于所述事件信息更新以及选择假设，来生成包含存在于所述真实空间中的用户的定位信息的分析信息。

7.如权利要求6所述的信息处理设备，其中，所述信息整合处理单元被配置为通过执行被应用了设置有与虚拟用户相对应的多个目标数据的多个粒子的粒子滤波处理，来生成包含存在于所述真实空间中的用户的定位信息的分析信息，以及

其中，所述信息整合处理单元被配置为将设置在所述粒子中的每个目标数据与从所述音频事件检测单元和所述图像事件检测单元输入的每个事件相关联地进行设置，并且根据输入事件标识符更新从每个粒子中选择的与所述事件相对应的目标数据。

8.如权利要求7所述的信息处理设备，其中，所述信息整合处理单元通过关联以由所述事件检测单元检测出的面部图像为单位的每个事件来执行处理。

9.一种在信息处理设备中实施的信息处理方法，包括步骤：

处理基于音频的语音识别，其中，基于音频的语音识别处理单元输入有作为真实空间的观察信息的音频信息，所述基于音频的语音识别处理单元执行基于音频的语音识别处理，从而生成被确定有高概率是被说出的字信息；

处理基于图像的语音识别，其中，基于图像的语音识别处理单元，输入有作为真实空间的观察信息的图像信息，所述基于图像的语音识别处理单元分析包含在所述输入图像中的每个用户的嘴部运动，从而生成以用户为单位的嘴部运动信息；

计算音频图像结合的语音识别得分，其中，音频图像结合的语音识别得分计算单元，从所述基于音频的语音识别处理单元输入有所述字信息，并且从所述基于图像的语音识别处理单元输入有所述以用户为单位的嘴部运动信息，所述音频图像结合的语音识别得分计算单元执行对接近所述字信息的嘴部运动设置高得分的得分设置处理，从而执行以用户为单位的得分设置处理；以及

处理信息整合，其中，信息整合处理单元，输入有所述得分，并且基于所输入的得分执行说话者指定处理。

10.一种使信息处理设备执行信息处理的程序，所述信息处理包括步骤：