CN102385860A

CN102385860A - 信息处理设备、信息处理方法及程序

Info

Publication number: CN102385860A
Application number: CN2011102428227A
Authority: CN
Inventors: 南野活树; 广江厚夫; 前田幸德; 朝川智
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-08-26
Filing date: 2011-08-19
Publication date: 2012-03-21
Also published as: US8566094B2; US20120053942A1; JP2012047924A

Abstract

提供了一种信息处理设备、方法及程序。该信息处理设备包括：预得分调整部分，其针对对应于预先登记的多种类型的意图信息中的每个意图信息的、作为单元的意图模型，基于作为观测信息而获得的上下文信息来计算预得分；多匹配部分，其确定对于基于用户话语的输入语音最合适的字群组，以及针对作为单元的意图模型计算要给予字群组的声学得分和语言得分；以及意图确定部分，其通过比较根据意图模型单元的预得分、声学得分和语言得分而计算的总得分，将与取得最高总得分的意图模型对应的意图信息确定为与用户话语对应的意图。

Description

信息处理设备、信息处理方法及程序

技术领域

本公开涉及信息处理设备、信息处理方法及程序。具体地，本公开涉及执行用于估计话语(utterance)的意图的语音识别处理和语音理解处理的信息处理设备，以及涉及信息处理方法和程序。

背景技术

近年来，应用了语音识别的各种产品和服务已经被广泛使用。语音识别是分析通过诸如麦克风的语音输入部分输入的语音信号以及自动确定对应于输入的语音信号的字群组的技术。通过组合语音识别技术和各种应用，实现了基于语音识别的结果来执行数据处理的各种产品和服务。

将参考图1描述语音识别处理的基本配置。麦克风12捕获用户输入的语音11，以及AD转换器13对语音的模拟信号进行采样，从而生成数字数据。数字数据输入到特征提取部14，以及通过以适当的时间间隔执行的频率分析等，将数据转换成表示语音的频谱或其它声学特征的参数。

通过特征提取部14的处理，获得语音的特征量的时间序列。将特征量群组发送到匹配部15。匹配部15将声学模型数据16、词典数据17、和语法数据18中的各个信息与输入参数进行匹配，以及输出语音识别结果19。

而且，在特征提取部14中，除了提取特征量群组以外，还确定语音区段。语音区段对应于从话语的开始时间到结束时间的区段。作为检测语音区段的方法，例如使用基于语音信号的功率等仅提取话语的区段的方法。匹配部15执行关于与语音区段对应的特征量群组的匹配处理，从而输出针对用户的每个话语的语音识别结果19。

声学模型数据16是保存诸如在要处理的语言中使用的单个音素和音节的声学特征的模型，其中要处理的语言包括例如日语或英语。使用隐马尔可夫模型(HMM)等作为该模型。

词典数据17是保存关于要识别的单个字的发音的信息的数据。通过该数据，将字与上述声学模型相关联，因此获得与词典中包括的各个字对应的标准声学特征。

语法数据18是描述可将词典中描述的单个字彼此连接的方式的数据。对于语法数据，使用基于形式语法或上下文无关语法的描述、包括字连接的统计概率的语法(元语法，N-gram)等。

在匹配部15中，通过使用声学模型数据16、词典数据17、和语法数据18，确定对于输入特征量群组最适合的字群组。例如，当将隐马尔可夫模型(HMM)用作声学模型数据16时，将通过累积根据特征量群组的每个特征量的出现概率而获得的值用作声学评估值(在下文中，被称为声学得分)。通过使用上述标准特征为每个字确定该声学得分。

例如，当将二元语法(bigram)用作语法数据18时，基于字被连接到前一字的概率来将每个字的语言概率转换成数值，以及将该值提供为语言评估值(在下文中，被称为语言得分)。此后，综合地评估声学得分和语言得分，由此确定对于输入语言信号最合适的字群组。

例如，当用户说“The weather is nice today(今天天气好)”时，获得包括“The”、“weather”、“is”、“nice”、“today”的字群组，作为识别结果。此时，将声学得分和语言得分提供给每个字。而且，在本公开中，如上所述的词典数据17和语法数据18的组合被称为语言模型。

当将语音识别技术应用于产品和服务时，广泛使用下面两种方法：

(a)直接将识别的字群组与对应的行为相关联的方法。

(b)从识别的字群组中提取话语中包括的用户的意图，以及将意图与对应的行为相关联。

例如，当向机器人给出话语“stand up(起立)”时，使机器人响应识别的字群组“stand up(起立)”而起立的方法是前者(a)方法，即直接将字与对应的行为相关联的方法。

另一方面，估计诸如“stand up(起立)”、“wake up(醒来)”、和“getup(起床)”的每个话语中包括的意图(例如，“stand up please(请起立)”的意图)、以及使机器人响应该意图而行动的方法是后者(b)方法。即，这是提取话语中包括的用户的意图、以及将对应的行为与该意图相关联的方法。

一般，由于存在包括相同意图的多种类型的话语，与直接将对应的行为分配给识别的字群组的前者(a)方法相比，估计话语的意图以及将对应的行为分配给该意图的后者(b)方法可更容易分配行为。以该方式，根据输入语音信号估计话语的意图的设备被称为语音理解设备。

作为描述估计话语中包括的用户的意图的方法的相关领域中的技术，例如存在日本未审查专利申请公布第2006-53203号，“SPEECHPROCESSING DEVICE AND METHOD，RECORDING MEDIUM ANDPROGRAM”。

在日本未审查专利申请公布第2006-53203号中描述的方法中，描述了基于输入语音信号估计意图的技术(尽管在日本未审查专利申请公布第2006-53203号中意图被称为“意愿(will)”，但只要不导致混淆，“意愿(will)”在下面的描述中将被称为具有相同含义的“意图(intension)”)。在日本未审查专利申请公布第2006-53203号中，提供了表示字群组与输入语音信号之间的声学相似度的声学得分计算装置、和表示语言相似度的语言得分计算装置，其中，基于语法规则和词典来配置该声学相似度，该声学相似度对应于表示意图的意图信息，例如作为意图的“stand up please(请起立)”；以及，基于针对每个意图信息而计算的声学得分和语言得分，从多种类型的意图信息中选择表示与输入语音信号对应的意图的意图信息，由此估计意图。

但是，一般，随着意图信息的总量增加，估计关于输入语音的意图的准确度降低，以及计算量增加。

例如，具体地，如果基于语音识别而处理信息的信息处理设备是包括录制和回放功能的电视机，则用户可做出关于电视机的多个不同的请求(意图)，例如“Please change the channel(请改变频道)”、“please turnthe volume up(请调高音量)”、“please record(请录制)”、“please play(请播放)”、“please play with fast forward(请快进播放)”、以及“pleaseplay slowly(请慢放)”。

以该方式，在可能接收各种类型的请求的设备中，当应用上述表示字群组与语音信号之间的相似度的声学得分计算装置、以及表示语言相似度的语言得分计算装置、来执行从多种类型的意图信息中选择表示与输入语音信号对应的意图的意图信息的处理时，处理所需的计算量增加，因此意图估计的准确度降低。

发明内容

已经考虑到以上问题而做出了本公开，以及期望的是提供一种信息处理设备、以及信息处理方法及程序，其中，可基于语音识别来有效地和非常准确地执行意图估计。

本公开的第一实施例是一种信息处理设备，包括：预得分调整部分，其针对对应于预先登记的多种类型的意图信息中的每个意图信息的、作为单元的意图模型，基于作为观测信息而获得的上下文信息来计算预得分；多匹配部分，其确定对于基于用户话语的输入语音最合适的字群组，以及针对作为单元的意图模型计算要给予字群组的声学得分和语言得分；以及意图确定部分，其通过比较根据作为单元的意图模型的预得分、声学得分、和语言得分而计算的总得分，将与取得最高总得分的意图模型对应的意图信息确定为与用户话语对应的意图。

在本公开的信息处理设备的实施例中，观测信息可包括多种类型的观测信息，该设备还可包括预得分存储部分，在该预得分存储部分中登记有关每个上下文信息的对应于上下文的预得分，其中，每个上下文信息对应于多种不同类型的观测信息；以及预得分调整部分可基于上下文信息来选择登记在预得分存储部分中的对应于上下文的预得分，以及通过应用所选择的对应于上下文的预得分来计算作为单元的意图模型的预得分。

在本公开的信息处理设备的实施例中，作为观测信息的上下文信息可包括信息(a)至(c)中的至少任一个，信息(a)至(c)包括：

(a)从输入及输出部分输入的由用户选择的处理类别信息；

(b)从图像处理部分输入的语音输入个人识别信息；以及

(c)从麦克风确定部分输入的语音输入麦克风识别信息，以及预得分调整部分可基于上下文信息选择预得分存储部分中登记的对应于上下文的预得分，以及可通过应用所选择的对应于上下文的预得分来计算作为单元的意图模型的预得分。

在本公开的信息处理设备的实施例中，用户选择的处理类别信息可为用户从执行处理的信息处理设备的显示部分上显示的处理类别信息中选择的信息，以及预得分调整部可选择与用户选择的处理类别对应的对应于上下文的预得分，以及可通过应用所选择的对应于上下文的预得分来计算作为单元的意图模型的预得分。

在本公开的信息处理设备的实施例中，语音输入个人识别信息可为图像处理部分基于由信息处理设备的相机捕获的图像而执行的脸部识别处理的识别结果。预得分调整部可选择与识别的语音输入个人对应的对应于上下文的预得分，以及可通过应用所选择的对应于上下文的预得分来计算作为单元的意图模型的预得分。

在本公开的信息处理设备的实施例中，语音输入麦克风识别信息可为由信息处理设备的麦克风确定部分获得的、被确定为已经从中输入了语音的麦克风的麦克风信息。预得分调整部可选择与已经从中输入了语音的麦克风对应的对应于上下文的预得分，以及可通过应用所选择的对应于上下文的预得分来计算作为单元的意图模型的预得分。

在本公开的信息处理设备的实施例中，意图确定部分可通过应用对应于声学得分、语言得分和预得分中的每个的预设权重，来计算作为单元的意图模型的总得分。

在本公开的信息处理设备的实施例中，信息处理设备还可包括预得分学习部分，其接收预得分确定部分的确定结果的输入，以及通过基于输入确定结果而执行的学习处理，来更新预得分存储部分中登记的对应于上下文的预得分。

本公开的第二实施例是一种在信息处理设备中执行的信息处理方法，该方法包括：使预得分调整部分针对对应于预先登记的多个意图信息中的每个意图信息的、作为单元的意图模型，基于作为观测信息而获得的上下文信息来计算预得分；使多匹配部分确定对于基于用户话语的输入语音最合适的字群组，以及针对作为单元的意图模型计算要给予字群组的声学得分和语言得分；以及使意图确定部分通过比较根据作为单元的意图模型的预得分、声学得分、和语言得分而计算的总得分，将与取得最高总得分的意图模型对应的意图信息确定为与用户话语对应的意图。

本公开的第三实施例是一种使信息处理设备执行信息处理的程序，该程序包括：使预得分调整部分针对对应于预先登记的多种类型的意图信息中的每个意图信息的、作为单元的意图模型，基于作为观测信息而获得的上下文信息来计算预得分；使多匹配部分确定用于基于用户话语的输入语音最合适的字群组，以及针对作为单元的意图模型计算要给予字群组的语言得分和声学得分；以及使意图确定部分通过比较根据作为单元的意图模型的预得分、声学得分、和语言得分而计算的总得分，将与取得最高总得分的意图模型对应的意图信息确定为与用户话语对应的意图。

可通过以计算机可读形式提供的记录介质或通信介质，将本公开的实施例的程序提供给执行各种类型的程序代码的信息处理设备和计算机系统。通过以计算机可读形式提供程序，响应信息处理设备或计算机系统中的程序而实现处理。

通过下面的基于本公开的实施例和附图的详细描述，将进一步使本公开的其它期望的实施例、特征和优点变得清楚。而且，本说明书中的系统是多个装置的逻辑集合配置，以及每个配置装置不限于在同一情况中。

根据本公开的实施例的配置，实现了基于用户的话语来确定用户的意图的设备和方法。该设备包括：预得分调整部分，其针对对应于预先登记的多种类型的意图信息中的每个意图信息的、作为单元的意图模型，基于作为观测信息而获得的上下文信息来计算预得分；多匹配部分，其确定用于基于用户话语的输入语音最合适的字群组，以及针对作为单元的意图模型计算要给予字群组的声学得分和语言得分；以及意图确定部分，其通过比较根据作为单元的意图模型的预得分、声学得分、和语言得分而计算的总得分，将与取得最高总得分的意图模型对应的意图信息确定为与用户话语对应的意图，以及通过比较作为单元的意图模型的得分来确定与用户的话语对应的用户的意图。通过本公开，在根据输入语音信号估计话语的意图的设备中，可使用作为上下文的各种类型的观测信息来调整预得分，因此可提高意图估计的准确度。

附图说明

图1是图示语音识别处理的基本配置的视图。

图2是图示由根据本公开的实施例信息处理设备执行的处理的概述的视图。

图3是图示根据本公开的实施例的信息处理设备详细配置示例的框图。

图4是图示显示部分上显示的、由信息处理设备执行的处理的类别(类型)信息的示例的视图。

图5是图示与由根据本公开的实施例的信息处理设备执行的处理的处理类别对应的意图信息的示例的视图。

图6是图示使用根据本公开的实施例的信息处理设备的控制器来选择处理类别的示例的视图。

图7是图示根据本公开的实施例的信息处理设备的预得分存储部分中登记的数据的示例的视图。

图8是图示根据本公开的实施例的信息处理设备的预得分存储部分中登记的数据的示例的视图。

图9是图示根据本公开的实施例的信息处理设备的预得分存储部分中登记的数据的示例的视图。

图10是图示根据本公开的实施例的信息处理设备的预得分存储部分中登记的数据的示例的视图。

图11是图示根据本公开的实施例的信息处理设备的预得分存储部分中登记的数据的示例的视图。

图12是图示根据本公开的实施例的信息处理设备的硬件配置的示例的视图。

具体实施方式

在下文中，将参考附图详细描述本公开的信息处理设备、信息处理方法及程序，以及将根据下面的项目来进行描述。

1.由本公开的信息处理设备执行的处理的概述

2.本公开的信息处理设备的配置和具体处理

3.信息处理设备的硬件配置的示例

[1.由本公开的信息处理设备执行的处理的概述]

首先，将参考图2描述由本公开的信息处理设备执行的处理的概述。图2图示了具有录制和回放的功能的电视机，作为根据本公开的信息处理设备的示例。例如，信息处理设备100执行播放诸如硬盘、DVD、和蓝光盘的内置录制及播放装置中录制的内容的处理，以及执行将节目录制到录制及播放装置的处理，也执行显示广播内容的处理。

在信息处理设备100前方存在多个用户。在该图所示的示例中，存在用户a 51、用户b 52、和用户c 53。这些用户做出关于信息处理设备100的各种类型的请求。例如，他们请求频道的改变、音量调整、开始录制处理、显示录制的内容的列表、播放从列表中选择的内容、停止播放、快进等。

用户通过语音、即通过话语来做出这些请求。信息处理设备100包括设置有相机101、麦克风、和扬声器的语音输入及输出部分102。通过设置有麦克风和扬声器的语音输入及输出部分102，将来自用户a 51至用户c 53的字输入到信息处理设备100中。另外，通过相机101将用户a 51至用户c 53的图像输入到信息处理设备100中。

信息处理设备100分析该输入信息，确定要由设备执行的动作，以及执行动作。当设备理解用户的请求时，设备响应请求执行处理。处理的示例包括频道的改变、选择及播放内容等。

[2.本公开的信息处理设备的配置和具体处理]

接下来，将参考从图3开始的图来描述本公开的信息处理设备的配置和具体处理。例如，图3中示出的信息处理设备200对应于图2中示出的信息处理设备100。本发明的信息处理设备不限于电视机，而是可实现为PC、播录一体机、和各种类型的其它家用电器。即，本公开的信息处理设备是响应用户的请求执行各种类型的处理的设备。

如上参考图1描述了语音识别处理的基本配置。在图3示出的信息处理设备200中，语音输入201、AD转换器205、特征提取部分206、和声学模型208具有与以上参考图1描述的配置相同的配置，所以在下面的描述中将简化对上述配置的描述。

本实施例的信息处理设备200设置有包括近距离麦克风202和远距离麦克风203的两个麦克风以及确定用户使用哪个麦克风的麦克风确定部分204。近距离麦克风202是在用户与麦克风之间的距离近的假定之下使用的麦克风。例如，近距离麦克风202对应于用户手持说话的麦克风，以及对应于用户手持使用的遥控器等中设置的麦克风。另一方面，远距离麦克风203是在用户与麦克风之间的距离远的假定之下使用的麦克风。例如，远距离麦克风203对应于天花板、墙、和电视机中安装的麦克风，其在用户于稍远离麦克风的位置处说话的假定之下使用。

麦克风确定部204用于确定用户使用近距离麦克风202与远距离麦克风203之间的哪一个来输入语音(话语)。例如，当用户在按压近距离麦克风中设置的按钮的同时输入语音时，确定语音是通过近距离麦克风输入的，而当用户通过说话而没有按压按钮来输入语音时，确定语音是通过远距离麦克风输入的，由此可确定用户使用哪个麦克风来输入语音。

在该情况下，基于用户是否按压按钮，麦克风确定部204做出确定。仅将从已经被麦克风确定部204确定为用于用户输入语音的麦克风输入的语音信号发送给AD转换器205。而且，将麦克风确定部204的确定结果作为上下文信息发送给上下文确定部216。稍后将详细描述上下文确定部216。

AD转换器205采样对应于从麦克风输入的语音信号的模拟信号，从而生成数字信号。数字信号输入到特征提取部分206中，继之以适当的时间间隔的频率分析等，然后转换成表示语音的频谱或其它声学特征的参数。通过特征提取部分206的处理，获得特征量群组，其为语音的特征量的时间序列数据。

将在特征提取部分206中提取的特征量群组发送到多匹配部分207。基于从特征提取部分206发送的特征量群组和意图模型A(209-A)至意图模型N(209-N)，多匹配部分207计算关于每个意图模型的得分。稍后将描述计算得分的方法。

将意图模型A(209-A)至意图模型N(209-N)设定为对应于基于用户的话语而估计的每个意图的模型。与用户将做出的关于信息处理设备的请求的条目相关联地登记这些意图。尽管稍后将做出其详细描述，在本公开的设备中，例如设定对应于图5中示出的下面A至N：15种类型的意图信息的意图模型A至N(209-A至209-N)。

意图信息A＝[播放]

意图信息B＝[快进]

……

意图信息N＝[设定演奏者]

分别基于下面的数据来配置意图模型A(209-A)至意图模型N(209-N)。

(1)意图信息A(209-A1)至意图信息N(209-N1)

(2)预得分A(209-A2)至预得分N(209-N2)

(3)词典A(209-A3)至词典N(209-N3)

(4)语法A(209-A4)至语法N(209-N4)

例如，意图模型A(209-A)包括下面的具有意图信息A(209-A1)、预得分A(209-A2)、词典A(209-A3)和语法A(209-A4)的数据。

意图信息是表示每个意图模型对应于什么意图的信息。例如，将图5中示出的下面的意图信息登记为意图模型A至N(209-A至209-N)中的每个模型的意图信息A至N(209-A1至209-N1)。

意图信息A＝[播放]

意图信息B＝[快进]

……

意图信息N＝[设定演奏者]

预得分是预先提供给每个意图模型的得分。稍后将详细描述计算得分的过程。

词典配置有根据意图信息定义的词汇，并且包括与图1中的词典17相同的功能。即，词典是保存有关要识别的每个字的发音的信息的数据。以该方式，将字与上述声学模型相关联。因此，获得对应于词典中包括的每个字的标准声学特征。

语法配置有二元语法或三元语法，其可呈现词典中保存的字的连接概率。尤其，语法被配置为将高得分给予表示意图信息的字群组的语法，并且包括与图1中的语法18相同的功能。即，语法是描述将如何连接词典中描述的单个字的数据，以及使用基于形式语法或上下文无关语法的描述、包括字链接的统计连接概率的语法(元语法)等作为语法。

多匹配部分207包括多个计算部分，例如声学得分计算部分207a、语言得分计算部分207b、和预得分计算部分207c。

在多匹配部分207中，使用参考图1描述的声学模型208和多个意图模型A(209-A)至意图模型N(209-N)来确定对于每个意图模型的输入语音最适合的字群组，以及计算关于各个字群组的声学得分和语言得分。

如以上参考图1所描述的，声学模型数据208保存诸如在要处理的语言中使用的单个音素和音节的声学特征，其中要处理的语言包括例如日语或英语。使用隐马尔可夫模型(HMM)等作为该模型。

如上所述，意图模型A(209-A)至意图模型N(209-N)中的每个包括下面的对应于意图模型A至N中的每个的部件。

词典A(209-A3)至词典N(209-N3)

语法A(209-A4)至语法N(209-N4)

在本公开的信息处理设备中，通过使用声学模型208与配置意图模型A(209-A)至意图模型N(209-N)的一个意图模型的组合，配置声学模型和一组词典及语法。因此，可能的是，以与图1中的匹配部分15的处理相同的方式来确定对于输入语音信号最适合的字群组。

例如，多匹配部分207的声学得分计算部分207a基于将根据由多匹配部分207配置的字模型群组中包括的字模型来观测特征量群组的概率(出现的概率)，来计算配置字群组的每个字的声学得分。而且，多匹配部分207的语言得分计算部分207b基于由多匹配部分207配置的字群组中包括的字将被连接(彼此相邻)的概率，来计算配置字群组的每个字的语言得分。

此处，尽管图1中的匹配部分15使用一组词典和语法来执行匹配处理，但是图3中示出的多匹配部分207使用多个词典和语法的组合来执行匹配处理。因此，针对各个词典和语法的组合，即针对意图模型A至N中的每个，确定对于输入语音最适合的字群组，以及计算要给予字群组的声学得分和语言得分。

意图模型A至N中的每个包括预得分A(209-A2)至预得分N(209-N2)。例如，预得分是基于各个意图的发生概率预先确定的得分。

多匹配部分207的预得分计算部分207c基于意图模型A至N的预得分A(209-A2)至预得分N(209-N2)，来计算关于意图信息的预得分。当所有的意图等概率地发生时，将相同的得分计算为预得分。

因此，图3中示出的多匹配部分207计算下面的数据。

(A)使用意图模型A、声学得分、语言得分、和预得分的设定信息而计算的对于输入语音最适合的字群组

(B)使用意图模型B、声学得分、语言得分、和预得分的设定信息而计算的对于输入语音最适合的字群组

……

(N)使用意图模型N、声学得分、语言得分、和预得分的设定信息而计算的对于输入语音最适合的字群组

在图3所示的多匹配部分207中，计算包括对于N组输入语音、声学得分、语言得分、和预得分最适合的字群组的数据。

通过总计由声学得分计算部分207a计算的声学得分、由语言得分计算部分207b计算的语言得分、和由预得分计算部分207c计算的预得分，可能的是，计算关于为每个意图模型配置的字群组的总得分。总得分用作估计与用户话语对应的意图的得分。

将作为多匹配部分207的处理结果而获得的每个意图的声学得分、语言得分、和预得分与每个声学模型保存的意图信息相组合，并将作为多匹配部分207的处理结果而获得的每个意图的声学得分、语言得分、和预得分发送到意图确定部分210。在意图确定部分210中，比较通过总计每个意图模型的声学得分、语言得分、和预得分而计算的总得分，由此确定具有最佳(最高)得分的意图模型。随后，基于该结果，将与具有最佳得分的意图模型对应的意图信息选择为与输入语音信号对应的意图信息。将该意图信息输出为语音理解结果211。

显示部分213为用户输出和显示由信息处理设备200执行的处理的类别(类型)信息212。例如，图4图示在显示部分213上显示的、由信息处理设备200执行的处理的类别信息的示例。在图4所示的示例中，显示包括播放301、录制302、检索303、和设定304的四种类型的处理类别信息。

处理类别信息是由信息处理设备执行的处理的类别，并且对应于由信息处理设备200响应用户的请求而执行的处理的类别。例如，当基于语音识别而执行处理的设备是图2中所示的电视机时，除了图4中所示的播放301、录制302、检索303、和设定304之外，还可设定其它处理类别，例如频道的改变、音量的调节等。

在下文中，为了简化描述，将基于包括音乐数据的播放、录制、检索和设定信息的四个类别，来描述由信息处理设备200执行的处理。在该情况下，如图4所示，为用户显示包括播放301、录制302、检索303、和设定304的四种类型的处理类别信息。用户做出与这些类型的处理类别信息中的任一个对应的处理请求。

用户通过麦克风，即通过图3中所示的近距离麦克风201和远距离麦克风203中的任一个来做出与包括播放301、录制302、检索303、和设定304的四种类型的处理类别信息中的任一个对应的特定处理请求。

例如，用户说出诸如“播放”、“快进”、和“倒回”的字作为对应于播放301的处理类别，从而使信息处理设备200响应这些指示来执行处理。

如图5所示，在信息处理设备中的存储器中预先登记与包括播放、录制、检索和设定的四种类型的处理类别对应的意图信息。

例如，在播放的处理类别中，定义了5种类型的意图信息，包括“播放”、“快进”、“倒回”、“移动到下一首音乐”和“移动回到前一首音乐”。

同样地，在录制的处理类别中，设定4种类型的意图信息：“开始录制”、“停止录制”、“再继续录制”和“保存数据”；在检索的处理类别中，设定3种类型的意图信息：“按名称检索”、“按流派检索”和“按演奏者检索”；以及在设定的处理类别中，设定3种类型的意图信息：“设定名称”、“设定流派”和“设定演奏者”。

以该方式，预先设定关于每个处理类别的一个或更多个意图信息，并将其记录在信息处理设备中的存储器中。

图5中所示的意图信息的总数量是15。在该情况下，针对图3中所示的N个意图模型209-A至209-N，设定15个意图模型，以及设定包括下面信息的15个意图模型A至N，作为为图3中所示的意图模型209-A至209-N设定的意图信息A至N。

意图信息A＝[播放]

意图信息B＝[快进]

……

意图信息N＝[设定演奏者]

图3中所示的N个意图模型209-A至209-N将对应于每个意图信息的预得分A至N输出到多匹配部分207。

当看见图4中所示的显示的处理类别信息时，用户可通过使用例如控制器来选择图4中所示的处理类别信息之一(播放301、录制302、检索303、和设定304)，其中该控制器配置有五个按钮，包括如图6中所示的四个方向按钮和一个选择按钮。

图3中所示的控制器输入对应于由用户从处理类别中选择的信息，以及通过输入及输出部分215将由用户执行的选择的结果输入到上下文确定部分216中。输入及输出部分215向显示部分213输出要为用户显示的处理类别信息，以及将从输入及输出部分215输入的、由用户选择的处理类别信息输出到上下文确定部分216。

在上下文确定部分216中，输入用于估计用户意图的上下文信息。

上下文信息是应用于用户意图的估计的观测信息，并且具体包括下面的信息。

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]

在下面的描述中，将描述处理示例，在该处理示例中使用所有这3种类型的上下文信息。但是，不需要使用所有这3种类型的上下文信息，以及例如可使用这样的配置，在这样的配置中使用3种类型的上下文信息中的1个或2个信息。

在上下文确定部分216中，除了上述作为从输入及输出部分215输入的、由用户选择的信息的[由用户选择的处理类别信息]以外，还将包括来自图像处理部分221的[语音输入个人识别信息]和来自麦克风确定部分204的[语音输入麦克风识别信息]的各个信息，输入为用于估计用户意图的上下文信息。

将描述[语音输入个人识别信息]，其被作为图像处理的结果从图像处理部分221输入到上下文确定部分216中。

首先，将由用作诸如CCD相机的成像装置的相机218获取的用户图像输入为作为图像信号的图像输入217。图像信号在AD转换器219中被转换成数字信号，然后被发送到特征提取部分220。在特征提取部分220中，发送的图像数据经受脸部检测和从检测的脸部图像中提取特征量。在本文中，脸部检测对应于从图像数据中提取脸部区域(脸部的位置和大小)，以及对应于提取的脸部区域的部分被称为脸部图像。

脸部图像经受对表示脸部特征的诸如眼睛、鼻子和嘴的部分的检测以及对脸部的取向的检测，然后执行诸如仿射变换等的处理来在标准位置处定位脸部的各个部分。此后，通过使用被称为伽柏滤波器(Gabor filter)的、具有取向选择性和不同频率分量的多个滤波器，将脸部图像的特征量提取为向量。将特征量发送到图像处理部分221。

在图像处理部分221中，基于发送的特征量来执行脸部识别的处理。在本文中，脸部识别对应于使用由脸部检测提取的脸部图像在已经登记了脸部图像的人当中识别图像属于哪个人的处理。例如将所谓的支持向量机或自适应增强(Adaboost)的识别技术应用于脸部识别。

支持向量机是以通过使用非线性映射、在映射后获得的特征空间中构造超平面来表征的识别技术，其中，在非线性映射中使用内核函数(kernelfunction)，该超平面分离从特定的同一人的脸部图像中提取的特征量向量和从除同一人以外的人的脸部图像中提取的特征量向量。

自适应增强是通过组合多个弱识别装置来配置强识别装置的技术。对于识别装置中的任一个，使用这样的方法：在这样的方法中，通过使用从预先登记的特定的同一人的脸部图像中提取的特征量向量和从除同一人以外的人的登记的脸部图像中提取的特征量向量，来预先配置识别装置。

使用脸部识别的识别装置，图像处理部分221确定与从相机218输入的图像信号中包括的脸部图像对应的人。此后，将确定结果作为[语音输入个人识别信息]发送到上下文确定部分216。

在上下文确定部分216中，输入作为上下文信息的来自麦克风确定部分204的[语音输入麦克风识别信息]。

麦克风确定部分204将[语音输入麦克风识别信息]作为上下文信息输出到上下文确定部分216，[语音输入麦克风识别信息]表示已经从近距离麦克风202和远距离麦克风203之间的哪个麦克风输入了语音信号。

以该方式，在上下文确定部分216中，输入包括下面信息的上下文信息。

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]

为了基于以上信息计算和调整为图3中所示的意图模型A至N(209-A至209-N)中的每个设定的预得分A至N(209-A2至209-N2)，上下文确定部分216将输入的上下文信息输出到预得分调整部分222。

基于从上下文确定部分216输入的上下文信息，预得分调整部分222计算预得分A至N(209-A2至209-N2)并将计算的值提供给意图模型A至N(209-A至209-N)。基于从上下文确定部分216输入的上下文信息，预得分调整部分222根据预先规定的算法来计算预得分A至N(209-A2至209-N2)。

预得分存储部分223存储图5、7和8中所示的上下文信息和对应于上下文信息的意图信息的组合数据。

如上所述，图5图示了[由用户选择的处理类别信息](＝上下文信息)以及对应于上下文信息中的每个的意图信息，其中，[由用户选择的处理类别信息](＝上下文信息)通过输入及输出部分215被发送到上下文确定部分216，并被分类成4种类型，即包括[播放]、[录制]、[检索]、和[设定]的四种类型的上下文信息。

图7图示了从麦克风确定部分204发送的[语音输入麦克风识别信息](＝上下文信息)以及对应于[语音输入麦克风识别信息]中的每个的意图信息。即，图7图示了包括[远距离麦克风]和[近距离麦克风]的两种类型的上下文信息，以及对应于上下文信息中的每个的意图信息。

图8图示了从图像处理部分221发送的[语音输入麦克风识别信息](＝上下文信息)，以及对应于[语音输入麦克风识别信息]中的每个的意图信息。即，图8图示了包括[个人A]和[个人B]的两种类型的上下文信息，以及对应于上下文信息中的每个的意图信息。

在当前示例中，设定了包括[个人A]和[个人B]的2个人。但是，可根据信息处理设备中预先登记的个人信息的数量来任意设定人的数目。

在图5、7和8中，仅示出了上下文信息中的每个与对应于上下文的意图信息的组合。但是，作为预得分，为对应于上下文信息中的每个的意图信息设定高值(例如1.0)，而为不对应于上下文信息的意图信息设定低值(例如0.0)。

具体地，例如，在图5所示的示例中，将包括[播放]至[移动回到前一首音乐]的5种类型的意图信息登记为对应于上下文[播放]的意图信息。在该情况下，针对包括意图信息[播放]至[移动回到前一首音乐]的5种类型的意图信息，将关于上下文[播放]的预得分(对应于上下文的预得分)设定成高值，而将包括[开始录制]至[设定演奏者]的其它类型的意图信息的预得分设定成低值。

图9至图11示出预得分存储部分223中存储的预得分的设定的示例。

得分是与各个上下文中的每个相关联地设定的[对应于上下文的预得分]。

即，图9是关于(A)[由用户选择的处理类别信息]的[对应于上下文的预得分]的设定的示例，其中，[由用户选择的处理类别信息]是从输入及输出部分215输入的上下文信息。

图10是关于(B)[语音输入个人识别信息]的[对应于上下文的预得分]的设定的示例，其中，[语音输入个人识别信息]是从图像处理部分221输入的上下文信息。

图11是关于(C)[语音输入麦克风识别信息]的[对应于上下文的预得分]的设定的示例，其中，[语音输入麦克风识别信息]是从麦克风确定部分204输入的上下文信息。

图9是关于(A)[由用户选择的处理类别信息]的[对应于上下文的预得分]的设定的示例，其中，[由用户选择的处理类别信息]是从输入及输出部分215输入的上下文信息。

例如，当通过输入及输出部分215和上下文确定部分216将用户已经把[播放]选择为处理类别的上下文信息输入到预得分调整部分222中时，为图9中所示的条目[播放]列中的条目设定的、包括[播放]＝0.9至[设定演奏者]＝0.01的对应于上下文的15个预得分，被选择为对应于与每个意图对应的上下文的预得分。

如由与图9中所示的上下文对应的预得分所示的，当用户将[播放]选择为处理类别时，关于与播放处理对应的意图而选择的预得分高。对于与播放处理不对应的其它意图(开始录制至设定演奏者)，设定低值。

另外，关于与每个处理类别对应的意图，将以上参考图5描述的数据存储在预得分存储部分223中。

例如，当用户将[录制]选择为处理类别时，为图9中所示的条目[录制]列中的条目设定的、包括[播放]＝0.2至[设定演奏者]＝0.02的对应于上下文的15个预得分，被选择为对应于与每个意图对应的上下文的预得分，并稍后用于接下来的处理。

当用户将[检索]选择为处理类别时，为图9中所示的条目[检索]列中的条目设定的、包括[播放]＝0.2至[设定演奏者]＝0.3的对应于上下文的15个预得分，被选择为对应于与每个意图对应的上下文的预得分，并稍后用于接下来的处理。

当用户将[设定]选择为处理类别时，为图9中所示的条目[设定]列中的条目设定的、包括[播放]＝0.1至[设定演奏者]＝0.8的对应于上下文的15个预得分，被选择为对应于与每个意图对应的上下文的预得分，并稍后用于接下来的处理。

还可通过预先设定固定值和连续使用固定值，来设定图9中所示的[对应于上下文的预得分]。但是，在设定初始值之后，信息处理设备可学习此后由用户执行的实际处理，并基于学习数据来更新数据。

例如，如果用户频繁地在将[播放]选择为处理类别之后将[倒回]的处理请求作为要执行的处理，则信息处理设备执行更新以逐渐地提高与[播放]意图＝[倒回]对应的预得分。

将该处理执行为图3中所示的预得分学习部分224的处理。

已经将[个人A]和[个人B]登记为语音输入个人，以及已经设定对应于这些个人的预得分。

例如，在图3所示的图像处理部分221中，当语音输入个人被识别为[个人A]以及通过图像处理部分221和上下文确定部分216将表示[个人A]是语音输入个人的上下文信息输入到预得分调整部分222中时，为图10中所示的条目[个人A]列中的条目设定的、包括[播放]＝0.9至[设定演奏者]＝0.1的对应于上下文的15个预得分，被选择为对应于与每个意图对应的上下文的预得分，并稍后用于接下来的处理。

为图10中所示的条目[个人A]列中的条目设定的对应于上下文的预得分是基于表示[个人A]频繁地执行播放处理但很少执行录制处理的信息而预先登记的数据。

另一方面，当语音输入个人被识别为[个人B]时，为图10中所示的条目[个人B]列中的条目设定的、包括[播放]＝0.3至[设定演奏者]＝0.9的对应于上下文的15个预得分，被选择为对应于与每个意图对应的上下文的预得分，并稍后用于接下来的处理。

这些得分是基于表示[个人B]很少执行播放处理但频繁地执行录制处理的信息而预先登记的数据。

可预先自由地设定预得分，或者预得分可经受得分更新，在得分更新中，设定适当的初始值，然后基于由每个个人在信息处理设备中执行的实际处理来执行学习处理，以将高得分给予频繁执行的处理，而将低得分给予很少执行的处理。

将该学习处理执行为图3所示的预得分学习部分224的处理。

例如，在图3所示的麦克风确定部分204中，当语音输入麦克风被识别为[远距离麦克风]以及通过麦克风确定部分204和上下文确定部分216将表示语音输入麦克风是[远距离麦克风]的上下文信息输入到预得分调整部分222中时，为图11中所示的条目[远距离麦克风]列中的条目设定的、包括[播放]＝0.9至[设定演奏者]＝0.1的对应于上下文的15个预得分，被选择为对应于与每个意图对应的上下文的预得分，并稍后用于接下来的处理。

为图11中所示的条目[远距离麦克风]列中的条目设定的对应于上下文的预得分是基于表示由通过[远距离麦克风]输入的指示频繁地执行播放处理但很少执行检索处理的信息而预先登记的数据。

另一方面，当语音输入麦克风被识别为[近距离麦克风]时，为图11中所示的条目[近距离麦克风]列中的条目设定的、包括[播放]＝0.1至[设定演奏者]＝0.9的对应于上下文的15个预得分，被选择为对应于与每个意图对应的上下文的预得分，并稍后用于接下来的处理。

这些得分是基于表示由通过[近距离麦克风]输入的指示很少执行播放处理但频繁地执行检索处理的信息而预先登记的数据。

可预先自由地设定预得分，或者预得分可经受得分更新，在得分更新中，设定适当的初始值，然后在信息处理设备中执行对每个麦克风的实际应用处理进行分析的学习处理，以针对作为单元的每个麦克风将高得分给予频繁执行的处理，而将低得分给予很少执行的处理。

将该处理执行为图3所示的预得分学习部分224的处理。

以该方式，预得分调整部分222参考预得分存储部分223中登记的信息(图9至图11)，基于从上下文确定部分216发送的上下文信息，来执行对为意图模型A至N(209-A至209-N)的预得分A至N(209-A2至209-N2)设定的预得分值进行调整的处理。

存在从上下文确定部分216发送到预得分调整部分222的、如下三种类型的上下文信息。

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]

基于3种类型的上下文信息中的每个，预得分调整部分222计算[总预得分]，作为通过考虑所有的[对应于上下文的预得分]而计算的结果，以及将[总预得分]设定为图3中所示的意图模型A至N(209-A至209-N)的预得分A至N(209-A2至209-N2)，其中[对应于上下文的预得分]是与图9至图11中所示的每个上下文对应的预得分。

例如，当基于麦克风确定部分204的处理结果发送[近距离麦克风]的上下文信息时，通过应用对应于为条目[近距离麦克风]设定的上下文的预得分来计算[总预得分]，然后将[总预得分]设定为图3中所示的意图模型A至N(209-A至209-N)的预得分A至N(209-A2至209-N2)，其中对应于为条目[近距离麦克风]设定的上下文的预得分是与图11中所示的上下文对应的预得分。

而且，当发送[远距离麦克风]的上下文信息时，通过应用对应于为条目[远距离麦克风]设定的上下文的预得分来计算[总预得分]，然后将[总预得分]设定为图3中所示的意图模型A至N(209-A至209-N)的预得分A至N(209-A2至209-N2)，其中对应于为条目[远距离麦克风]设定的上下文的预得分是与图11中所示的上下文对应的预得分。

当根据用户与麦克风之间的距离来约束可由用户指令的物体时，将近距离麦克风和远距离麦克风作为上下文信息是有效的。例如，假设这样的情况：在这样的情况中，远距离麦克风仅处理被约束到每日使用的指令，而近距离麦克风处理更自由地提供的指令。一般，用户与麦克风之间的距离越远，根据语音估计意图的性能就越差。因此，为改进远距离麦克风的意图估计的性能，约束可由用户指令的物体扮演重要的角色。

以类似的方式，当基于输入及输出部分215的处理结果发送[播放]的上下文信息时，通过应用对应于为条目[播放]设定的上下文的预得分来计算[总预得分]，然后将[总预得分]设定为图3中所示的意图模型A至N(209-A至209-N)的预得分A至N(209-A2至209-N2)，其中对应于为条目[播放]设定的上下文的预得分是与图9中所示的上下文对应的预得分。

一般，要处理的意图信息的总量越大，根据语音估计意图的性能就越差。因此，为改进意图估计的性能，约束可由用户根据用户做出的指派而指令的物体扮演重要的角色。

当基于图像处理部分221的处理结果发送[个人A]的上下文信息时，通过应用对应于为条目[个人A]设定的上下文的预得分来计算[总预得分]，然后将[总预得分]设定为图3中所示的意图模型A至N(209-A至209-N)的预得分A至N(209-A2至209-N2)，其中对应于为条目[个人A]设定的上下文的预得分是与图10中所示的上下文对应的预得分。

通过使用这样的属性：取决于使用系统的个人、一些功能被频繁使用而一些其它功能很少被使用，该处理扮演将高得分给予每个人以高频率使用的意图信息。

当可预先确定与上下文信息对应的意图信息的组合时，可将低得分给予与上下文信息不对应的意图信息。特别地，当将预得分设定为0.0时，不需要计算关于与意图信息对应的意图模型的声学得分和语言得分，所以可有效地减少计算量。

基于从上下文确定部分216输入的下面3种类型的上下文信息，即基于

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]，

预得分调整部分222选择[对应于上下文的预得分]，通过应用所选择的[对应于上下文的预得分]来计算[总得分]，以及将所计算的[总得分]设定为图3中所示的意图模型A至N(209-A至209-N)的预得分A至N(209-A2至209-N2)，其中，[对应于上下文的预得分]是与图9至图11中所示的每个上下文对应的预得分。

将如下描述该处理的详细示例。

首先，将描述基于语音理解的意图估计处理的基本处理示例。

下面的公式(1)是用于计算意图发生概率P(S|X)的公式，其中意图P(S|X)用于在语音理解中估计意图。

P (S | X) = \frac{P (X | S) P (S)}{P (X)}

......公式(1)

在以上公式(1)中，X表示输入语音信号，S表示意图，而P(X|S)表示当存在意图(S)时将获得输入信号(X)的概率。

由公式(1)计算的意图发生概率P(S|X)表示当检测到输入语音信号[X]时、信号的意图将为[S]的概率。

基于公式(1)将语音理解公式化，以确定具有最大发生概率的意图S。

例如，当登记图5、和图9至图11中所示的包括[播放]至[设定演奏者]的15种类型的意图时，如此设定15种类型的意图中的每个，以便

S1＝[播放]

S2＝[快进]

……

S15＝[设定演奏者]

针对意图信息S1至S15计算发生概率P(S1|X)至P(S15|X)，以及在计算的15个发生概率中选择具有最大值的意图(S1至S15)。将选择的意图确定为用户的意图。这是意图估计的基本处理。

在根据图3所示的本公开的信息处理设备中，图3中所示的多匹配部分207和意图确定部分210通过将公式(1)修改为下面的公式(2)来使用公式(1)，其中公式(1)是基于语音理解的意图估计的基本公式。

P (S | X) = \frac{P {(X | w_{s 1}, w_{s 2}, . . ., w_{sn})}^{a} P {(w_{s 1}, w_{s 2}, . . ., w_{sn} | S)}^{b} P {(S)}^{c}}{\underset{S}{Σ} P {(X | w_{s 1}, w_{s 2}, . . ., w_{sn})}^{a} P {(w_{s 1}, w_{s 2}, . . ., w_{sn} | S)}^{b} P {(S)}^{c}}

......公式(2)

在以上公式(2)中，w_si(i＝1，…N)表示关于意图S而定义的字。即，基于用关于意图S而定义的字配置的字群组w_s1，w_s2，…，w_sn，计算声学得分。

该得分对应于概率P(X|w_s1，w_s2，…，w_sn)。

另外，关于特定意图S而计算的语言得分对应于概率P(w_s1，w_s2，…，w_sn|S)。

而且，要给予特定意图S的发生概率(预概率)P(S)对应于意图模型A至N(209-A至209-N)中的每个中设定的预得分(209-A2至209-N2)。

a、b和c分别表示为语音理解中的每个意图模型计算的声学得分、语言得分和预得分的权重。将预设值用作a、b和c。

如上所述，图3中所示的多匹配部分207计算下面的数据。

……

在图3所示的多匹配部分207中，计算包括对于N组输入语音、声学得分、语言得分和预得分最适合的字群组的数据。

与每个意图模型对应的字群组对应于公式(2)中所示的字群组w_si(i＝1，…N)，即w_s1，w_s2，…，w_sn。

声学得分对应于公式(2)中所示的概率P(X|w_s1，w_s2，…，w_sn)。

语言得分对应于公式(2)中所示的概率P(w_s1，w_s2，…，w_sn|S)。

如上所述，用作发生概率(预概率)P(S)的预得分(209-A2至209-N2)是基于下面3种类型的上下文信息、通过应用从图9至图11所示的每个上下文中提取的[对应于上下文的预得分]而计算的[总预得分]。

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]

将作为多匹配部分207的处理结果获得的每个意图的声学得分、语言得分和预得分与由每个意图模型保存的意图信息相组合，然后将作为多匹配部分207的处理结果获得的每个意图的声学得分、语言得分和预得分发送给意图确定部分210。

意图确定部分210比较通过总计有关每个意图模型的声学得分、语言得分和预得分而计算的总得分，由此确定具有最佳(最高)得分的意图模型。

具体地，将该确定处理执行为公式(2)的每个意图的发生概率P(S|X)的比较处理。计算最高发生概率P(S|X)所针对的意图，即将意图A至N中的任一个确定为与用户话语对应的语音理解结果211。

在本公开的信息处理设备200中，以上公式(2)中使用的发生概率(预概率)P(S)的值，即预得分P(S)的值不是总固定的，而是可根据上下文适当地调整。该调整处理使改进意图估计的性能成为可能。另外，关于预得分P(S)＝0.0的意图信息，可省略下面的计算。

声学得分：P(X|w_s1，w_s2，…，w_sn)

语言得分：P(w_s1，w_s2，…，w_sn|S)

将描述应用在本公开的信息处理设备中的计算预得分P(S)的方法。

公式(2)中包括的P(S)是要给予特定意图S的发生概率(预概率)P(S)，并对应于预得分的值。

在本公开的信息处理设备中，将预得分P(S)作为总预得分P(S)，该总预得分P(S)是作为通过考虑所有下面3种类型的上下文信息而获得的结果。即，计算和使用[总预得分]，该[总预得分]是通过考虑所有的[对应于上下文的预得分]而获得的结果。[对应于上下文的预得分]是对应于每个上下文的预得分，其中基于下面3种类型的上下文信息中的每个来计算[对应于上下文的预得分]。

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]

用于计算总预得分P(S)的公式被示出为下面的公式(3)。

P(S)＝P(C₁)P(S|C₁)+P(C₂)P(S|C₂)+…+P(C_K)P(S|C_K)

......公式(3)

在公式(3)中，K表示从上下文确定部分216发送的上下文信息的数量。

在图2所示的示例中，将下面3种类型的上下文信息输入到上下文确定部分216中。

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]

相应地，K＝3。

另外，C_k表示每个上下文信息。

C₁表示从麦克风确定部分204发送的上下文信息，C₂表示从输入及输出部分215发送的上下文信息，以及C₃表示从图像处理部分221发送的上下文信息。

位于右端的P(S|C_K)表示当检测到某个类型的上下文信息C_k时将发生意图S的概率，并对应于参考图9至图11所描述的表中的值，即预得分存储部分223中存储的[对应于上下文的预得分]。

另外，P(C_K)表示P(S|C_K)的权重。将预设的值用作权重。

例如，如图11所示，当意图S表示[播放]、而从麦克风确定部分204发送的上下文信息C₁表示[远距离麦克风]时，预得分P(S|C₁)＝0.9。

例如，如图11所示，当意图S表示[快进]、而上下文信息C₁表示[近距离麦克风]时，预得分P(S|C₁)＝0.1。

将描述基于公式(3)计算[总预得分]的具体示例。例如，如此设定对应于每个[对应于上下文的预得分]的权重，以便P(C₁)＝0.5，P(C₂)＝0.6，以及P(C₃)＝0.4。

在本文中，

从麦克风确定部分204发送的[语音输入麦克风识别信息]，即上下文信息C₁是[近距离麦克风]，

从输入及输出部分215发送的[由用户选择的处理类别信息]，即上下文信息C₂是[播放]

从图像处理部分221发送的[语音输入个人识别信息]，即上下文信息C₃是[个人B]。

此时，关于意图S[播放]，通过预得分存储部223从图9至图11所示的[对应于上下文的预得分]的设定值中获得诸如P(S|C₁)＝0.1、P(S|C₂)＝0.9和P(S|C₃)＝0.3的值。

接下来，通过公式(3)来计算每个[对应于上下文的预得分]和权重，以及将该计算的结果相加以计算最终的[总预得分P(S)]，在[总预得分P(S)]中已经考虑了所有的上下文信息。

即，根据公式，总预得分P(S)＝0.5×0.1+0.6×0.9+0.4×0.3＝0.71，计算其中已经考虑了所有上下文信息的最终的[总预得分]P(S)。

例如，当图3中所示的意图模型A(209-A)的意图信息A＝[播放]时，，在预得分调整部分222中计算作为以上计算结果获得的总预得分、即总预得分P(S)＝0.5×0.1+0.6×0.9+0.4×0.3＝0.71并将其设定为意图模型A(209-A)的预得分A(209-A2)。

在预得分调整部分222中，关于所有的意图信息([播放]至[设定演奏者])，选择图9至图11中所示的[对应于上下文的预得分]的设定值，以及基于下面3种类型的上下文信息来计算总预得分P(S)。

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]

预得分调整部分222将作为计算值的总预得分设定为意图模型A至N(209-A至209-N)中的每个的预得分A至N(209-A2至209-N2)。

以该方式，对于意图模型A至N(209-A至209-N)中的每个的预得分A至N(209-A2至209-N2)，设定使用图9至图11中所示的[对应于上下文的预得分]而计算的[总预得分]。

如上所述，在根据图3所示的本公开的信息处理设备中，图3中所示的多匹配部分207计算下面的数据。

……

即，图3中所示的多匹配部分207计算包括对于N组输入语音、声学得分、语言得分和预得分最适合的字群组的数据。

如上所述，用作发生概率(预概率)P(S)的预得分(209-A2至209-N2)是基于下面3种类型的上下文信息中的每个、通过应用从图9至图11所示的每个上下文中提取的[对应于上下文的预得分]而计算的[总预得分]。

(A)从输入及输出部分215输入的[由用户选择的处理类别信息]

(B)从图像处理部分221输入的[语音输入个人识别信息]

(C)从麦克风确定部分204输入的[语音输入麦克风识别信息]

将作为多匹配部分207的处理结果而获得的每个意图的声学得分、语言得分和预得分与由每个意图模型保存的意图信息相组合，然后将作为多匹配部分207的处理结果而获得的每个意图的声学得分、语言得分和预得分发送给意图确定部分210。

通过比较经由总计有关每个意图模型的声学得分、语言得分和预得分而计算的总得分，意图确定部分210确定具有最佳(最高)得分的意图模型。

将该确定处理执行为对公式(2)的每个意图的发生概率P(S|X)进行比较的处理。计算最高发生概率P(S|X)所针对的意图，即将意图A至N中的任一个确定为与用户话语对应的语音理解结果211。

在预得分存储部分223中存储公式(3)中所示的权重P(C_K)和[对应于上下文的预得分]P(S|C_K)，并且预先设定权重P(C_K)和[对应于上下文的预得分]P(S|C_K)的值。可将预定的固定值用作预先设定的值，或者可通过如下将描述的预得分学习部分224来动态地设定值。

接下来，将描述预得分学习部分224的处理。如图3所示，由意图确定部分210确定的意图信息S不仅被输出为语音理解结果221，而且被反馈回到预得分学习部分224。从上下文确定部分216发送的所有的上下文信息C_k被从预得分调整部分222发送给预得分学习部分224。

在预得分学习部分224中，基于从预得分调整部分222发送的上下文信息C_k和作为从意图确定部分210发送的语音理解结果的意图信息S，计算P(S|C_K)并将其发送到预得分存储部分223。将该值(图9至图11中所示的值)存储在预得分存储部分223中。

可将P(S|C_K)确定为将根据上下文信息C_k观测到意图信息S的条件概率P(S|C_K)的值。对于从意图确定部分210输出的意图信息，假设其中包括确定错误的情况。在本文中，当用户修改输出结果时，通过将修改的信息发送给预得分学习部分224，可更准确地确定条件概率P(S|C_K)。

[3.信息处理设备的硬件配置的示例]

最后，将参考图12描述执行上述处理的信息处理设备的硬件配置的示例。CPU(中央处理单元)701根据ROM(只读存储器)702或存储部分708中存储的程序来执行各种处理。

RAM(随机访问存储器)703适当地存储由CPU 701执行的程序和数据。CPU 701、ROM 702和RAM 703通过总线704彼此连接。

CPU 701通过总线704连接到输入及输出接口705，并且输入及输出接口705连接到配置有相机、麦克风、控制器、遥控器、键盘、鼠标等的输入部分706，以及输入及输出接口705连接到包括显示器、扬声器等的输出部分707。例如，CPU 701执行有关从输入部分706输入的信息的各种处理。

连接到输入及输出接口705的存储部分708例如由硬盘形成，并存储由CPU 701执行的程序和各种类型的数据。

而且，在存储部分708中记录语音识别和理解处理所需的各种类型的语音信息和词典数据、用户识别处理所需的用户图像数据等。通信部分709经由诸如因特网或局域网的网络与外部装置通信。

连接到输入及输出接口705的驱动器710驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除介质711，从而获得介质中存储的程序或数据。根据需要将获得的程序或数据发送并存储在存储部分708中。

到目前为止，已经参考具体示例详细描述了本公开。本领域技术人员应当理解，根据设计要求和其它因素可进行各种变型、组合、子组合和替代，只要其在所附权利要求书或其等同物的范围以内即可。换言之，已经基于示例性实施例进行了描述，不限制性地解释本公开。为了确定本公开的范围，必须考虑权利要求书部分。

另外，可通过硬件、软件或包括两者组合的配置来执行本说明书中描述的一系列处理。当通过软件来执行处理时，或者可以以将包括其中记录处理序列的程序安装到组合有专用硬件的计算机中的存储器中的方法来执行该处理，或者可以以将程序安装在可执行各种类型的处理的通用目的的计算机中的方法来执行该处理。例如，可在记录介质中预先记录程序。除了将程序从记录介质安装到计算机的方法以外，还可能的是，使用这样的方法：在这样的方法中，经由诸如LAN(局域网)或因特网的网络接收程序，然后将其安装在诸如内置硬盘的记录介质中。

而且，不仅可以以根据描述的时间序列的方式来执行本说明书中描述的各种类型的处理，而且可以根据使处理器根据需要执行的设备的处理能力、以并行的方式或独自地执行本说明书中描述的各种类型的处理。另外，本说明书中的系统是多个装置的逻辑集合配置，并且每个配置装置不限于在同一情况中。

本公开包含与2010年8月26日在日本专利局提交的日本优先权专利申请JP2010-189123中公开的主题有关的主题，其全部内容通过参考合并于此。

本领域技术人员应当理解，根据设计要求和其它因素可进行各种变型、组合、子组合和替代，只要其在所附权利要求书或其等同物的范围以内即可。

Claims

1.一种信息处理设备，包括：

预得分调整部分，其针对对应于预先登记的多种类型的意图信息中的每个意图信息的、作为单元的意图模型，基于作为观测信息而获得的上下文信息来计算预得分；

多匹配部分，其确定对于基于用户话语的输入语音最合适的字群组，以及针对所述作为单元的意图模型计算要给予所述字群组的声学得分和语言得分；以及

意图确定部分，其通过比较根据所述作为单元的意图模型的所述预得分、所述声学得分和所述语言得分而计算的总得分，将与取得最高总得分的意图模型对应的意图信息确定为与所述用户话语对应的意图。

2.根据权利要求1所述的设备，还包括：

预得分存储部分，在所述预得分存储部分中登记有关每个上下文信息的对应于上下文的预得分，其中，所述每个上下文信息对应于多种不同类型的观测信息，

其中，所述观测信息包括多种类型的观测信息，以及

所述预得分调整部分基于所述上下文信息来选择登记在所述预得分存储部分中的所述对应于上下文的预得分，以及通过应用所选择的对应于上下文的预得分来计算所述作为单元的意图模型的预得分。

3.根据权利要求2所述的设备，

其中，作为所述观测信息的所述上下文信息包括信息(a)至(c)中的至少任一个，所述信息(a)至(c)包括：

(a)从输入及输出部分输入的由用户选择的处理类别信息；

(b)从图像处理部分输入的语音输入个人识别信息；以及

(c)从麦克风确定部分输入的语音输入麦克风识别信息，以及

所述预得分调整部分基于所述上下文信息选择所述预得分存储部分中登记的所述对应于上下文的预得分，以及通过应用所选择的对应于上下文的预得分来计算所述作为单元的意图模型的预得分。

4.根据权利要求3所述的设备，

其中，用户选择的处理类别信息为所述用户从执行所述处理的所述信息处理设备的显示部分上显示的处理类别信息中选择的信息，以及

所述预得分调整部分选择与所述用户选择的处理类别对应的所述对应于上下文的预得分，以及通过应用所选择的对应于上下文的预得分来计算所述作为单元的意图模型的预得分。

5.根据权利要求3所述的设备，

其中，所述语音输入个人识别信息为所述图像处理部分基于由所述信息处理设备的相机捕获的图像而执行的脸部识别处理的识别结果，以及

所述预得分调整部分选择与所识别的语音输入个人对应的所述对应于上下文的预得分，以及通过应用所选择的对应于上下文的预得分来计算所述作为单元的意图模型的预得分。

6.根据权利要求3所述的设备，

其中，所述语音输入麦克风识别信息为由所述信息处理设备的所述麦克风确定部分获得的、被确定为已经从中输入了所述语音的麦克风的麦克风信息，以及

所述预得分调整部选择与已经从中输入了所述语音的麦克风对应的所述对应于上下文的预得分，以及通过应用所选择的对应于上下文的预得分来计算所述作为单元的意图模型的预得分。

7.根据权利要求1所述的设备，

其中，所述意图确定部分通过应用对应于所述声学得分、语言得分和预得分中的每个的预设权重，来计算所述作为单元的意图模型的总得分。

8.根据权利要求1所述的设备，还包括：

预得分学习部分，其接收意图确定部分的确定结果的输入，以及通过基于输入确定结果而执行的学习处理，来更新所述预得分存储部分中登记的所述对应于上下文的预得分。

9.一种在信息处理设备中执行的信息处理方法，该方法包括：

使预得分调整部分针对对应于预先登记的多种意图信息中的每个意图信息的、作为单元的意图模型，基于作为观测信息而获得的上下文信息来计算预得分；

使多匹配部分确定对于基于用户话语的输入语音最合适的字群组，以及针对所述作为单元的意图模型计算要给予所述字群组的声学得分和语言得分；以及

使意图确定部分通过比较根据所述作为单元的意图模型的所述预得分、所述声学得分和所述语言得分而计算的总得分，将与取得最高总得分的意图模型对应的意图信息确定为与所述用户话语对应的意图。

10.一种使信息处理设备执行信息处理的程序，包括：

使预得分调整部分针对对应于预先登记的多种类型的意图信息中的每个意图信息的、作为单元的意图模型，基于作为观测信息而获得的上下文信息来计算预得分；

使多匹配部分确定对于基于用户话语的输入语音最合适的字群组，以及针对所述作为单元的意图模型计算要给予所述字群组的语言得分和声学得分；以及