CN109643545A

CN109643545A - 信息处理设备和信息处理方法

Info

Publication number: CN109643545A
Application number: CN201780051220.9A
Authority: CN
Inventors: 滝祐平; 河野真; 河野真一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-08-31
Filing date: 2017-08-17
Publication date: 2019-04-16
Also published as: WO2018043137A1; US20190228764A1; JPWO2018043137A1; EP3509059A4; EP3509059A1

Abstract

本技术涉及允许快速获取期望的语音识别结果的信息处理设备和信息处理方法。一种信息处理设备包括语音识别部分，该语音识别部分基于表示识别目标短语的输入语音和短语信息来执行对识别目标短语(要识别的短语)的语音识别，短语信息包括下述项中的至少一者：包括识别目标短语的句子中的先前短语(识别目标短语之前的短语)或后续短语(识别目标短语之后的短语)中的至少一个。例如，本技术可应用于使用语音识别的设备。

Description

信息处理设备和信息处理方法

技术领域

本技术涉及信息处理设备和信息处理方法，并且更具体地，涉及允许快速获取期望的语音识别结果的信息处理设备和信息处理方法。

背景技术

已经提出了汽车导航系统，在通过语音输入地名的情况下，迄今为止，当在获取不期望的结果之后再次输入语音时，从候选中排除已被确定为在先前语音识别中被错误识别的地名(例如，参考PTL 1)。

引用列表

专利文献

[PTL 1]

日本专利公开No.Hei 10-39892

发明内容

技术问题

然而，在PTL 1中描述的技术中，被错误识别的地名作为整体从候选中被排除，并且同时，用户需要再次通过语音将地名作为整体输入。因此，例如，在PTL 1中描述的技术应用于普通句子语音识别的情况下，被错误识别的句子作为整体从候选中被排除。因此，如果句子较长并且有许多被错误识别的短语，则用户需要多次输入同一句子，直到所有短语被正确识别。

因此，本技术的目的是允许快速获取期望的语音识别结果。

问题的解决方案

本技术的第一方面的一种信息处理设备包括：语音识别部分，适于基于表示识别目标短语的输入语音和短语信息来执行对作为要识别的短语的识别目标短语的语音识别，短语信息包括下述项中的至少一个：包括识别目标短语的句子中的作为在识别目标短语之前的短语的先前短语、或作为在识别目标短语之后的短语的后续短语。

识别目标短语可以是要插入到作为先前语音识别的识别结果呈现的句子中进行校正的部分中的短语，并且先前短语可以是在进行校正的部分之前的短语，并且后续短语可以是在进行校正的部分之后的短语。

短语信息还可以包括排除短语，排除短语是要从语音识别结果中排除的短语。

排除短语可以是被确定为在先前语音识别中被错误地识别为识别目标短语的短语。

通信部分还可以被提供为从其他信息处理设备接收包括短语信息的相关信息和输入语音，并将语音识别结果发送到其他信息处理设备。

相关信息还可以包括关于在其他信息处理设备中使用语音识别的上下文的上下文信息、关于使用语音识别的用户的用户信息、或者关于输入语音的系统的系统信息中的至少一个，并且语音识别部分可以基于上下文信息、用户信息或者系统信息中的至少一个来执行语音识别。

上下文信息可以包括关于语音识别的预期用途、其他信息处理设备的位置或当前时间的信息中的至少一个。

用户信息可以包括用于识别用户的信息、表示用户的行为的信息、或者表示用户的情绪的信息中的至少一个。

系统信息可以包括其他信息处理设备的类型、或者其他信息处理设备的语音输入系统的配置中的至少一个。

可以使语音识别部分基于上下文信息、用户信息或者系统信息中的至少一个来选择要使用的声学模型或语言模型中的至少一个。

学习部分可以被提供为基于用户的语音识别的执行历史来学习用户的识别结果的趋势，其中可以使语音识别部分基于学习部分的学习结果来执行语音识别。

可以使语音识别部分基于作为识别目标短语的语音识别结果而获取的每个候选与先前短语或后续的短语中的至少一个之间的相关性来选择最终识别结果。

本技术的第一方面的一种信息处理方法包括：语音识别步骤，基于表示识别目标短语的输入语音和短语信息来执行对作为要识别的短语的识别目标短语的语音识别，短语信息包括下述项中的至少一个：包括识别目标短语的句子中的作为在识别目标短语之前的短语的先前短语、或作为在识别目标短语之后的短语的后续短语。

本技术的第二方面的一种信息处理设备包括通信部分和呈现控制部分。通信部分向其他信息处理设备发送表示作为要识别的短语的识别目标短语的输入语音和短语信息，并从其他信息处理设备接收识别目标短语的语音识别结果，短语信息包括下述项中的至少一个：包括识别目标短语的句子中的作为在识别目标短语之前的短语的先前短语、或作为在识别目标短语之后的短语的后续短语。呈现控制部分控制识别结果的呈现。

本技术的第二方面的一种信息处理方法包括传输控制步骤、接收控制步骤和呈现控制步骤。传输控制步骤控制向其他信息处理设备传输表示作为要识别的短语的识别目标短语的输入语音和短语信息，短语信息包括下述项中的至少一个：包括识别目标短语的句子中的作为在识别目标短语之前的短语的先前短语、或作为在识别目标短语之后的短语的后续短语。接收控制步骤控制从其他信息处理设备接收识别目标短语的语音识别结。呈现控制步骤，控制识别结果的呈现。

在本技术的第一方面中，基于表示识别目标短语的输入语音和短语信息来执行对作为要识别的短语的识别目标短语的语音识别，短语信息包括下述项中的至少一个：包括识别目标短语的句子中的作为在识别目标短语之前的短语的先前短语、或作为在识别目标短语之后的短语的后续短语。

在本技术的第二方面中，输入语音和短语信息被发送到其他信息处理设备。输入语音表示识别目标短语，即要识别的短语。短语信息包括下述项中的至少一个：包括识别目标短语的句子中的作为在识别目标短语之前的短语的先前短语、或作为在识别目标短语之后的短语的后续短语。从其他信息处理设备接收识别目标短语的语音识别结果。控制识别结果的呈现。

有益效果

根据本技术的第一或第二方面，可以识别语音。特别地，根据第一或第二方面，可以快速获取期望的语音识别结果。

应当注意，这里描述的效果不一定受限制，并且可以是本公开中描述的任何一种效果。

附图说明

图1是示出了应用本技术的信息处理系统的实施例的框图。

图2是用于描述客户端处理的流程图。

图3是示出了语音识别开始API的示例的图。

图4是示出了相关信息提供API的示例的图。

图5是示出了其他相关API的示例的图。

图6是示出了识别结果返回API的示例的图。

图7是示出了识别结果呈现方法的示例的图。

图8是示出了语音识别开始API的参数的示例的图。

图9是示出了识别结果呈现方法的示例的图。

图10是示出了手动输入模式下的输入屏幕的示例的图。

图11是示出了选择模式下的输入屏幕的示例的图。

图12是示出了单字符输入模式下的输入屏幕的示例的图。

图13是示出了学习数据提供API的示例的图。

图14是用于描述服务器处理的流程图。

图15是用于描述语音识别处理的具体示例的图。

图16是用于描述语音识别处理的具体示例的图。

图17是示出了转换滤波器的数据结构的示例的图。

图18是示出了语音识别历史的数据结构的示例的图。

图19是示出了计算机的配置示例的框图。

具体实施方式

下面将使用附图给出用于实施本发明的模式(下文中表示为“实施例”)的详细描述。应该注意的是，将按以下顺序给出描述：

1.实施例

2.修改示例

3.应用实例

<<1.实施例>>

<1-1.信息处理系统的配置示例>

首先将参考图1给出关于应用本技术的信息处理系统10的配置示例的描述。

信息处理系统10是对用户输入的输入语音进行语音识别并呈现识别结果的系统。信息处理系统10包括客户端11、服务器12和网络13。客户端11和服务器12经由网络13彼此连接。

应当注意，尽管在图1中仅描绘了一个客户端11，但是多个客户端11实际上连接到网络13，从而允许多个用户经由客户端11使用信息处理系统10。

客户端11将用户输入的输入语音发送到服务器12，并从服务器12接收输入语音的语音识别结果以供呈现。

例如，客户端11包括智能手机、平板电脑、可穿戴设备、台式个人计算机、游戏控制台、视频再现设备、音乐再现设备或其他设备。此外，各种方案可用于可穿戴设备，例如眼镜类型、手表类型、手环类型、项链类型、颈带类型、耳机类型、头戴式耳机类型和头盔类型。

客户端11包括语音输入部分21、操作部分22、显示部分23、呈现部分24、传感器部分25、通信部分26、控制部分27和存储部分28。控制部分27包括语音识别控制部分41、呈现控制部分42和相关信息获取部分43。语音输入部分21、操作部分22、显示部分23、呈现部分24、传感器部分25、通信部分26、控制部分27和存储部分28经由总线29彼此连接。

语音输入部分21包括例如麦克风。麦克风的数量可以随意指定。语音输入部分21收集用户产生的语音和其他声音，将表示收集的语音的语音数据提供给控制部分27，并使语音数据存储在存储部分28中。

操作部分22包括各种操作构件并用于客户端11的操作。例如，操作部分22包括控制器、远程控制器、触摸板、硬件按钮等。

显示部分23包括例如显示器。显示部分23在呈现控制部分42的控制下显示图像，例如描述语音识别结果的屏幕、GUI(图形用户界面)和用于各种应用程序和服务的屏幕。

呈现部分24包括例如扬声器、振荡设备和其他协调设备。呈现部分24在呈现控制部分42的控制下呈现语音识别结果和其他信息。

传感器部分25包括各种传感器，例如相机、距离传感器、GPS(全球定位系统)接收器、加速度传感器、陀螺仪传感器和生物信息传感器。传感器部分25向控制部分27提供表示各个传感器的检测结果的传感器数据，并使传感器数据存储在存储部分28中。

通信部分26包括各种通信设备。通信部分26的通信方案没有特别限制，并且可以使用无线通信和有线通信这两者。此外，通信部分26可以支持多种通信方案。通信部分26经由网络13与服务器12通信以交换各种数据。通信部分26向控制部分27提供从服务器12接收的数据，并使数据存储在存储部分28中。

控制部分27包括例如各种处理器等。

语音识别控制部分41获取由服务器12的语音识别部分71操纵的处理所需的数据，例如语音数据和相关信息，并且经由通信部分26和网络13将数据发送到服务器12。语音识别控制部分41经由通信部分26和网络13从服务器12接收语音识别结果和其他数据。

呈现控制部分42控制显示部分23和呈现部分24对各种信息的呈现。

信息获取部分43基于从语音输入部分21提供的语音数据、在操作部分22上执行的用户操作、从传感器部分25提供的传感器数据、由控制部分27执行的程序等来获取相关信息。这里，术语“相关信息”指的是与语音识别相关并用于语音识别的信息。

存储部分28存储客户端11执行其处理所需的程序、数据和其他信息。

服务器12执行对从客户端11接收的输入语音的语音识别，并经由网络13将识别结果发送到客户端11。服务器12包括通信部分61、控制部分62和存储部分63。控制部分62包括语音识别部分71和学习部分72。通信部分61、控制部分62和存储部分63经由总线64彼此连接。

通信部分61包括各种通信设备。通信部分61的通信方案没有特别限制，并且可以使用无线通信和有线通信这两者。此外，通信部分61可以支持多种通信方案。通信部分61经由网络13与客户端11通信以交换各种数据。通信部分61向控制部分62提供从客户端11接收的数据，并使数据存储在存储部分63中。

控制部分62包括例如各种处理器等。

语音识别部分71执行对从客户端11接收的输入语音的语音识别。

学习部分72生成每个用户的语音识别的执行历史(在下文中称为语音识别历史)，并使数据存储在存储部分63中。此外，学习部分72例如学习基于每个用户的语音识别历史来优化语音识别部分71进行的语音识别处理。

存储部分63存储服务器12执行其处理所需的程序、数据和其他信息。

应当注意，在下文中，在客户端11(通信部分26)和服务器12(通信部分61)之间经由网络13进行通信的情况下，将省略措辞“经由网络13”。在下文中，在客户端11的每个部分经由总线29进行数据交换的情况下，将省略措辞“经由总线29”。在下文中，在服务器12的每个部分经由总线64进行数据交换的情况下，将省略措辞“经由总线64”。

<1-2.信息处理系统10执行的处理>

接下来将参考图2至图18给出关于信息处理系统10执行的处理的描述。

(客户端11的处理)

首先将参考图2所示的流程图给出关于客户端11的处理的描述。应当注意，例如，当用户经由操作部分22输入执行语音识别的指令时，启动这些处理。

在步骤S1中，相关信息获取部分43基于从语音输入部分21提供的语音数据、在操作部分22上执行的用户操作、从传感器部分25提供的传感器数据、由控制部分27执行的程序等来启动相关信息的获取。以下将引用相关信息的示例。

例如，相关信息包括关于语音识别结果等的语音识别信息、关于在客户端11中使用语音识别的上下文的上下文信息、关于使用语音识别的用户的用户信息、或者关于输入语音的系统的系统信息中的一个或多个。

例如，语音识别信息包括一个或多个短语信息或者语音识别的尝试次数，短语信息包括排除短语、先前的短语、或后续的短语中的一个或多个。

排除短语是要从语音识别结果中排除的短语，并且例如，在先前在相同会话中执行的语音识别中被确定为被错误识别的短语被设置。这里，术语“相同会话”指的是从句子的语音识别的开始到句子到期的语音识别的结束(例如，到识别结果的完成或暂停)的会话。

先前的短语是在校正作为语音识别结果而获取的句子(在下文中称为识别的句子)的情况下插入在进行校正的部分中的短语，并且是在进行语音识别的短语(在下文中称为识别目标短语)之前的短语(在进行校正的部分之前的短语)，并且后续的短语是在识别目标短语之后的短语(在进行校正的部分之后的短语)。应当注意，识别目标短语、先前的短语、和后续的短语中的每一个可以包括多个词。此外，识别的句子不一定是完整的句子，并且可以是例如不包括在完整句子中的一个或多个词的排列。或者，识别的句子可以包括两个或更多个句子。

语音识别的尝试次数是指在相同语音识别会话中已尝试语音识别的次数。

应当注意，在稍后将描述的步骤S4中获取语音识别结果之后启动语音识别信息的获取。

上下文信息包括例如关于语音识别的预期用途的信息、关于客户端11的当前位置的位置信息、或当前时间中的一个或多个。

关于语音识别的预期用途的信息包括例如使用语音识别的应用程序和服务的类型(例如，网络搜索、邮件、聊天等)。

关于客户端11的当前位置的位置信息可以例如通过特定的经度和纬度、地名等来表示，或者通过诸如车站、地下购物区、森林、高层区域之类的位置的类型来表示。

用户信息包括例如识别用户的用户ID、表示用户的当前行为(例如，行走、保持静止、在乘车途中、就座等)的行为信息、或表示用户的当前情绪(例如，生气、悲伤、快乐等)的情绪信息中的至少一个。

系统信息包括客户端11的类型(例如，智能手机、平板电脑、移动电话、个人计算机、可穿戴设备等)中的一个或多个、或关于客户端11的语音输入系统的配置的信息。

关于客户端11的语音输入系统的配置的信息包括例如麦克风类型、麦克风的数量、麦克风和用户的嘴之间的距离、用于语音识别的软件等。

此外，相关信息包括定义相关信息中包括的每条信息的有效期限的会话信息。

在步骤S2中，语音识别控制部分41经由通信部分26请求服务器12进行语音识别。此外，语音识别控制部分41根据需要经由通信部分26提供相关信息。例如，通过使用API(应用编程接口)请求执行语音识别，并且从客户端11向服务器12(其语音识别部分71)提供各种相关信息。这里将参考图3至图5给出关于这种API的示例的描述。

图3是示出了StartRecognition()的示例的图，StartRecognition()是用于指示服务器12开始语音识别的API。

StartRecognition()接受用于向服务器12提供相关信息的参数，例如ignoreList(字符串数组类型)、preSentence(字符串类型)和postSentence(字符串类型)。例如，针对ignoreList设置包括一个或多个排除短语的排除列表。针对preSentence设置在识别目标短语之前的先前短语。针对postSentence设置在识别目标短语之后的后续短语。

应当注意，在提供关于除上述类型之外的类型的相关信息的情况下，进一步添加了参数。或者，可以通过使用结构的参数一起提供多条相关信息。

图4示出了用于向服务器12提供相关信息的API的示例。

RegisterIgnoreList()是API，其将ignoreList(字符串数组类型)作为参数来提供排除列表。

RegisterPreSentence()是API，其将preSentence(字符串类型)作为参数来提供先前短语。

RegisterPostSentence()是API，其将postSentence(字符串类型)作为参数来提供后续短语。

RegisterRecognitionInfo()是API，其将recogInfo(结构类型)作为参数来一起提供多条相关信息。

通过使用这些API，可以在与执行StartRecognition()的时间不同的任何时间向服务器12提供相关信息。

图5是示出了关于相关信息的其他API的示例的图。

ResetReognitionInfo()是用于指示服务器12丢弃先前提供的相关信息的API。

RegisterCorrectionInfo()是用于向服务器12提供正确句子的API。RegisterCorrectionInfo()将orgSentence和fixedSentence(字符串类型)作为参数。针对orgSentence设置第一语音识别所识别的校正前的识别的句子。针对fixedSentence设置通过校正识别的句子最终获取的正确句子。

PauseRegisterInfo()是用于暂时暂停使用相关信息的API。PauseRegisterInfo()将userId(整数类型)作为参数。针对userId设置将暂停使用相关信息的用户的用户ID。

ResumeRegisterInfo()是用于恢复使用相关信息的API。ResumeRegisterInfo()将userId(整数类型)作为参数。针对userId设置将恢复使用相关信息的用户的用户ID。

ExportRegisterInfo()是用于导出相关信息的API。ExportRegisterInfo()将userId(整数类型)作为参数。因此，userId指示的用户的相关信息由ExportRegisterInfo()导出。

ImportRegisterInfo()是用于导入在客户端11的存储部分28或服务器12的存储部分63中累积的相关信息的API。ImportRegisterInfo()将recogInfo(结构类型)作为参数。针对recogInfo设置要导入的相关信息。

ExportRegisterInfo()和ImportRegisterInfo()允许使用用户的过去相关信息和使用其他用户的相关信息。

服务器12接收来自客户端11的请求，以在稍后将描述的图14的步骤S51中执行语音识别。

在步骤S3中，客户端11接受语音输入。例如，呈现控制部分42通过控制显示部分23或呈现部分24来提示用户输入语音。然后，语音识别控制部分41获取表示用户输入到语音输入部分21的输入语音的语音数据，并经由通信部分26将语音数据发送到服务器12。

服务器12接收语音数据并在稍后将描述的图4的步骤S52中基于语音数据来执行语音识别，并在步骤S53中将识别结果发送到客户端11。

在步骤S4中，语音识别控制部分41经由通信部分26接收识别结果。

图6示出了OnFinalRecognitionResult()的示例，其是用于将语音识别结果从服务器12返回到客户端11的API。例如，OnFinalRecognitionResult()被服务器12的语音识别部分71调用为回调函数。

OnFinalRecognitionResult()将resultText(字符串类型)、recogInfo(结构类型)和recommendedBehaviour(整数类型)作为参数。

针对resultText设置表示语音识别结果的文本数据。应当注意，例如，可以针对设置resultText作为识别结果获取的多个短语候选和每个候选的可靠性。

针对recogInfo设置用于语音识别的相关信息。

针对recommendedBehaviour设置表示推荐的客户端11的下一动作的常量。例如，针对recommendedBehaviour设置诸如REGISTER_PRE_SENTENCE、REGISTER_POST_SENTENCE、RESISTER_IGNORE_LIST、USE_OTHER_METHOD或REGISTER_DEVICE_TYPE之类的常量。针对推荐登记在识别目标短语之前的先前短语的情况设置REGISTER_PRE_SENTENCE。针对推荐登记在识别目标短语之后的后续短语的情况设置REGISTER_POST_SENTENCE。针对推荐登记排除列表的情况设置RESISTER_IGNORE_LIST。针对推荐使用其他输入方法的情况设置USE_OTHER_METHOD。针对推荐登记客户端11的类型的情况设置REGISTER_DEVICE_TYPE。

应当注意，针对recommendedBehaviour，可以设置组合多个动作的常量，以便可以一次推荐多个动作。

例如，语音识别控制部分41经由resultFxt、recogInfo和recommendedBehaviour(OnFinalRecognitionResult()的参数)从服务器12接收识别结果。

在步骤S5中，显示部分23在呈现控制部分42的控制下呈现识别结果。

图7示出了识别结果呈现方法的示例。更具体地，图7示出了在用户输入说出“Isee a person with a red shirt(我看见穿着红色衬衫的人)”的语音的情况下获取到识别结果(识别的句子)“I sue a person with a red shirt(我起诉穿着红色衬衫的人)”时的识别结果呈现方法的示例。

在该示例中，识别的句子以这样的方式呈现，即被打断为词、冠词和词的集合、或者占有情况和词的集合的单元。此外，定义了识别的句子的可校正单元(在下文中称为校正单元)。也就是说，作为识别的句子的打断的结果，识别的句子被分成多个校正单元。用户可以通过经由操作部分22移动光标101来在识别的句子中选择期望的校正单元。

在步骤S6中，语音识别控制部分41确定识别的结果是否需要校正。例如，在用户经由操作部分22执行校正识别的句子的操作的情况下，语音识别控制部分41确定识别结果需要校正，并且处理进行到步骤S7。

例如，在上述图7所示的示例中用户经由操作部分22删除光标101的位置处的短语的情况下，确定识别结果需要校正，并且处理进行到步骤S7。此时，语音识别控制部分41识别出删除的短语是错误识别的短语，并将删除的短语设置为校正目标。

在步骤S7中，语音识别控制部分41确定是否改变输入模式。例如，在没有针对recommendedBehaviour(如上所述的OnFinalRecognitionResult()的参数)设置USE_OTHER_METHOD的情况下，语音识别控制部分41确定输入模式将不被改变，并且处理返回到步骤S2。

此后，重复从步骤S2到步骤S7的处理以校正识别结果，直到在步骤S2中确定识别结果不需要校正或者直到在步骤S7中确定输入模式将被改变为止。

这里将参考图7至图9给出关于识别结果校正处理的具体示例的描述。

例如，在上述图7的示例中，用户确定所呈现的识别的句子中的“sue(起诉)”是错误的，并且在用户进行校正的情况下，用户将光标101移动到“sue”位置并且删除“sue”。然后，用户经由操作部分22执行输入说出替换已被删除的“sue”的短语(识别目标短语)的语音的操作。

此时，例如，语音识别控制部分41针对如图8所示的StartRecognition()的参数设置相关信息，并执行StartRecognition()。

具体地，针对ignoreList设置包括已从识别结果中删除的“sue”的排除列表。这允许从服务器12中的语音识别结果中排除“sue”。

此外，针对preSentence设置在已被删除的“sue”之前的先前短语“I(我)”，并且针对postSentence设置在已被删除的“sue”之后的后续短语“a person”。然后，如稍后将描述的，由于使用先前短语和后续短语的语音识别，识别准确度提高。

应当注意，在句子开头提供识别目标短语的情况下，例如，针对preSentence设置NULL以指示不存在先前短语。在句子末尾提供识别目标短语的情况下，例如，针对preSentence设置NULL以指示不存在后续短语。

然后，用户输入说出“see(看见)”(要代替“sue”插入的正确短语)的语音。客户端11将表示输入语音的语音数据发送到服务器12，并从服务器12接收关于由输入语音表示的识别目标短语的语音识别结果。

图9示出了在将“see”获取为语音识别结果的情况下的识别结果呈现方法的示例。

例如，在图7所示的示例中显示“sue”的地方显示作为识别结果获取的“see”。此外，光标101显示在“see”的位置。此外，为了通知用户“I”(在“see”之前的先前短语)用于识别“see”，显示连接“I”和“see”的线111。类似地，为了通知用户“a person(人)”(在“see”之后的后续短语)用于识别“see”，显示连接“see”和“a person”的线112。线111和线112在呈现识别结果之后立即显示，并且将在一段时间之后消失。

应当注意，在校正识别的句子中的多个校正单元的情况下，仅需要对要校正的每个校正单元执行类似的处理，以校正识别的句子。然而，应当注意，在要校正的校正单元彼此相邻的情况下，可以一次输入相邻校正单元的语音并一次校正这些单元。

返回参考图2，另一方面，在例如针对recommendedBehaviour(OnFinalRecognitionResult()的参数)设置USE_OTHER_METHOD的情况下，语音识别控制部分41在步骤S7中确定输入模式将被改变，并且处理进行到步骤S8。

在步骤S8中，客户端11接受改变输入模式的输入。例如，语音识别控制部分41选择手动输入模式、选择模式和单字符输入模式中的一个。呈现控制部分42使与所选模式相对应的输入屏幕显示在显示部分23上。

图10示出了与手动输入模式相对应的输入屏幕的示例。键盘121和显示部分122出现在该输入屏幕上。然后，使用键盘121输入的字符串出现在显示部分122中。

例如，在客户端11周围存在很多噪声的情况下，选择手动输入模式，同时，针对作为识别结果获取的短语，在服务器12中只有少数候选是可用的。用户使用键盘121一次输入一个字符来输入期望的短语。

图11示出了与选择模式相对应的输入屏幕的示例。显示部分131、光标132和按钮133出现在该输入屏幕上。由服务器12获取的作为识别结果的短语的候选在显示部分131中并排显示。光标132用于选择出现在显示部分131中的短语。按钮133用于切换到上面参考图10描述的手动输入模式。

例如，在客户端11周围存在很多噪声的情况下选择选择模式，同时，针对由服务器12获取的作为识别结果的短语，存在许多候选。用户可以通过使用光标132从显示部分131中呈现的那些短语中选择期望的短语来输入期望的短语。

图12示出了与单字符输入模式相对应的输入屏幕的示例。显示部分141、按钮142至144、和光标145出现在该输入屏幕上。通过语音识别获取的字符在显示部分131上一次出现一个字符。按钮142用于移动到上面参考图10描述的手动输入模式。按钮143用于重做语音识别。按钮144用于完成语音识别结果。光标145用于选择按钮142至144中的一个。

例如，在客户端11周围几乎没有噪声的情况下，选择单字符输入模式。用户通过语音一次一个字符来输入期望的单词的拼写。表示输入语音的语音数据被发送到服务器12。服务器12使用专门为单字符输入设计的语音识别引擎执行语音识别，并将识别结果发送到客户端11。然后，识别结果显示在显示部分141上。

应当注意，通过普通语音识别的输入模式在下文中将称为正常输入模式，以将其与手动输入模式、选择模式和单字符输入模式区分开。

语音识别控制部分41根据用户输入校正所选输入模式中的识别的句子。此外，显示部分23在呈现控制部分42的控制下呈现校正的识别的句子。

此后，处理进行到步骤S9。

另一方面，例如，在步骤S6中用户经由操作部分22执行完成识别的句子或执行语音识别的操作的情况下，呈现控制部分42确定识别结果不需要校正，并且处理进行到步骤S9。

在步骤S9中，语音识别控制部分41用当前识别的句子完成识别结果。然后，例如，语音识别控制部分41使存储部分28存储完成的识别结果。此外，例如，呈现控制部分42使显示部分23或呈现部分24呈现完成的识别结果。此外，例如，语音识别控制部分41经由通信部分26将完成的识别结果发送到其他设备。

在步骤S10中，语音识别控制部分41经由通信部分26向服务器12发送学习数据。例如，从客户端11向服务器12(其学习部分72)提供学习数据通过使用API来进行。

图13示出了LearnRecognitionData()的示例，LearnRecognitionData()是用于向服务器12提供学习数据的API。

LearnRecognitionData()将wrongSentence和correctSentence(这两者都是字符串类型)作为参数。针对wrongSentence设置错误的句子，即由第一语音识别所识别的校正前识别的句子。针对correctSentence设置通过校正识别的句子最终获取的正确的句子。

服务器12在稍后将描述的图14的步骤S54中接收学习数据。

在步骤S11中，语音识别控制部分41确定是否将继续语音识别。例如，在用户经由操作部分22执行进行下一语音识别的操作的情况下，语音识别控制部分41确定将继续语音识别，并且处理返回到步骤S2。

此后，重复从步骤S2到步骤S11的处理，直到在步骤S11中确定语音识别将被终止。

另一方面，在步骤S11中，在用户经由操作部分22执行终止语音识别的操作的情况下，语音识别控制部分41确定将终止语音识别，并且客户端11的处理结束。

接下来将参考图14所示的流程图给出关于由服务器12响应于图2所示的客户端11的处理而执行的处理的描述。

在步骤S51中，语音识别部分71确定是否已经请求执行语音识别。在客户端11通过执行StartRecognition()请求执行语音识别，并且在上述图2的步骤S3中经由通信部分61接收到请求的情况下，语音识别部分71确定已请求执行语音识别，并且处理进行到步骤S52。

在步骤S52中，语音识别部分71执行语音识别。

例如，语音识别部分71基于从客户端11获取的相关信息来选择用于语音识别的语言模型。例如，语音识别部分71基于客户端11的当前位置、当前时间、语音识别的预期用途、用户的当前行为和用户的当前情绪中的一个或多个，来估计用户在当前情况下频繁使用的短语。然后，语音识别部分71选择具有在其中登记有大量频繁使用的短语的字典的语言模型。

此外，例如，语音识别部分71基于从客户端11获取的语音数据和相关信息来选择用于语音识别的声学模型。例如，语音识别部分71基于语音数据、客户端11的当前位置、当前时间、客户端11的类型和客户端11的语音输入系统中的一个或多个来估计用户周围的声学特性(例如，噪声水平、混响特性等)。然后，语音识别部分71选择适合于估计的声学特性的声学模型。此外，例如，语音识别部分71可以选择适合于由用户ID识别的用户的声学模型。

此外，语音识别部分71经由通信部分61接收在图2的步骤S3中从客户端11发送的语音数据。语音识别部分71对通过使用所选择的语言模型和声学模型并在必要时通过使用相关信息所接收的语音数据表示的输入语音执行语音识别。此外，语音识别部分71计算识别结果的可靠性。

这里将参考图15和图16给出关于由服务器12响应于上面参考图7至图9描述的由客户端11执行的识别结果校正处理而执行的语音识别处理的示例的描述。

如上所述，在图7至图9所示的示例中，输入说出“see”的语音以校正“I sue aperson with a red shirt”中的“sue”。此外，“sue”被登记在排除列表中，“I”被登记为先前短语，并且“a person”被登记为后续短语。

例如，语音识别部分71执行对从客户端11接收的输入语音的语音识别。因此，我们假设已经获取了图15中所示的短语的候选和每个候选的可靠性。在该示例中，已经获取了五个示例，即“she(她)”、“sea(海)”、“sue”、“seed(种子)”和“see”，并且各个候选的可靠性为0.92、0.91、0.95、0.77和0.90。

例如，在仅基于可靠性来选择最终识别结果的情况下，选择具有最高可靠性的候选“sue”。也就是说，获取与先前语音识别中错误识别的相同短语作为识别结果。

另一方面，如图16所示，语音识别部分71计算表示先前短语“I”与每个候选之间的相关性的得分(在下文中称为先前相关性得分)。短语出现在“I”旁边的可能性越高，先前相关性得分越高，并且短语出现在“I”旁边的可能性越低，先前相关性得分越低。在该示例中，候选“she”、“sea”、“sue”、“seed”和“see”的先前相关性得分分别为0.1、0.2、0.7、0.4和0.7。

此外，语音识别部分71计算表示每个候选与后续短语“a person”之间的相关性的得分(在下文中称为后续相关性得分)。短语出现在“a person”之前的可能性越高，后续相关性得分越高，并且短语出现在“a person”之前的可能性越低，后续相关性得分越低。在该示例中，候选“she”、“sea”、“sue”、“seed”和“see”的后续相关性得分分别为0.1、0.1、0.9、0.2和0.8。

语音识别部分71从候选中排除在排除列表中登记的“sue”。然后，语音识别部分71基于可靠性、先前相关性得分和后续相关性得分来从剩余候选中选择最终识别结果。因此，选择可靠性、先前相关性得分和后续相关性得分都高的“see”。例如，考虑到与先前短语和后续短语的关系，虽然比“see”具有更高的可靠性，“she”和“sea”被排除。

因此，通过排除在先前语音识别期间被确定为被错误识别的短语并且考虑进行语音识别的识别目标短语与在识别目标短语之前和之后的短语之间的关系，可以提供改进的识别准确度。

应当注意，语音识别部分71不一定需要使用所有排除短语、先前短语和后续短语，并且可以使用这些短语中的一个或两个来执行语音识别。

此外，语音识别部分71可以基于如稍后将描述的学习部分72学习的用户的识别结果的趋势来执行语音识别。例如，语音识别部分71可以使用图17所示的转换滤波器、个性化滤波器来执行语音识别。

图17是示出了转换滤波器的数据结构的示例的图。转换过滤器的每个记录包括orgSentence、fixSentence和userId。

针对orgSentence登记转换前的句子。

针对fixSentence登记转换后的句子。

针对userId登记用于识别应用了转换过滤器的用户的用户ID。

例如，在userId指示的用户的语音识别结果与针对orgSentence登记的句子匹配的情况下，语音识别部分71将句子转换为针对fixSentence登记的句子。也就是说，在userId指示的用户通过语音输入针对fixSentence登记的句子的情况下，很可能将句子错误地识别为针对orgSentence登记的句子。因此，语音识别部分71自动地校正从针对fixSentence登记的句子到针对orgSentence登记的句子的识别结果。

返回参考图14，在步骤S53中，语音识别部分71经由通信部分61将识别结果发送到客户端11。例如，语音识别部分71通过执行上面参考图6描述的OnFinalRecognitionResult()将识别结果发送到客户端11。

此时，语音识别部分71基于内部处理条件和可以针对OnFinalRecognitionResult()的recommendedBehaviour设置的动作中选择被估计在改进识别结果方面非常有效的动作，并且针对recommendedBehaviour设置该动作。

此后，处理进行到步骤S54。

另一方面，在步骤S51中确定尚未请求执行语音识别的情况下，跳过从步骤S51到步骤S53的处理，并且处理进行到步骤S54。

在步骤S54中，确定学习部分72是否已经接收到学习数据。在客户端11通过在上述图2的步骤S10中执行LearnRecognitionData()发送学习数据的情况下，并且在学习部分72经由通信部分61接收到学习数据的情况下，确定已经接收到学习数据，并且处理进行到步骤S55。

在步骤S55中，学习部分72执行学习过程。例如，学习部分72基于学习数据来登记语音识别历史。

图18示出了语音识别历史的数据结构的示例。针对每个会话生成语音识别历史的每个记录，包括orgSentence、fixSentence、trialNum、finalInputMethod、recording和userId。

针对orgSentence登记通过目标会话的第一语音识别获取的识别的句子。

针对fixSentence登记最终完成的识别的句子(正确的句子)。

针对trialNum登记语音识别的尝试次数。

针对finalInputMethod登记识别结果完成时的输入模式。例如，登记正常输入模式、手动输入模式、选择模式和单字符输入模式中的一个。该示例中的MANUAL_INPUT表示手动输入模式，并且很明显最终在手动输入模式下校正的句子已经被完成为识别结果。

针对recording登记表示在目标会话的第一语音识别期间用户输入的输入语音的语音数据或语音数据的文件名。

针对userId登记执行语音识别的用户，即用于识别输入语音的用户的用户ID。

此外，学习部分72基于每个用户的语音识别历史来改善语音识别引擎。例如，学习部分72通过调整每个用户的引擎来改善语音识别引擎的声学模型或语言模型或者使语音识别引擎个性化。

此外，学习部分72基于用户的语音识别历史来学习每个用户的识别结果的趋势，并且生成上面参考图17描述的转换过滤器。

此后，处理返回到步骤S51，然后重复从步骤S51开始的处理。

另一方面，在步骤S54中确定尚未接收到学习数据的情况下，处理返回到步骤S51，然后执行从步骤S51开始的处理。

如上所述，通过不仅使用输入语音而且使用相关信息和每个用户的学习结果来提高语音识别准确度。此外，在校正识别结果的情况下，用户仅需要输入需要校正的短语的语音而不重新输入整个句子或改变语音的方式，从而有助于减轻用户的负担。这允许用户快速获取期望的语音识别结果。

<<2.修改示例>>

下面将给出关于上述本技术的修改示例的描述。

<2-1.与系统的配置示例相关的修改示例>

图1所示的信息处理系统10的配置示例仅是其示例，并且可以根据需要进行改变。

例如，可以在服务器12中提供客户端11的一些功能，并且可以在客户端11中提供服务器12的一些功能。

例如，学习过程可以由客户端11执行。此外，例如，客户端11可以将传感器数据和其他信息发送到服务器12，使得服务器12生成一些或全部相关信息。

此外，例如，代替服务器12推荐下一动作，客户端11可以自己选择下一动作。

此外，例如，可以组合客户端11和服务器12，使得上述处理由单个设备操纵。

<2-2.与识别结果呈现方法相关的修改示例>

上面参考图7描述的识别结果呈现方法仅是其示例，并且可以随意改变。

例如，用于打断识别结果的单元可以改变为词、子句/短语等的单元。

此外，例如，可以在没有任何打断的情况下呈现识别结果。

<2-3.与相关信息相关的修改示例>

上述相关信息仅是其示例，并且可以减少要使用的相关信息的类型或添加其他相关信息。

此外，服务器12可以控制何时使用相关信息或者基于语音识别处理的内部条件来选择要使用哪些相关信息。

<<3.应用示例>>

上述一系列处理可以由硬件或软件执行。在通过软件执行一系列处理的情况下，将包括在软件中的程序安装到计算机。这里，计算机包括结合在专用硬件中的计算机和诸如通用计算机之类的能够由于安装各种程序而执行各种功能的计算机。

图19是示出了用于通过使用程序执行上述一系列处理的计算机的硬件配置的示例的框图。

在计算机中，CPU(中央处理单元)301、ROM(只读存储器)302和RAM(随机存取存储器)303通过总线304彼此连接。

输入/输出接口305还连接到总线304。输入部分306、输出部分307、存储部分308、通信部分309和驱动器310连接到输入/输出接口305。

输入部分306包括键盘、鼠标、麦克风等。输出部分307包括显示器、扬声器等。存储部分308包括硬盘、非易失性存储器等。通信部分309包括网络接口等。驱动器310驱动可移动存储介质311，例如磁盘、光盘、磁光盘或半导体存储器。

在如上所述配置的计算机中，例如，作为CPU 301将存储在存储部分308中的程序经由输入/输出接口305以及总线304加载到RAM 303中用于执行的结果，执行上述一系列处理。

由计算机(CPU 301)执行的程序可以按例如作为封装介质等存储在可移动介质311中的方式提供。或者，可以经由诸如局域网、因特网和数字卫星广播之类的有线或无线传输介质来提供程序。

通过将可移动介质311插入驱动器310，可以经由输入/输出接口305将程序安装到存储部分308。或者，程序可以由通信部分309经由有线或无线传输介质接收并安装到存储部分308。除了上述之外，程序可以预先安装到ROM302或存储部分308。

应当注意，由计算机执行的程序可以根据本说明书中描述的顺序按时间顺序执行处理，或者可以在调用程序时的必要时刻并行或单独地执行它们。

此外，上述处理可以由多个计算机以协调的方式执行。然后，计算机系统包括一个或多个用于执行上述处理的计算机。

此外，在本说明书中，系统是指多个组件(例如，设备、模块(部件)等)的集合，并且所有组件是否都容纳在同一壳体中并不重要。因此，容纳在不同壳体中并经由网络连接的多个设备和容纳在单个壳体中的多个模块这两者都是系统。

应当注意，本技术的实施例不限于上述实施例，并且可以在不脱离本技术的主旨的情况下以各种方式进行修改。

例如，本技术可以具有云计算配置，其中功能由多个设备经由网络以共享和协作的方式处理。

此外，上述流程图中描述的每个步骤不仅可以由单个设备执行，而且可以由多个设备以共享方式执行。

此外，在一个步骤包括多个处理的情况下，该步骤中包括的多个处理不仅可以由单个设备执行，而且可以由多个设备以共享方式执行。

此外，本说明书中描述的效果仅是说明性的而不是限制性的，并且可以存在其他效果。

此外，例如，本技术可以具有以下配置。

(1)一种信息处理设备，包括：

语音识别部分，适于基于表示识别目标短语、即要识别的短语的输入语音和短语信息来执行所述识别目标短语的语音识别，所述短语信息包括包含有所述识别目标短语的句子中的先前短语或后续短语中的至少一项，所述先前短语是在所述识别目标短语之前的短语，所述后续短语是在所述识别目标短语之后的短语。

(2)根据(1)所述的信息处理设备，其中，

所述识别目标短语包括要插入到作为先前语音识别的识别结果呈现的句子中进行校正的部分中的短语，

所述先前短语包括在所述进行校正的部分之前的短语，并且

所述后续短语包括在所述进行校正的部分之后的短语。

(3)根据(1)或(2)所述的信息处理设备，其中，

所述短语信息还包括排除短语，所述排除短语是要从语音识别结果中排除的短语。

(4)根据(3)所述的信息处理设备，其中，

所述排除短语包括被确定为在先前语音识别中被错误地识别为所述识别目标短语的短语。

(5)根据(1)至(4)中任意一项所述的信息处理设备，还包括：

通信部分，适于从其他信息处理设备接收包括所述短语信息的相关信息和所述输入语音，并将语音识别结果发送到所述其他信息处理设备。

(6)根据(5)所述的信息处理设备，其中，

所述相关信息还包括关于在所述其他信息处理设备中使用语音识别的上下文的上下文信息、关于使用语音识别的用户的用户信息、或者关于输入语音的系统的系统信息中的至少一种信息，并且

所述语音识别部分还基于所述上下文信息、所述用户信息或者所述系统信息中的至少一种信息来执行语音识别。

(7)根据(6)所述的信息处理设备，其中，

所述上下文信息包括关于语音识别的预期用途、所述其他信息处理设备的位置或当前时间的信息中的至少一种信息。

(8)根据(6)或(7)所述的信息处理设备，其中，

所述用户信息包括用于识别所述用户的信息、表示所述用户的行为的信息、或者表示所述用户的情绪的信息中的至少一种信息。

(9)根据(6)至(8)中任意一项所述的信息处理设备，其中，

所述系统信息包括所述其他信息处理设备的类型、或者所述其他信息处理设备的语音输入系统的配置中的至少一种信息。

(10)根据(6)至(9)中任意一项所述的信息处理设备，其中，

所述语音识别部分基于所述上下文信息、所述用户信息或者所述系统信息中的至少一种信息来选择要使用的声学模型或语言模型中的至少一种。

(11)根据(6)至(10)中任意一项所述的信息处理设备，还包括：

学习部分，适于基于所述用户的语音识别的执行历史来学习所述用户的识别结果的趋势，其中

所述语音识别部分还基于所述学习部分的学习结果来执行语音识别。

(12)根据(1)至(11)中任意一项所述的信息处理设备，其中，

所述语音识别部分基于作为所述识别目标短语的语音识别结果而获取的每个候选与所述先前短语或所述后续的短语中的至少一者之间的相关性来选择最终识别结果。

(13)一种信息处理方法，包括：

语音识别步骤，基于表示识别目标短语、即要识别的短语的输入语音和短语信息来执行所述识别目标短语的语音识别，所述短语信息包括包含有所述识别目标短语的句子中的先前短语或后续短语中的至少一项，所述先前短语是在所述识别目标短语之前的短语，所述后续短语是在所述识别目标短语之后的短语。

(14)一种信息处理设备，包括：

通信部分，适于向其他信息处理设备发送表示识别目标短语、即要识别的短语的输入语音和短语信息，并从所述其他信息处理设备接收所述识别目标短语的语音识别结果，所述短语信息包括包含有所述识别目标短语的句子中的先前短语或后续短语中的至少一项，所述先前短语是在所述识别目标短语之前的短语，所述后续短语是在所述识别目标短语之后的短语；以及

呈现控制部分，适于控制所述识别结果的呈现。

(15)根据(14)所述的信息处理设备，其中，

所述先前短语包括在所述进行校正的部分之前的短语，并且

所述后续短语包括在所述进行校正的部分之后的短语。

(16)一种信息处理方法，包括：

传输控制步骤，控制向其他信息处理设备传输表示识别目标短语、即要识别的短语的输入语音和短语信息，所述短语信息包括包含有所述识别目标短语的句子中的先前短语或后续短语中的至少一项，所述先前短语是在所述识别目标短语之前的短语，所述后续短语是在所述识别目标短语之后的短语；

接收控制步骤，控制从所述其他信息处理设备接收所述识别目标短语的语音识别结果；以及

呈现控制步骤，控制所述识别结果的呈现。

参考标记列表

10信息处理系统、11客户端、12服务器、21语音输入部分、23显示部分、24呈现部分、25传感器部分、26通信部分、27控制部分、41语音识别控制部分、42呈现控制部分、43相关信息获取部分、61通信部分、62控制部分、71语音识别部分、72学习部分。

Claims

1.一种信息处理设备，包括：

2.如权利要求1所述的信息处理设备，其中，

所述先前短语包括在所述进行校正的部分之前的短语，并且

所述后续短语包括在所述进行校正的部分之后的短语。

3.如权利要求1所述的信息处理设备，其中，

4.如权利要求3所述的信息处理设备，其中，

5.如权利要求1所述的信息处理设备，还包括：

6.如权利要求5所述的信息处理设备，其中，

7.如权利要求6所述的信息处理设备，其中，

8.如权利要求6所述的信息处理设备，其中，

9.如权利要求6所述的信息处理设备，其中，

10.如权利要求6所述的信息处理设备，其中，

11.如权利要求6所述的信息处理设备，还包括：

12.如权利要求1所述的信息处理设备，其中，

13.一种信息处理方法，包括：

14.一种信息处理设备，包括：

呈现控制部分，适于控制所述识别结果的呈现。

15.如权利要求14所述的信息处理设备，其中，

所述先前短语包括在所述进行校正的部分之前的短语，并且

所述后续短语包括在所述进行校正的部分之后的短语。

16.一种信息处理方法，包括：

呈现控制步骤，控制所述识别结果的呈现。