CN110192247A

CN110192247A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN110192247A
Application number: CN201880006665.XA
Authority: CN
Inventors: 河野真一; 泷祐平
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-01-18
Filing date: 2018-01-04
Publication date: 2019-08-30
Also published as: US11308951B2; JPWO2018135303A1; EP3573051A4; JP7107229B2; EP3573051A1; WO2018135303A1; US20200020332A1

Abstract

本公开内容涉及能够提供更方便的语音识别服务的信息处理装置、信息处理方法和程序。将构成作为语音识别结果呈现给用户的文本的一部分的期望词语识别为要被编辑的部分，获得被重述以对要被编辑的部分中的词语进行编辑的语音信息，执行用于将除重述信息之外的语音信息连接至前述语音信息的处理，以及创建编辑用的用于语音识别的语音信息。另外，对所创建的编辑用的用于语音识别的语音信息进行语音识别。

Description

信息处理装置、信息处理方法和程序

技术领域

本公开内容涉及信息处理装置、信息处理方法和程序，并且特别涉及能够提供更方便的语音识别服务的信息处理装置、信息处理方法和程序。

背景技术

近年来，使用语音输入的用户接口的使用已经很普遍，并且实现用于实现更好的语音输入的语音识别处理是重要的。

例如，专利文献1公开了如下技术：该技术以依赖于基于语句中的上下文的语言模型的方式来替换包括在经语音识别的语句中的词语，从而提高作为语音识别结果而获得的语句的准确度。

引用列表

专利文献

专利文献1：JP-A-2016-110087

发明内容

技术问题

然而，由于在上述专利文献1中公开的技术中，以依赖于过去的学习结果等的方式替换词语，因此在没有执行适当的学习的情况下难以按预期替换词语。因此，这可能无助于提高作为语音识别结果而获得的语句的准确度，从而降低了语音识别服务的便利性。

鉴于这种情况做出了本公开内容，使得可以提供更方便的语音识别服务。

问题的解决方案

根据本公开内容的一个方面的信息处理装置包括：识别单元，其将构成作为语音识别结果呈现给用户的语句的期望词语识别为编辑部分；生成单元，其执行获取被重复发出以对编辑部分的词语进行编辑的语音信息、并将除重复话语之外的语音信息连接至该语音信息的处理，以生成编辑用的用于语音识别的语音信息；以及语音识别单元，其对由生成单元生成的编辑用的用于语音识别的语音信息执行语音识别。

根据本公开内容的一个方面的信息处理方法或程序包括以下步骤：将构成作为语音识别结果呈现给用户的语句的期望词语识别为编辑部分；执行获取被重复发出以对编辑部分的词语进行编辑的语音信息、并将除重复话语之外的语音信息连接至该语音信息的处理，以生成编辑用的用于语音识别的语音信息；以及对所生成的编辑用的用于语音识别的语音信息执行语音识别。

在本公开内容的一个方面中，执行以下处理：将构成作为语音识别结果呈现给用户的语句的期望词语识别为编辑部分，获取被重复发出以对编辑部分的词语进行编辑的语音信息，以及将除重复话语之外的语音信息连接至该语音信息，并且生成编辑用的用于语音识别的语音信息。然后，对所生成的编辑用的用于语音识别的语音信息执行语音识别。

发明的有益效果

根据本公开内容的一个方面，可以提供更方便的语音识别服务。

附图说明

图1是示出应用了本技术的语音识别系统的实施方式的配置示例的框图。

图2是示出客户终端的配置示例的框图。

图3是示出语音识别服务器的配置示例的框图。

图4是示出用于呈现基于活动信息估计的校正部分的用户接口的第一示例的图。

图5是示出用于呈现基于活动信息估计的校正部分的用户接口的第二示例的图。

图6是示出用于呈现基于天气信息估计的校正部分的用户接口的第一示例的图。

图7是示出用于呈现基于天气信息估计的校正部分的用户接口的第二示例的图。

图8是用于描述对位于用户的视线尽头处的对象的识别的图。

图9是示出用于呈现基于对象识别信息估计的校正部分的用户接口的示例的图。

图10是用于描述语音识别处理的示例的图。

图11是示出用于编辑语音识别结果的用户接口的示例的图。

图12是用于描述编辑对应处理的图。

图13是用于描述反映编辑的语音识别结果的显示的图。

图14是用于描述在与重复话语的语音信息连接的部分之前添加特定语音信息的示例的图。

图15是示出用于编辑语音识别结果的用户接口的示例的图。

图16是示出要被参考以生成编辑用的用于语音识别的语音信息的数据库的示例的图。

图17是用于描述使用除话语之外的声音信息的编辑用的用于语音识别的语音信息的示例的图。

图18是用于描述基于用户的重复话语执行各种编辑的示例的图。

图19是用于描述在客户终端中执行的处理的流程图。

图20是用于描述在语音识别服务器中执行的处理的流程图。

图21是用于描述编辑对应处理的流程图。

图22是示出应用了本技术的计算机的实施方式的配置示例的框图。

具体实施方式

在下文中，将参考附图来详细描述应用了本技术的具体实施方式。

<语音识别系统的配置示例>

图1是示出应用了本技术的语音识别系统的一个实施方式的配置示例的框图。

如图1所示，在语音识别系统11中，多个客户终端13-1至13-N(图1的示例中为N)和语音识别服务器14通过网络12例如互联网连接。注意，在不需要相互区分客户终端的情况下，客户终端13-1至13-N被类似地配置，并且在下文中被适当地称为客户终端13。

此外，提供关于一般新闻和天气的信息的新闻服务器15以及提供关于各种领域的知识和解释的信息的百科全书服务器16也被连接至网络12。注意，在下面描述的本实施方式中，由新闻服务器15和百科全书服务器16提供的信息也被称为事实信息。

例如，在语音识别系统11中，通过网络12将基于拥有各自客户终端13的用户的话语的语音信息发送至语音识别服务器14，并且在语音识别服务器14中执行语音识别处理。然后，语音识别服务器14通过网络12将包括作为语音识别结果获得的词语串的语句(文本信息)发送至发出该话语的用户的客户终端13。以这种方式，客户终端13能够显示针对用户的话语的语音识别结果，并将结果呈现给用户。

在具有这样的配置的语音识别系统11中，例如，由于在语音识别服务器14上实现了最新的高性能语音识别处理，所以即使每个客户终端13具有差的处理性能，也可以提供用于实现更好的语音输入的语音识别处理。

图2是示出客户终端13的配置示例的框图。

如图2所示，客户终端13包括语音信息获取单元21、图像输出单元22、操作输入单元23、语音输出单元24、活动信息获取单元25、环境信息获取单元26、视线信息获取单元27、对象识别单元28、记录单元29、通信单元30以及语音识别结果对应处理单元31。

例如，语音信息获取单元21配置有用于获取语音信息的麦克风等，基于用户已发出的语音获取语音信息，并将语音信息提供给通信单元30。然后，通过图1中的网络12将语音信息从通信单元30发送至语音识别服务器14。

例如，图像输出单元22配置有用于输出图像的显示器等，对基于用户的话语的语音信息的语音识别结果进行显示，并将结果呈现给用户。另外，例如，如参照图4至图17所描述的，图像输出单元22显示在校正或编辑语音识别结果的处理中使用的各种用户接口。

例如，操作输入单元23配置有用于在构成图像输出单元22的显示器上输入用户的触摸操作的触摸面板。然后，一旦在图像输出单元22中显示的用户接口上执行了用户的触摸操作，操作输入单元23就将指示通过触摸操作输入的操作的内容的操作信息提供给语音识别结果对应处理单元31。

例如，语音输出单元24配置有用于输出语音的扬声器等，并且通过合成语音文本转语音(TSS)来输出基于用户的话语的语音信息的语音识别结果。

例如，活动信息获取单元25配置有全球定位系统(GPS)装置、加速度传感器等，并且周期性地获取用户的活动中涉及的位置信息和加速度信息等作为活动信息，以顺序地提供给记录单元29。

例如，环境信息获取单元26配置有温度传感器、湿度传感器等，并且周期性地获取表示用户的周围环境的温度、湿度等作为环境信息，以顺序地提供给记录单元29。

例如，视线信息获取单元27配置有能够捕获用户的瞳孔的移动的成像装置，并且获取指示用户的视线的方向的视线信息，以提供给对象识别单元28。

例如，对象识别单元28配置有能够捕获用户的视线的尽头的成像装置，并且基于从视线信息获取单元27提供的视线信息来指定用户在视觉上识别的对象，并对所指定的对象执行对象识别处理。然后，对象识别单元28将指示通过识别对象而获得的结果的对象识别信息与视线信息一起提供给记录单元29。

例如，记录单元29配置有存储器或硬盘驱动器，并记录从活动信息获取单元25提供的活动信息、从环境信息获取单元26提供的环境信息以及从对象识别单元28提供的视线信息和对象识别信息。

通信单元30配置有用于通过网络12执行通信的通信模块，并且向语音识别服务器14发送各种信息以及从语音识别服务器14接收各种信息。例如，记录单元29将从语音信息获取单元21提供的语音信息发送至语音识别服务器14，接收从语音识别服务器14发送的语音识别结果，并将语音识别结果提供给语音识别结果对应处理单元31。此外，一旦如后文所述从语音识别服务器14发送了请求核对信息的信息，则通信单元30从记录在记录单元29中的各种信息中读出与请求相对应的信息作为核对信息，并将相应的信息发送至语音识别服务器14。

一旦从通信单元30提供了从语音识别服务器14发送的语音识别结果，语音识别结果对应处理单元31就将指示语音识别结果的语句(文本信息)提供给图像输出单元22以供显示。此外，在将用于确认校正部分的信息添加至语音识别结果的情况下，语音识别结果对应处理单元31根据该信息生成用于确认该校正部分的用户接口，并在图像输出单元22上与语音识别结果一起显示该用户接口。然后，一旦从操作输入单元23提供了与用户在用于确认校正部分的用户接口上的触摸操作相对应的操作信息，语音识别结果对应处理单元31就根据操作信息来反映对语音识别结果的校正。

此外，一旦从操作输入单元23提供了用于指示对在图像输出单元22上显示的语音识别结果进行编辑的操作信息，则语音识别结果对应处理单元31指定用户指示的要被编辑的对象。然后，语音识别结果对应处理单元31通过通信单元30将指示要被编辑的对象的信息发送至语音识别服务器14，并使图像输出单元22显示用于催促重复的话语以删除并替换被指定为要被编辑的对象的编辑部分的用户接口。此后，将由语音信息获取单元21获取的重复话语的语音信息发送至语音识别服务器14，对重复话语的语音信息执行语音识别，并且已经发送用于替换校正部分的替换信息。以这种方式，语音识别结果对应处理单元31向图像输出单元22提供通过利用替换信息替换校正部分来反映编辑的语音识别结果，并将语音识别结果呈现给用户。

图3是示出语音识别服务器14的配置示例的框图。

如图3示出的，语音识别服务器14包括通信单元41、输入声音处理单元42、语音识别单元43、自然语言处理单元44、语义分析处理单元45、校正部分估计处理单元46、核对信息获取单元47、编辑对应处理单元48以及语音识别结果输出处理单元49。

通信单元41配置有用于通过网络12执行通信的通信模块，并且向客户终端13发送各种信息以及从客户终端13接收各种信息。例如，通信单元41接收从客户终端13发送的语音信息并且将该语音信息提供给输入声音处理单元42，并将从语音识别结果输出处理单元49提供的语音识别结果信息发送至客户终端13。

在语音识别单元43中对语音信息执行语音识别之前，输入声音处理单元42对从通信单元41提供的语音信息执行所需的各种预处理。例如，输入声音处理单元42从声音信息中排除静音部分和仅包括噪声的部分，执行从语音信息中检测包括发出语音的话语部分的语音活性检测(VAD)处理，并将话语部分中的语音信息提供至语音识别单元43。

语音识别单元43对从输入声音处理单元42提供的语音信息执行语音识别，基于每个词语的语音信息识别用户的话语，并将包括词语串的语句作为语音识别结果提供给自然语言处理单元44。

自然语言处理单元44对表示从语音识别单元43提供的语音识别结果的语句执行自然语言处理(语素分析、语法分析等)，以识别为人类日常使用的自然语言，并且将经过自然语言处理的语音识别结果提供给语义分析处理单元45。例如，自然语言处理单元44能够通过执行自然语言处理来为构成语句的每个词语指定词性。

对于表示在自然语言处理单元44中经过自然语言处理的语音识别结果的语句，语义分析处理单元45执行分析语句的含义的语义分析处理，并将由语音识别结果指示的语句的内容(语义分析结果)提供给校正部分估计处理单元46。

基于由从语义分析处理单元45提供的语音识别结果所指示的语句的内容的准确度，校正部分估计处理单元46执行估计针对该语句需要被校正的校正部分的处理。此时，校正部分估计处理单元46通过核对信息获取单元47获取确定由语音识别结果指示的语句的内容的准确度所需的核对信息。例如，可以使用包括诸如活动数据、天气数据和统计数据的各种数据的事实信息作为核对信息。也就是说，如上所描述的，可以使用记录在客户终端13中的活动信息、环境信息、视线信息、对象识别信息等作为核对信息。此外，除了使用由新闻服务器15提供的新闻文章和天气信息等以及由百科全书服务器16提供的各种文章作为核对信息之外，例如，可以使用被确认为事实的各种事实信息——例如“前一天XX主题公园的游客人数为一百万”、“前一天XX高速公路上的交通堵塞的平均速度为15km/h”——作为核对信息。然后，如后面参照图4至图9所描述的，校正部分估计处理单元46将由语音识别结果指示的语句的内容与核对信息进行核对，并且在估计到存在需要被校正的校正部分的情况下，校正部分估计处理单元46向语音识别结果输出处理单元49通知校正部分。

核对信息获取单元47通过通信单元41发送请求校正部分估计处理单元46所需的核对信息的信息，获取响应于该请求而被发送的核对信息，并将核对信息提供给校正部分估计处理单元46。例如，在校正部分估计处理单元46所需的核对信息是用户的活动信息的情况下，核对信息获取单元47向客户终端13请求用户的活动信息。此外，在校正部分估计处理单元46所需的核对信息是天气信息的情况下，核对信息获取单元47向新闻服务器15请求天气信息。

如后面参照图10至图13所描述的，编辑对应处理单元48从保持的语音识别结果的语音信息中删除被指定为要被编辑的对象的词语的音素信息，并将重复话语的语音信息连接至已被删除的编辑部分，以生成编辑用的用于语音识别的语音信息。然后，编辑对应处理单元48通过将编辑用的用于语音识别的语音信息提供给语音识别单元43并使语音识别单元43执行语音识别，以获取由重复话语的语音信息指示的词语作为替换信息，并将替换信息提供给语音识别结果输出处理单元49。

在由校正部分估计处理单元46估计了针对由语音识别结果指示的语句需要校正的校正部分的情况下，语音识别结果输出处理单元49将用于确认所估计的校正部分的信息添加至语音识别结果，并通过通信单元41将添加了信息的语音识别结果发送至客户终端13。注意，在校正部分估计处理单元46未估计到针对由语音识别结果指示的语句需要校正的校正部分的情况下，语音识别结果输出处理单元49仅将语音识别结果发送至客户终端13。

另外，一旦从编辑对应处理单元48提供了替换信息，语音识别结果输出处理单元49就通过通信单元41将替换信息发送至客户终端13。此外，在将合成语音作为语音识别结果发送的情况下，语音识别结果输出处理单元49能够通过朗读由语音识别结果指示的语句来生成合成语音，以进行发送。

在包括如上所述配置的语音识别服务器14和客户终端13的语音识别系统11中，语音识别服务器14能够将作为语音识别结果获得的语句的内容与确定内容的准确度所需的核对信息进行核对，并估计针对该语句需要校正的校正部分。这里，将由新闻服务器15和百科全书服务器16提供的事实信息、记录在客户终端13中的用户的活动信息等用作核对信息。

然后，语音识别服务器14将用于确认校正部分的信息与语音识别结果一起发送至客户终端13。响应于此，客户终端13显示用于确认在语音识别服务器14中估计的校正部分的用户接口，并且一旦用户执行了用于指示对校正部分进行校正的操作，就可以反映对语音识别结果的校正。

此外，在语音识别系统11中，一旦用户执行了用于指示对语音识别结果的语句进行编辑的操作，客户终端13就能够指定要被编辑的对象。然后，客户终端13将重复话语的语音信息发送至语音识别服务器14。响应于此，语音识别服务器14从保持的语音信息中删除要被编辑的编辑部分，在将重复话语的语音信息连接至编辑部分之后执行语音识别，并将反映编辑的语音识别结果发送至客户终端13。

以这种方式，客户终端13能够显示反映编辑的语音识别结果，以呈现给用户。注意，在语音识别系统11中，例如，在对由语音识别服务器14估计的校正部分进行校正时，可以将校正部分指定为要被编辑的对象，并且能够根据用于对校正部分进行校正的重复话语的语音信息来对校正部分进行校正(编辑)。

以这种方式，在语音识别系统11中，由于针对语音识别结果的语句估计校正部分，或者反映了用户的编辑，因此可以容易地对作为语音识别结果获得的语句进行校正或编辑。以这种方式，语音识别系统11能够提供更方便的语音识别服务。

<用于呈现校正部分的用户接口的示例>

参照图4至图9，将描述用于呈现针对作为语音识别结果获得的语句而估计的校正部分的用户接口。

图4示出了用于呈现针对作为语音识别结果获得的语句基于活动信息估计的校正部分的用户接口的第一示例。例如，在一天的活动例如在睡觉之前结束的情况下，在生成指示那天的事件的消息时，认为用户将话语“今天我白天去了惠比寿并在池袋购物直到17点钟”给到客户终端13。

首先，在客户终端13中，语音信息获取单元21基于用户的话语获取语音信息，并且通信单元30将语音信息发送至语音识别服务器14。

然后，在语音识别服务器14中，语音识别单元43对语音信息执行语音识别，从而获取“今天我白天去了惠比寿并在池袋购物直到17点钟”的语音识别结果。然后，校正部分估计处理单元46识别出需要用户的活动信息作为用于确定由这样的语音识别结果指示的语句的内容(时间段和地点)的准确度的核对信息。响应于此，核对信息获取单元47将请求基于由语音识别结果指示的语句的时间段中的用户的活动信息作为核对信息的信息发送至客户终端13。

根据请求用户的这样的活动信息作为核对信息的信息，在客户终端13中，通信单元30从记录在记录单元29中的各种信息中读出与请求相对应的信息，并将对应信息作为核对信息发送至语音识别服务器14。

响应于此，在语音识别服务器14中，核对信息获取单元47获取从客户终端13发送的活动信息，并将活动信息提供给校正部分估计处理单元46。校正部分估计处理单元46将由语音识别结果指示的语句的内容与用户的活动信息进行核对，并估计是否存在针对该语句需要被校正的校正部分。例如，在由语音识别结果指示的时间段中的地点与该时间段中的活动信息中指示的地点不匹配的情况下，校正部分估计处理单元46能够将由语音识别结果指示的地点估计为校正部分。

在图4所示的示例中，校正部分估计处理单元46将由语音识别结果指示的时间段“白天”中的地点“惠比寿”与该时间段中的活动信息中指示的地点进行核对。类似地，校正部分估计处理单元46将由语音识别结果指示的时间段“17点钟”中的地点“池袋”与该时间段中的活动信息中指示的地点进行核对。结果，由于由语音识别结果指示的时间段“17点钟”中的地点“池袋”与该时间段中的活动信息中指示的地点“新宿”不匹配，因此校正部分估计处理单元46将由语音识别结果指示的“池袋”估计为校正部分。

基于此，校正部分估计处理单元46将用于确认校正部分的信息添加至语音识别结果，并将添加了信息的语音识别结果发送至客户终端13。因此，在客户终端13中，可以根据用于确认校正部分的信息，显示用于确认被估计为校正部分的词语的用户接口以及指示语音识别结果的语句。

在图4所示的示例中，针对被估计为校正部分的地点“池袋”，显示用于确认该位置是否正确的用户接口“是这个位置吗？”。此外，在用户接口中，显示用于由用户输入确认结果的GUI(是按钮/否按钮)。注意，可以突出被估计为校正部分的地点“池袋”的文本，通过改变颜色或大小来显示文本，或者用闪烁的方式来显示文本。此外，可以输出合成语音“是这个位置吗？”。

在对于这样的用户接口用户认为由语音识别结果指示的地点“池袋”是正确的情况下，用户对是按钮执行触摸操作。以这种方式，确定由语音识别结果指示的地点“池袋”。另一方面，在对于这样的用户接口用户认为由语音识别结果指示的地点“池袋”是不正确的情况下，用户对否按钮执行触摸操作。以这种方式，用户能够容易地校正由语音识别结果指示的地点“池袋”。例如，在这种情况下，可以执行如下处理：删除校正部分，显示用于催促用户给出重复话语的用户接口，并且基于重复话语的语音信息来替换校正部分。

接下来，图5示出了用于呈现针对作为语音识别结果获得的语句基于活动信息估计的校正部分的用户接口的第二示例。例如，在一天的活动例如在睡觉之前结束的情况下，在生成指示那天的事件的消息时，认为用户将话语“今天我白天去了惠比寿并在XYZ商店购物直到17点钟”发出到客户终端13。

与参照图4所描述的类似的，校正部分估计处理单元46请求用户的活动信息，作为用于确定由语音识别结果指示的语句的内容(时间段和地点)的准确度的核对信息，并且将由语音识别结果指示的语句的内容与用户的活动信息进行核对。结果，由于在图5示出的示例中，由语音识别结果指示的时间段“17点钟”中的地点“XYZ商店”与该时间段中的活动信息中指示的地点“新宿”不匹配，因此校正部分估计处理单元46将由语音识别结果指示的地点“XYZ商店”估计为校正部分。

基于此，对于用于针对被估计为校正部分的地点“XYZ商店”确认该地点是否正确的用户接口——在记录中该地点是“新宿”，显示“这(XYZ商店)是正确的吗？”。此外，在用户接口中，显示用于由用户输入确认结果的GUI(是按钮/否按钮)。

在对于这样的用户接口用户认为由语音识别结果指示的地点“XYZ商店”是正确的情况下，用户对是按钮执行触摸操作。以这种方式，确定由语音识别结果指示的地点“XYZ商店”。另一方面，在对于这样的用户接口用户认为由语音识别结果指示的地点“XYZ商店”是不正确的情况下，用户对否按钮执行触摸操作。在这种情况下，由语音识别结果指示的地点“XYZ商店”被校正为“新宿”。

如参照图4和图5所描述的，在客户终端13中记录的信息的粒度与指示语音识别结果的语句中的信息的粒度之间存在差异的情况下，语音识别系统11能够将该信息估计为校正部分并呈现该信息以及语音识别结果。

接下来，图6示出了用于呈现针对作为语音识别结果获得的语句基于天气信息估计的校正部分的用户接口的第一示例。例如，在一天的活动例如在睡觉之前结束的情况下，在生成指示那天的事件的消息时，认为用户向客户终端13发出话语“今天的天气晴朗”。

然后，在语音识别服务器14中，语音识别单元43对语音信息执行语音识别，并获取语音识别结果“今天的天气恶劣”(因为它们之间的发音相似，因此语音识别被不正确地获取)。以这种方式，校正部分估计处理单元46识别出需要该天的天气信息作为用于确定由这样的语音识别结果指示的语句的内容(天气)是否正确的核对信息。因此，核对信息获取单元47请求新闻服务器15发送该天的天气信息。

此后，在语音识别服务器14中，核对信息获取单元47获取从新闻服务器15发送的天气信息，并将天气信息提供给校正部分估计处理单元46。作为将由语音识别结果指示的语句的内容与天气信息进行核对的结果，校正部分估计处理单元46估计针对该语句需要被校正的部分。例如，校正部分估计处理单元46能够将与天气信息不匹配的语音识别结果的天气估计为校正部分。

在图6示出的示例中，校正部分估计处理单元46将语音识别结果中的天气“恶劣”与天气信息进行核对。然后，一旦识别出根据天气信息的该天的天气不“恶劣”，则校正部分估计处理单元46能够将语音识别结果中的天气“恶劣”估计为校正部分。

在图6示出的示例中，将语音识别结果中的被估计为校正部分的天气“恶劣”自动校正为天气“晴朗”，并且显示用于确认该校正是否正确的用户接口“这是自动校正的”。此外，在用户接口中，显示用于由用户输入确认结果的GUI(这是对的按钮/返回原始信息(恶劣)按钮)。

在对于这样的用户接口用户认为由自动校正的语音识别结果指示的天气“晴朗”是正确的情况下，用户对这是对的按钮执行触摸操作。以这种方式，确定由语音识别结果指示的天气“晴朗”。另一方面，在对于这样的用户接口用户认为由自动校正的语音识别结果指示的天气“晴朗”是不正确的情况下，用户对返回原始信息(恶劣)按钮执行触摸操作。在这种情况下，由自动校正的语音识别结果指示的天气“晴朗”被校正为“恶劣”。

接下来，图7示出了用于呈现针对作为语音识别结果获得的语句基于天气信息估计的校正部分的用户接口的第二示例。例如，当使用由语音识别系统11提供的语音识别功能与虚拟代理交谈时，认为用户向客户终端13发出话语“今天的天气晴朗”。

响应于此，类似地，如参照图6所描述的，由于天气信息不是“恶劣”的，因此校正部分估计处理单元46将语音识别结果中的天气“恶劣”估计为校正部分。

然后，在图7示出的示例中，对于用户的话语“今天的天气晴朗”的代理的响应被显示为“这里，今天的天气晴朗/今天的天气恶劣正确吗？”，从而通知要被校正的信息。对应于这样的代理的响应，用户能够通过基于自己的识别进行回复来与代理交谈。然后，通过与这样的代理重复交谈多个回合，用户能够减轻压力。

如参照图6和图7所描述的，在信息的准确度低的情况下，由于将指示语音识别结果的语句中的信息与诸如天气信息的事实信息进行核对，因此语音识别系统11能够将该信息估计为校正部分，并自动校正要呈现的语音识别结果。

接下来，参照图8和图9，将描述在使用由语音识别系统11提供的语音识别功能来执行翻译时，识别并自动校正位于用户视线的尽头处的对象的情况。

例如，如图8所示出的，用户穿戴包含图2中的视线信息获取单元27和对象识别单元28的可穿戴护目镜61。然后，视线信息获取单元27识别如图8中的虚线箭头所指示的用户的视线，并且对象识别单元28能够对由用户在视觉上识别的对象执行对象识别。

在图8示出的示例中，示出了孩子双手中具有粉色球62和蓝色球63并且用户的视线朝向蓝色球63的状态。因此，对象识别单元28将指示通过识别用户的视线而获得的结果的用户接口(瞳孔标记)叠加在蓝色球上，并且还指示对象识别结果是蓝色球(球：蓝色)。

在这种情况下，如图9示出的，认为用户向客户终端13发出话语“请拿绿色球”。

然后，在语音识别服务器14中，语音识别单元43对语音信息执行语音识别，从而获取语音识别结果“请拿绿色球”。然后，校正部分估计处理单元46识别出需要对象识别信息作为用于确定由这样的语音识别结果指示的语句的内容(对象)的准确度的核对信息。响应于此，核对信息获取单元47将在用户的话语被执行时请求对象识别信息作为核对信息的信息发送至客户终端13。

根据请求这样的对象识别信息作为核对信息的信息，在客户终端13中，通信单元30从记录在记录单元29中的各种信息中读出与该请求相对应的信息，并将相应的信息作为核对信息发送至语音识别服务器14。

响应于此，在语音识别服务器14中，核对信息获取单元47获取从客户终端13发送的对象识别信息，并将对象识别信息提供给校正部分估计处理单元46。校正部分估计处理单元46将由语音识别结果指示的语句的内容与对象识别信息进行核对，并估计是否存在针对该语句需要校正的校正部分。例如，在由语音识别结果指示的对象与在对象识别信息中指示的对象不匹配的情况下，校正部分估计处理单元46能够将由语音识别结果指示的对象估计为校正部分。

在图9示出的示例中，校正部分估计处理单元46将由语音识别结果指示的对象“绿色球”与参照图8描述的对象识别信息“蓝色球(球：蓝色)”进行核对。结果，由于由语音识别结果指示的对象“绿色球”与对象识别信息“蓝色球(球：蓝色)”不匹配，因此校正部分估计处理单元46将由语音识别结果指示的对象“绿色球”估计为校正部分。

在图9示出的示例中，语音识别结果中的被估计为校正部分的对象的颜色“绿色”被自动校正为对象的颜色“蓝色”，并且显示用于确认该校正是否正确的用户接口“这是自动校正的”。此外，在用户接口中，显示用于由用户输入确认结果的GUI(这是对的按钮/返回原始信息(绿色)按钮)。此外，显示通过使用语音识别结果执行翻译而获得的翻译结果“请传递蓝色球”。

在对于这样的用户接口用户认为由自动校正的语音识别结果指示的对象的颜色“蓝色”是正确的情况下，用户对这是对的按钮执行触摸操作。以这种方式，确定由语音识别结果指示的对象的颜色“蓝色”。另一方面，在对于这样的用户接口用户认为由自动校正的语音识别结果指示的对象的颜色“蓝色”是不正确的情况下，用户对返回原始信息(绿色)按钮执行触摸操作。在这种情况下，由自动校正的语音识别结果指示的对象的颜色“蓝色”被校正为“绿色”。

如参照图8和图9所描述的，在信息的准确度低的情况下，由于将表示语音识别结果的语句中的信息与记录在客户终端13中的对象识别信息进行核对，因此语音识别系统11能够将该信息估计为校正部分，并自动校正要呈现的语音识别结果。

<用于接受对语音识别结果的编辑的用户接口的示例>

参照图10至图13，将描述用于基于语音识别系统11的语音识别处理来编辑语音识别结果的用户接口。

例如，如图10示出的，根据用户的话语“我开你的车去机场每天(I drove yourcar to airport every day)”，在客户终端13中，语音信息获取单元21获取具有如所示出的波形的语音信息。然后，在语音识别服务器14中，语音识别单元43基于语音信息执行语音识别处理，获取包括被识别为语音识别结果的词语串的语句(文本信息)，并指定从语音信息获得的每个词语与音素信息之间的对应关系。此外，在语音识别服务器14中，自然语言处理单元44为语音识别结果的每个词语指定词性，并获取词性的信息。这里，在语音识别服务器14中，临时保持语音信息、词语与音素信息之间的对应关系以及词性的信息。

然后，在作为校正部分估计处理单元46如上所述地执行对校正部分的估计的结果没有校正部分的情况下，在客户终端13的图像输出单元22上显示语音识别结果“我开你的车去机场每天”。

顺便提及，即使用户的话语与语音识别结果匹配，用户也可能期望编辑话语的内容。

例如，如图11所示出的，在用户期望将图像输出单元22上显示的词语“机场”编辑为词语“车站(station)”的情况下，用户触摸并保持期望被编辑的词语“机场”被显示的部分。响应于此，操作输入单元23将指示操作的内容的操作信息提供给语音识别结果对应处理单元31，并且语音识别结果对应处理单元31将显示在图像输出单元22上的词语“机场”指定为要被编辑的对象。然后，语音识别结果对应处理单元31能够显示用于编辑语音识别结果的用户接口。

在图11示出的示例中，针对被指定为要被编辑的对象的词语“机场”，显示用于确认对该词语的删除的用户接口“你想要删除吗？”。此外，在用户接口中，显示用于由用户输入确认结果的GUI(OK(好)按钮/NG(不好)按钮)。

在对于这样的用户接口用户同意删除被指定为要被编辑的对象的词语“机场”的情况下，用户对OK按钮执行触摸操作。响应于此，语音识别结果对应处理单元31将指示对被指定为要被编辑的对象的词语“机场”进行删除的信息发送至语音识别服务器14。

响应于此，在语音识别服务器14中，编辑对应处理单元48从基于用户的话语“我开你的车去机场每天”的语音信息中提取与词语“机场”相关联的音素信息。因此，如图11所示出的，在语音识别服务器14中保持的语音信息仅由与除了要被编辑的词语之外的词语相对应的音素信息(在下文中，被适当地称为除要被编辑的对象之外的语音信息)构成。

注意，除了图11示出的示例之外，例如，可以根据用户的话语“删除机场并添加车站”来指定要被编辑的词语。另外，例如，在用户将他/她的视线固定在期望编辑的词语上达预定时间(例如，3秒)或更长时间的情况下，该词语可以被指定为要被编辑的对象。另外在这些情况下，可以显示与图11中的用户接口相同的用户接口，并根据用户在用户接口上的触摸操作来删除要被编辑的词语。

另一方面，如图12所示出的，在客户终端13中，语音识别结果对应处理单元31在图像输出单元22上显示用于催促重复的话语的用户接口。在该用户接口中，显示了其中要被编辑的词语被从语音识别结果中删除的部分变成空白的词语串，以及催促重复的话语以编辑空白部分中的词语的消息“等待重复话语”。

对应于这样的用户接口，语音信息获取单元21基于用户的话语“车站”来获取重复话语的语音信息，并将重复话语的语音信息发送至语音识别服务器14。在语音识别服务器14中，编辑对应处理单元48执行如下处理：将重复话语“车站”的语音信息连接至除要被编辑的对象之外的语音信息中的与词语“机场”相关联的音素信息被删除的部分，以生成编辑用的用于语音识别的语音信息。

然后，编辑对应处理单元48将编辑用的用于语音识别的语音信息提供给语音识别单元43以执行语音识别。以这种方式，语音识别单元43获取语音识别结果“我开你的车去车站每天”，并将语音识别结果提供给编辑对应处理单元48。编辑对应处理单元48从语音识别结果中删除除了要被编辑的对象之外的语音信息，获取词语“车站”作为用于替换从呈现给用户的语音识别结果中删除的词语“机场”的替换信息，并将词语“车站”发送至客户终端13。

响应于此，如图13所示出的，在客户终端13中，语音识别结果对应处理单元31显示反映了通过作为替换信息的词语“车站”进行的编辑的语音识别结果“我开你的车去车站每天”。此外，语音识别结果对应处理单元31显示呈现替换信息的其他候选的用户接口“可能地，……”。在该用户接口中，显示用于输入替换信息的其他候选(停留(Stay)和关注(Attention))的GUI以及用于指示确定通过替换信息的词语“车站”进行的编辑的GUI(按原样按钮)。

在对于这样的用户接口确定通过替换信息的词语“车站”进行的编辑的情况下，对按原样按钮执行触摸操作。响应于此，语音识别结果对应处理单元31能够确定反映了通过替换信息的词语“车站”进行的编辑的语音识别结果“我开你的车去车站每天”。注意，另外，可以基于语音(话语“按原样”)、视线等来确定通过替换信息的词语“车站”进行的编辑。

注意，生成至少一条编辑用的用于语音识别的语音信息就足够了，例如，可以用多种模式生成多条语音信息。另外，尽管仅描述了重复话语的一条语音信息，但是可以使用多条语音信息。在这种情况下，可以以多种模式生成编辑用的用于语音识别的语音信息。

例如，为了提高语音识别的准确度，编辑对应处理单元48能够在与重复话语的语音信息连接的部分之前添加特定语音信息，以生成编辑用的用于语音识别的语音信息。

例如，如图14所示出的，编辑对应处理单元48可以在与重复话语的语音信息连接的部分之前添加语音信息“新”，执行在语音信息“新”之后连接重复话语的语音信息“车站”的处理，以生成编辑用的用于语音识别的语音信息。例如，由于通过初始语言处理识别的词语“机场”中的词性是名词，因此名词被插入到删除部分的可能性很高，从而编辑对应处理单元48添加语音信息“新”。另外，编辑对应处理单元48能够添加用户在过去发出话语时保存的语音信息作为语音信息“新”、添加能通过要连接的网络12获取的语音信息或者添加通过合成语音(TSS)生成的语音信息。

然后，由于在与重复话语的语音信息连接的部分之前添加了语音信息“新”，所以在语音识别单元43执行编辑用的用于语音识别的语音信息的情况下，可以提高识别重复话语的语音信息的准确度。

<使用除话语之外的声音信息的编辑用的用于语音识别的语音信息>

将参照图15至图17来描述如下示例：除了话语之外的声音信息被用于编辑用的语音识别的语音信息，以执行对重复话语的语音信息的语音识别的处理。

如图15所示出的，例如，用户向客户终端13发出话语“我今天买的苹果非常的美味”，并且在客户终端13的图像输出单元22上显示语音识别的结果。

在对于这样的语音识别结果用户期望将图像输出单元22上显示的词语“苹果”编辑为词语“桃子”的情况下，用户触摸并保持期望被编辑的词语“苹果”被显示的部分。以这种方式，语音识别结果对应处理单元31将该词语指定为要被编辑的对象。

然后，针对被指定为要被编辑的对象的词语“苹果”，语音识别结果对应处理单元31显示用于确认对该词语的删除的用户接口“你想要删除吗？”。此外，在用户接口中，显示用于由用户输入确认结果的GUI(OK按钮/NG按钮)。

在对于这样的用户接口用户同意删除被指定为要被编辑的对象的词语“苹果”的情况下，用户对OK按钮执行触摸操作并执行重复话语“桃子”。响应于此，语音信息获取单元21基于用户的重复话语“桃子”来获取重复话语的语音信息，并将重复话语的语音信息发送至语音识别服务器14。

此时，如图16示出的，参考其中词性和类别彼此相关联的数据库以及其中类别、容易附加的信息和语句的模型相互关联的数据库，编辑对应处理单元48生成编辑用的用于语音识别的语音信息。

然后，在用户的重复话语“桃子”与类别“水果名称”相关联的情况下，编辑对应处理单元48能够根据容易附属于类别“水果名称”的信息“甜”来生成文本串，作为编辑用的用于语音识别的语音信息。例如，如图17的A示出的，编辑对应处理单元48生成文本串“我今天买的甜桃子非常的美味”。在这样的文本串中，用户发出的语音信息用于“我今天买的”和“非常的美味”，“甜”通过合成语音(TSS)输出，并且用户的重复话语的语音信息被用于“桃子”。

此外，编辑对应处理单元48能够根据与用户的重复话语“桃子”的类别“水果名称”相关联的语句的模型“美味的水果+是+(目标文本)”生成文本串，作为编辑用的用于语音识别的语音信息。例如，如图17的B示出的，编辑对应处理单元48生成文本串“美味的水果是桃子”。在这样的文本串中，“美味的水果”和“是”被作为合成语音(TSS)输出，并且用户的重复话语的语音信息被用于“桃子”。

以这种方式，编辑对应处理单元48能够使用作为除话语之外的声音信息的合成语音(TSS)来生成编辑用的用于语音识别的语音信息，并且对重复话语的语音信息执行语音识别。以这种方式，例如，相比于针对重复话语的语音信息的单个实体的语音识别的准确度，编辑对应处理单元48能够提高语音识别的准确度。

也就是说，由于重复话语的语音信息被连接至如上所述的除话语之外的声音信息、表示容易附属于类别的信息的合成信息、表示根据语句的模型生成的语句的合成语音等，因此语音识别系统11能够以高精度对重复话语执行语音识别。

此外，如上所述，可以将语音识别系统11应用于执行用于基于用户的重复话语来交换词语的编辑(将“机场”编辑为“车站”)的情况，以及基于用户的重复话语来执行各种编辑的情况。

例如，如图18示出的，语音识别系统11能够基于用户的重复话语来执行对动词的使用的编辑(将“喜欢(like)”编辑为“喜欢过(liked)”)或者对名词的变化的编辑(将“车们(cars)”编辑为“车(car)”)。另外，语音识别系统11能够基于用户的重复话语来对由于类似声音所致的错误进行编辑(将“他(He)”编辑为“她(She)”)。另外，语音识别系统11能够基于用户的重复话语来以短语为单位编辑识别失败(将“必须(had)”编辑为“想要(wouldlike)”)。

然后，由于用户的重复话语的这样的语音信息被连接至除重复话语的语音信息之外的语音信息，因此语音识别系统11能够以高精度对重复话语执行语音识别。

例如，在对由于类似声音所致的错误进行编辑(例如，将“他”编辑为“她”)时仅使用重复话语的语音信息执行语音识别的情况下，认为语音识别容易失败(例如，很容易将其错误地识别为“C”或“看(See)”)。相反，语音识别系统11将重复话语的语音信息连接至除话语之外的声音信息，并对全部语音信息执行语音识别，从而可以避免这样的语音识别的失败。

注意，作为对由于类似声音所致的错误进行编辑的另一示例，在获得了用户的话语“我想今天去医院(I want to go to a hospital to day)”的语音识别的结果“我想去医院去死(I want to go to a hospital to die)”的情况下，语音识别系统11能够基于用户的重复话语来编辑错误(将“死(die)”编辑为“天(day)”)。

顺便说一下，无论语音识别技术的准确度有多高，都存在语音识别结果不是预期结果的情况。例如，由于人类的记忆不完美，因此包括错误的话语被执行，从而即使语音识别是成功的，包括错误的语音识别结果也不是预期的结果。另外，即使呈现了包括这样的错误的语音识别结果，也认为人类不能注意到内容中的错误。

相反，语音识别系统11通过核对活动信息、天气信息等来估计包括错误的话语的校正部分，并呈现该校正部分，从而可以容易地注意到所描述的错误。以这种方式，可以提高语音识别系统11中的语音校正系统的准确度。

此外，在使用作为语音输入的结果而获得的文本串的作为校正部分的一部分作为编辑部分来执行重复话语，从而反映编辑的情况下，即使仅对重复部分执行语音识别，一旦不可以利用原始话语中包括的话语上下文，则认为识别的准确度变低并且不能按预期执行校正。

相反，由于除重复话语的语音信息之外的语音信息被连接至重复话语的语音信息，因此语音识别系统11能够通过利用原始话语中包括的话语上下文来以高精度对重复话语执行语音识别。

<客户终端中的处理>

图19是用于描述在客户终端13中执行的处理的流程图。

例如，即使在用户没有执行语音输入的情况下，客户终端13也总是在后台执行处理。在步骤S11中，活动信息获取单元25获取指示用户的活动的活动信息，并将活动信息记录在记录单元29中。

在步骤S12中，环境信息获取单元26获取指示用户的周围环境的环境信息，并将环境信息记录在记录单元29中。

在步骤S13中，视线信息获取单元27获取指示用户的视线的方向的视线信息，并且对象识别单元28获取指示对用户在视觉上识别的对象的识别结果的对象识别信息。然后，将视线信息和对象识别信息作为感测用户的结果而获得的用户感测信息记录在记录单元29中。

在步骤S14中，语音信息获取单元21确定用户是否开始了语音输入。例如，一旦对按钮执行了特定操作(未示出)，或者用户发出指示语音输入的开始的特定关键词，则语音信息获取单元21能够确定用户开始了语音输入。

在语音信息获取单元21在步骤S14中确定用户尚未开始语音输入的情况下，处理返回至步骤S11，并且重复执行上述处理。另一方面，在语音信息获取单元21在步骤S14中确定语音输入已经开始的情况下，处理进行至步骤S15。

在步骤S15中，语音信息获取单元21基于用户的话语获取语音信息。然后，语音信息获取单元21将该语音信息提供给通信单元30，并且通信单元30通过网络12将语音信息发送至语音识别服务器14。

在步骤S16中，通信单元30通过网络12将与语音识别服务器14的核对信息获取单元47的请求(例如，稍后将描述的图20中的步骤S35)相对应的核对信息发送至语音识别服务器14。如上所描述的，活动信息、环境信息和用户感测信息被记录在记录单元29中，并且通信单元30从这些信息中读出与核对信息获取单元47的请求相对应的信息，并将对应的信息作为核对信息发送至语音识别服务器14。

在步骤S17中，通信单元30获取在步骤S39中发送的语音识别结果或者获取在稍后将描述的图20的步骤S39中从语音识别服务器14发送的语音识别结果，并将该语音识别结果提供给语音识别结果对应处理单元31。这里，在语音识别服务器14中，在估计到存在针对该语音识别结果需要校正的校正部分的情况下，将用于确认校正部分的信息添加至语音识别结果。

在步骤S18中，语音识别结果对应处理单元31基于用于确认校正部分的信息是否被添加至语音识别结果来确定是否估计到存在针对语音识别结果的校正部分。

在语音识别结果对应处理单元31在步骤S18中确定估计到存在针对语音识别结果的校正部分的情况下，处理进行至步骤S19。

在步骤S19中，语音识别结果对应处理单元31使图像输出单元22显示指示语音识别结果的语句，并生成用于确认校正部分的用户接口以显示在图像输出单元22上。在该用户接口中，如上面参考图4至图9所描述的，显示用于接受用户对校正的确认的GUI(按钮)。

在步骤S20中，操作输入单元23向语音识别结果对应处理单元31提供操作信息，该操作信息指示通过用户对用于接受用户对校正的确认的GUI的触摸操作而输入的操作的内容。然后，根据该操作信息，语音识别结果对应处理单元31使图像输出单元22显示反映了校正部分的确认结果的语音识别结果。

另一方面，在语音识别结果对应处理单元31在步骤S18中确定没有估计到存在针对语音识别结果的校正部分的情况下，处理进行至步骤S21，并且语音识别结果对应处理单元31使图像输出单元22显示指示语音识别结果的语句。

在步骤S20或步骤S21的处理之后，处理进行至步骤S22，并且语音识别结果对应处理单元31确定用户是否指示进行对显示在图像输出单元22上的语音识别结果的话语内容的编辑。例如，如上参照图11所描述的，用户触摸并保持由语音识别结果指示的语句中的期望被编辑的词语被显示的部分。一旦从操作输入单元23提供了对应于触摸操作的操作信息，则语音识别结果对应处理单元31能够确定用户指示编辑该话语的内容。

在语音识别结果对应处理单元31在步骤S22中确定用户已指示编辑话语的内容的情况下，处理进行至步骤S23。

在步骤S23中，语音识别结果对应处理单元31基于操作信息来指定编辑部分，即要被编辑的词语。然后，如参照图11所描述的，语音识别结果对应处理单元31显示用于确认对词语的删除的用户接口。此后，一旦用户执行同意对被指定为要编辑的对象的词语进行删除的操作，则语音识别结果对应处理单元31将指示对被指定为要被编辑的对象的词语进行删除的信息发送至语音识别服务器14。

在步骤S24中，如参照图12所描述的，语音识别结果对应处理单元31在图像输出单元22上显示用于催促重复话语的用户接口。然后，语音信息获取单元21基于用户的话语获取重复话语的语音信息，并将该语音信息发送至语音识别服务器14。

在步骤S25中，语音识别结果对应处理单元31通过通信单元30获取在稍后描述的图21的步骤S56中从语音识别服务器14发送的替换信息。然后，语音识别结果对应处理单元31在图像输出单元22上显示通过用编辑部分替换替换信息来反映编辑的语音识别结果。

在步骤S25中的处理之后或者在步骤S22中确定用户未指示对发出内容的编辑的情况下，处理返回至步骤S11，并且此后重复相同的处理。

<语音识别服务器中的处理>

图20和图21是用于描述在语音识别服务器14中执行的处理的流程图。

例如，一旦通信单元41接收到在图19的步骤S15中从客户终端13发送的语音信息，并将该语音信息提供给输入声音处理单元42，就开始处理。在步骤S31中，输入声音处理单元42对从通信单元41提供的语音信息执行诸如VAD处理的预处理，并将语音信息提供给语音识别单元43。

在步骤S32中，语音识别单元43对在步骤S31中从输入声音处理单元42提供的语音信息执行语音识别处理。然后，语音识别单元43将作为语音识别结果获得的语句提供给自然语言处理单元44。

在步骤S33中，自然语言处理单元44对在步骤S32中从语音识别单元43提供的表示语音识别结果的语句执行自然语言处理，并将经过自然语言处理的语音识别结果输出给语义分析处理单元45。

在步骤S34中，语义分析处理单元45执行对表示在步骤S33中从自然语言处理单元44提供的语音识别结果的语句的含义进行分析的语义分析处理，并将由语音识别结果指示的语句的内容提供至校正部分估计处理单元46。

在步骤S35中，校正部分估计处理单元46识别确定在步骤S34中从语义分析处理单元45提供的由语音识别结果指示的语句的内容的准确度所需的核对信息，并且核对信息获取单元47通过通信单元41请求该核对信息。例如，核对信息获取单元47向客户终端13请求活动信息、环境信息、视线信息、对象识别信息等作为核对信息，或者向新闻服务器15和百科全书服务器16请求事实信息。然后，核对信息获取单元47通过通信单元41获取响应于请求而发送的核对信息，并将该核对信息提供给校正部分估计处理单元46。

在步骤S36中，校正部分估计处理单元46将由语音识别结果指示的语句的内容与在步骤S35中获取的核对信息进行核对，并且执行针对该语句估计校正部分的处理。

校正部分估计处理单元46在步骤S37中确定作为步骤S35中的处理的结果，是否估计到在由语音识别结果指示的语句中存在校正部分。

在校正部分估计处理单元46在步骤S37中确定在由语音识别结果指示的语句中存在校正部分的情况下，处理进行至步骤S38。在步骤S38中，校正部分估计处理单元46将指示校正部分的信息与语音识别结果一起提供给语音识别结果输出处理单元49，并且语音识别结果输出处理单元49输出用于确认校正部分的信息以及语音识别结果。

另一方面，在校正部分估计处理单元46在步骤S37中确定在由语音识别结果指示的语句中不存在校正部分的情况下，处理进行至步骤S39。在步骤S39中，校正部分估计处理单元46将语音识别结果提供给语音识别结果输出处理单元49，并且语音识别结果输出处理单元49输出语音识别结果。

在步骤S38或步骤S39的处理之后，处理进行至步骤S40，并且编辑对应处理单元48确定客户终端13是否通知了编辑部分。例如，一旦在上面描述的图19的步骤S23中从客户终端13发送了指示对被指定为要被编辑的对象的词语进行删除的信息，则编辑对应处理单元48确定已经通知了编辑部分。

在编辑对应处理单元48在步骤S40中确定已经通知了编辑部分的情况下，处理进行至步骤S41，并且在执行了编辑对应处理之后处理结束。在确定未通知编辑部分的情况下，处理按原样结束。

图21是用于描述在图20的步骤S41中执行的编辑对应处理的流程图。

在步骤S51中，编辑对应处理单元48根据从客户终端13发送的指示对被指定为要被编辑的对象的词语进行删除的信息来识别编辑部分。

在步骤S52中，如上面参照图11所描述的，编辑对应处理单元48从在语音识别服务器14中保持的语音信息中删除与在步骤S51中识别的编辑部分中的词语相关联的音素信息。以这种方式，编辑对应处理单元48指定除了要被编辑的对象之外的语音信息。

在步骤S53中，编辑对应处理单元48获取在上面描述的图19的步骤S24中从客户终端13发送的重复话语的语音信息。

在步骤S54中，编辑对应处理单元48执行如下处理：将在步骤S53中获取的重复话语的语音信息连接至在步骤S52中识别的除了要被编辑的对象之外的语音信息中被删除了词语的编辑部分，以生成编辑用的用于语音识别的语音信息。

在步骤S55中，编辑对应处理单元48将在步骤S54中生成的编辑用的用于语音识别的语音信息提供给语音识别单元43，并使语音识别单元43执行语音识别。

在步骤S56中，编辑对应处理单元48从通过在步骤S55中执行语音识别获得的语音识别结果中删除除了要被编辑的对象之外的语音信息，并且将剩余语音信息确定为替换信息以替换编辑部分。然后，编辑对应处理单元48通过通信单元41将替换信息发送至客户终端13。响应于此，在如上所描述的图19的步骤S25中用语音识别结果的编辑部分替换替换信息并且反映了编辑之后，编辑对应处理结束。

如上所述，客户终端13和语音识别服务器14能够显示用于确认基于用户的活动信息、天气信息等估计的校正部分的用户接口，以及基于用户的话语的语音信息的语音识别结果。以这种方式，可以容易地校正由于用户的记忆错误等所致的不正确的语音输入。

此外，客户终端13和语音识别服务器14能够对编辑用的用于语音识别的语音信息执行语音识别，在编辑用的用于语音识别的语音信息中，由用户指示的编辑部分的重复话语的语音信息被连接至除了要被编辑的对象之外的语音信息。因此，例如，与仅使用重复话语的语音信息执行语音识别的配置相比，语音识别服务器14能够提高语音识别的准确度。

以这种方式，语音识别系统11能够更准确地估计校正部分、向用户呈现校正部分并且以高精度对编辑部分执行语音识别。以这种方式，语音识别系统11能够提供更方便的语音识别服务。

因此，例如，由语音识别系统11提供的语音识别服务能够通常被用在提供用于执行语音输入的用户接口的应用中。例如，由于由语音识别系统11提供的语音识别服务被用在虚拟代理系统等中，因此在谎言被包括在用户的话语中的情况下，谎言被估计为校正部分并且可由用户校正。

例如，在用户执行话语“今天冷”的情况下，将该话语与指示由环境信息获取单元26获取的温度的环境信息进行核对，并且在温度为38度时，语音识别系统11能够将语音识别结果中的词语“冷”估计为校正部分。

注意，在本实施方式中，如参照图1所描述的，语音识别系统11配置有通过网络12连接的客户终端13和语音识别服务器14，并且提供如上所述的语音识别服务。本发明不限于这种配置。例如，语音识别系统可以配置有作为单个实体的客户终端13，或者可以在不通过网络12执行通信的情况下提供语音识别服务。

此外，用于配置客户终端13和语音识别服务器14的每个块可以布置在网络12的任一侧，只要每个块能够作为整个语音识别系统11提供语音识别服务。

注意，上面参考流程图描述的每个处理不一定需要根据作为流程图所描述的顺序按时间顺序处理，并且可以包括并行执行的处理或单独执行的处理(例如，并行执行的处理或对象的处理)。此外，程序可以由单个CPU处理，或者可以被处理为由多个CPU分发。

此外，上面描述的一系列处理(信息处理方法)可以通过硬件执行或者可以通过软件执行。在通过软件执行一系列处理的情况下，将记录有程序的程序记录介质安装在其中配置软件的程序被包含在专用硬件中的计算机处，或者例如能够通过安装各种程序来执行各种功能的通用个人计算机等处。

图22是示出通过程序执行上面描述的一系列处理的计算机的硬件配置的示例的框图。

在计算机中，中央处理单元(CPU)101、只读存储器(ROM)102和随机存取存储器(RAM)103通过总线104相互连接。

输入/输出接口105还连接至总线104。包括键盘、鼠标、麦克风等的输入单元106，包括显示器、扬声器等的输出单元107，包括硬盘和非易失性存储器的存储单元108，包括网络接口等的通信单元109，以及用于驱动可移除介质111例如磁盘、光盘、磁光盘或者半导体存储器的驱动器110被连接至输入/输出接口105。

在如上所述配置的计算机中，例如，CPU 101通过以下操作来执行上述一系列处理：通过输入/输出接口105和总线104将存储在存储单元108中的程序加载到RAM 103中并执行该程序。

要由计算机(CPU 101)执行的程序被记录在可移除介质111上，该可移除介质111是包括例如磁盘(包括软盘)、光盘(致密盘只读存储器(CD-ROM)、数字通用光盘(DVD)等)、磁光盘或半导体存储器等的封装介质，或者通过被称为局域网、互联网或数字卫星广播的有线或无线电传输介质来提供要由计算机(CPU 101)执行的程序。

然后，通过将可移除介质111安装在驱动器110中，可以通过输入/输出接口105将程序安装在存储单元108中。此外，可以在通信单元109处通过有线或无线电传输介质接收程序并且将程序安装在存储单元108中。另外，可以预先将程序安装在ROM 102或存储单元108中。

注意，本技术还可以具有以下配置。

(1)一种信息处理装置，包括：

识别单元，其将构成作为语音识别结果呈现给用户的语句的期望词语识别为编辑部分；

生成单元，其执行获取被重复发出以对所述编辑部分的词语进行编辑的语音信息、并将除重复话语之外的语音信息连接至所述语音信息的处理，以生成编辑用的用于语音识别的语音信息；以及

语音识别单元，其对由所述生成单元生成的所述编辑用的用于语音识别的语音信息执行语音识别。

(2)根据以上(1)所述的信息处理装置，还包括：

替换信息获取单元，其从通过由所述语音识别单元对所述编辑用的用于语音识别的语音信息执行语音识别而获得的语音识别结果中删除除所述重复话语之外的所述语音信息，并获取所述重复话语的语音信息作为用于替换所述编辑部分的替换信息。

(3)根据以上(1)或(2)所述的信息处理装置，其中：

所述生成单元使用从表示整个语音识别结果的语音信息中删除了与所述编辑部分中的词语相对应的音素信息的除要编辑的对象之外的语音信息作为除所述重复的话语之外的所述语音信息。

(4)根据以上(3)所述的信息处理装置，其中：

所述生成单元执行在除所述要编辑的对象之外的所述语音信息中的所述编辑部分之前添加特定语音信息、并在所述特定语音信息之后连接所述重复话语的所述语音信息的处理，以生成所述编辑用的用于语音识别的语音信息。

(5)根据以上(4)所述的信息处理装置，其中：

所述生成单元根据所述编辑部分中的词语的词性来添加所述特定语音信息。

(6)根据以上(4)或(5)所述的信息处理装置，其中：

所述生成单元根据所述编辑部分中的词语所属的类别将容易附属于所述类别的词语作为所述特定语音信息添加。

(7)根据以上(1)至(6)中任一项所述的信息处理装置，其中：

所述生成单元根据所述编辑部分中的词语所属的所述类别，使用合成语音以生成所述编辑用的用于语音识别的语音信息，其中所述合成语音表示根据与所述类别相关联的语句的模型而生成的语句。

(8)一种信息处理方法，包括以下步骤：

将构成作为语音识别结果呈现给用户的语句的期望词语识别为编辑部分；

执行获取被重复发出以对所述编辑部分中的词语进行编辑的语音信息、并将除重复话语之外的语音信息连接至所述语音信息的处理，以生成编辑用的用于语音识别的语音信息；以及

对所生成的编辑用的用于语音识别的语音信息执行语音识别。

(9)一种程序，使计算机执行包括以下步骤的信息处理：

注意，本实施方式不限于前述实施方式，并且在不脱离本公开内容的精神的情况下可以进行各种修改。

附图标记列表

11 语音识别系统

12 网络

13 客户终端

14 语音识别服务器

15 新闻服务器

16 百科全书服务器

21 语音信息获取单元

22 图像输出单元

23 操作输入单元

24 语音输出单元

25 活动信息获取单元

26 环境信息获取单元

27 视线信息获取单元

28 对象识别单元

29 记录单元

30 通信单元

31 语音识别结果对应处理单元

41 通信单元

42 输入声音处理单元

43 语音识别单元

44 自然语言处理单位

45 语义分析处理单元

46 校正部分估计处理单元

47 核对信息获取单元

48 编辑对应处理单元

49 语音识别结果输出处理单元

Claims

1.一种信息处理装置，包括：

语音识别单元，其对由所述生成单元生成的编辑用的用于语音识别的语音信息执行语音识别。

2.根据权利要求1所述的信息处理装置，还包括：

替换信息获取单元，其从通过由所述语音识别单元对所述编辑用的用于语音识别的语音信息执行语音识别而获得的语音识别结果中删除除所述重复话语之外的语音信息，并获取所述重复话语的语音信息作为用于替换所述编辑部分的替换信息。

3.根据权利要求1所述的信息处理装置，其中：

生成单元使用从表示整个语音识别结果的语音信息中删除了与所述编辑部分的词语相对应的音素信息的除要被编辑的对象之外的语音信息作为除所述重复话语之外的语音信息。

4.根据权利要求3所述的信息处理装置，其中：

所述生成单元执行在除所述要被编辑的对象之外的语音信息中的所述编辑部分之前添加特定语音信息、并在所述特定语音信息之后连接所述重复话语的语音信息的处理，以生成所述编辑用的用于语音识别的语音信息。

5.根据权利要求4所述的信息处理装置，其中：

所述生成单元根据所述编辑部分的词语的词性来添加所述特定语音信息。

6.根据权利要求4所述的信息处理装置，其中：

所述生成单元根据所述编辑部分的词语所属的类别将容易附属于所述类别的词语作为所述特定语音信息进行添加。

7.根据权利要求1所述的信息处理装置，其中：

所述生成单元根据所述编辑部分的词语所属的类别，使用合成语音以生成所述编辑用的用于语音识别的语音信息，所述合成语音表示根据与所述类别相关联的语句的模型而生成的语句。

8.一种信息处理方法，包括以下步骤：

执行获取被重复发出以对所述编辑部分的词语进行编辑的语音信息、并将除重复话语之外的语音信息连接至所述语音信息的处理，以生成编辑用的用于语音识别的语音信息；以及

9.一种程序，使计算机执行包括以下步骤的信息处理：