CN107112018A

CN107112018A - 信息处理装置、信息处理方法和程序

Info

Publication number: CN107112018A
Application number: CN201580068958.7A
Authority: CN
Inventors: 河野真; 河野真一; 泷祐平; 涩谷崇
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-12-25
Filing date: 2015-09-15
Publication date: 2017-08-29
Also published as: US10720154B2; EP3239976A1; EP3239976A4; US20170345423A1; JPWO2016103809A1; WO2016103809A1; JP6772839B2

Abstract

提供能够提高针对采集声音数据的语音识别准确度的技术。一种信息处理装置设置有：采集声音数据获取单元，用于获取采集声音数据；以及输出控制单元，用于使输出单元能够至少输出采集声音数据的状态是否适合于语音识别。

Description

信息处理装置、信息处理方法和程序

技术领域

本公开内容涉及信息处理装置、信息处理方法和程序。

背景技术

近年来，存在通过获取由麦克风采集的声音的数据(下文中也简称为“采集声音数据”)并对采集声音数据进行语音识别来识别字符串的技术。例如，公开了构建用于语音识别的上下文语音模型的方法的示例(例如参见专利文献1)。

引用列表

专利文献

专利文献1：JP2001-195084A

发明内容

技术问题

然而，期望提供一种能够提高针对采集声音数据的语音识别的准确性的技术。

问题的解决方案

根据本公开内容，提供一种信息处理装置，其包括：采集声音数据获取部，其获取采集声音数据；以及输出控制器，其使输出部至少输出采集声音数据的状态是否适合于语音识别。

根据本公开内容，提供一种信息处理方法，包括：获取采集声音数据；以及使输出部至少输出采集声音数据的状态是否适合于语音识别。

根据本公开内容，提供一种使计算机用作信息处理装置的程序，该信息处理装置包括：采集声音数据获取部，其获取采集声音数据；以及输出控制器，其使输出部至少输出采集声音数据的状态是否适合于语音识别。发明的有益效果

根据本公开内容，如上所述提供了能够提高针对采集声音数据的语音识别的准确度的技术。注意，上述效果不一定是限制性的。与上述效果一起或代替上述效果，可以实现本说明书中描述的效果中的任何一个效果或者可以从本说明书领会的其他效果。

附图说明

图1是示出根据本公开内容的实施方式的信息处理系统的配置示例的图。

图2是示出根据实施方式的信息处理系统的功能配置示例的框图。

图3是示出从初始画面的显示直到确定了作为语音识别的目标的采集声音数据的终止由输出部130显示的画面的转变的示例的图。

图4是示出从初始画面的显示直到确定了作为语音识别的目标的采集声音数据的终止由输出部130显示的画面的转变的示例的图。

图5是示出采集声音数据的量小于可允许范围的下限时的显示示例的图。

图6是示出采集声音数据的量大于可允许范围的下限并且采集声音数据的量小于可允许范围的上限时的显示示例的图。

图7是示出采集声音数据的量大于可允许范围的上限时的显示示例的图。

图8是示出检测到无声部分时的显示示例的图。

图9是示出成功执行了语音识别时的显示示例的图。

图10是示出语音识别失败时的显示示例的图。

图11是示出采集声音数据的量小于可允许范围的下限时的另一显示示例的图。

图12是示出采集声音数据的量大于可允许范围的下限并且采集声音数据的量小于可允许范围的上限时的另一显示示例的图。

图13是示出采集声音数据的量大于可允许范围的上限时的另一显示示例的图。

图14是示出由根据本公开内容的实施方式的由信息处理系统执行的操作的总体流程的示例的流程图。

图15是示出根据噪声量来更新可允许范围的下限和上限的操作的流程的示例的流程图。

图16是示出各种数据库的配置示例的图。

图17是示出更新用于检测无声部分的阈值的操作的流程的示例的流程图。

图18是示出通过起始词语音识别的句子标点确定流程的细节的流程图。

图19是示出基于语音识别的中间结果来确定是否说出句子标点词的操作的流程的示例的流程图。

图20示出了根据针对语音识别的适宜性确定的修改示例的操作的流程图。

图21是示出输出部的显示形式的修改示例的图。

图22是示出信息处理系统的硬件配置示例的框图。

具体实施方式

在下文中，将参照附图详细描述本公开内容的优选实施方式。在本说明书和附图中，用相同的附图标记表示具有基本相同的功能和结构的结构元件，并且省略对这些结构元件的重复说明。

注意，在本说明书和附图中，有时使用相同附图标记之后的不同字母彼此区分具有基本相同的功能和结构的结构元件。然而，在不需要特别区分具有基本相同的功能和结构的结构元件时，仅附上相同的附图标记。

将按照以下顺序给出描述。

1.本公开内容的实施方式

1.1.系统配置示例

1.2.功能配置示例

1.3.信息处理系统的功能细节

1.4.用于语音识别的适宜性确定的修改示例

1.5.显示形式的修改示例

1.6.硬件配置示例

2.结论

<1.本公开内容的实施方式>

[1.1.系统配置示例]

参考附图描述根据本公开内容的实施方式的信息处理系统10的配置示例。图1是示出根据本公开内容的实施方式的信息处理系统10的配置示例的图。如图1所示，根据本公开内容的实施方式的信息处理系统10被配置为包括图像输入部110、操作输入部115、声音采集部120和输出部130。信息处理系统10能够对用户U(下文中也简称为“用户”)说出的语音进行语音识别。在下面的描述中，话音(voice)或语音(speech)和声音(sound)被区分地使用。

图像输入部110具有输入图像的功能。在图1所示的示例中，图像输入部110包括嵌入桌子Tb1中的两个摄像机。然而，图像输入部110中包括的摄像机的数量不限于特定数量，只要它是一个或更多个即可。在这种情况下，图像输入部110中包括的一个或更多个摄像机中的每个摄像机被设置的位置也不限于特定位置。另外，一个或更多个摄像机可以包括单目摄像机或立体摄像机。

操作输入部115具有输入用户U的操作的功能。在图1所示的示例中，操作输入部115包括从桌子Tb1上方的天花板悬挂的一个摄像机。然而，操作输入部115中包括的摄像机被设置的位置不限于特定位置。另外，摄像机可以包括单目摄像机或立体摄像机。另外，操作输入部115可以是除摄像机之外的任何装置，只要它具有输入用户U的操作的功能即可，并且例如可以是触摸面板或硬件按钮。

输出部130具有在桌子Tb1上显示画面的功能。在图1所示的示例中，输出部130从桌子Tb1上方的天花板悬挂。然而，设置输出部130的位置不限于特定位置。另外，输出部130通常可以是能够将画面投影到桌子Tb1的顶表面上的投影仪，但是输出部130可以是其他类型的显示器，只要其具有显示画面的功能即可。

此外，虽然此处主要描述了桌子Tb1的顶表面是画面的显示表面的情况，但是画面的显示表面可以不同于桌子Tb1的顶表面。画面的显示表面的示例可以包括墙壁、建筑物、地板表面、地面、天花板或其他地方的表面。另外，在输出部130具有其自己的显示表面的情况下，画面的显示表面可以是输出部130的显示表面。

声音采集部120具有采集声音的功能。在图1所示的示例中，声音采集部120包括总共六个麦克风，即，在桌子Tb1上方的三个麦克风和存在于桌子Tb1的上表面上的三个麦克风。然而，声音采集部120中包括的麦克风的数量不限于特定数量，只要它是一个或更多个即可。在这种情况下，声音采集部120中包括的一个或更多个麦克风被设置的位置也不限于特定位置。

然而，如果声音采集部120包括多个麦克风，则可以基于由多个麦克风中的每个麦克风采集的采集声音数据来估计声音的到达方向。如果声音采集部120包括具有方向性的麦克风，则可以基于由具有方向性的麦克风采集的采集声音数据来估计声音的到达方向。

关于根据本公开内容的实施方式的信息处理系统10的配置示例给出了以上描述。

[1.2.功能配置示例]

随后，描述根据本公开内容的实施方式的信息处理系统10的功能配置示例。图2是示出根据本公开内容的实施方式的信息处理系统10的功能配置示例的框图。如图2所示，根据本公开内容的实施方式的信息处理系统10被配置为包括图像输入部110、操作输入部115、声音采集部120、输出部130和信息处理装置140(下文也称为“控制器140”)。

信息处理装置140控制信息处理系统10的每个部件。在一个示例中，信息处理装置140生成要从输出部130输出的信息。另外，在一个示例中，信息处理装置140将由图像输入部110、操作输入部115和声音采集部120中的每个输入的信息并入要从输出部130输出的信息中。如图2所示，信息处理装置140包括输入图像获取部141、采集声音数据获取部142、操作检测部143、识别控制器144、语音识别部145和输出控制器146。稍后将详细描述这些各个功能块。

此外，信息处理装置140可以由例如中央处理单元(CPU)构成。在信息处理装置140由诸如CPU的处理装置构成的情况下，该处理装置可以由电子电路构成。

关于根据本公开内容的实施方式的信息处理系统10的功能配置示例给出了以上描述。

[1.3.信息处理系统的功能细节]

接下来，将描述根据本公开内容的实施方式的信息处理系统10的功能细节。根据本公开内容的实施方式，采集声音数据获取部142获取由声音采集部120采集的采集声音数据，并且输出控制器146使输出部130至少输出采集声音数据的状态是否适合于语音识别。由于用户可以通过使用这样的配置识别采集声音数据的状态是否适合于语音识别来调整说话，因此可以提高针对采集声音数据的语音识别的准确度。

作为采集声音数据的适合于语音识别的状态，可以假设各种状态。作为示例，在采集声音数据的量在预定的可允许范围内时，可以认为采集声音数据的状态适合于语音识别。因此，将描述输出控制器146使输出部130输出采集声音数据的量是否在预定的可允许范围内作为采集声音数据的状态是否适合于语音识别的示例。

此处，不具体限制采集声音数据的量。例如，采集声音数据的量可以包括采集声音数据的时间长度。采集声音数据的量可以包括从采集声音数据提取的音素的数量。采集声音数据的量可以包括采集声音数据中的类似声音的部分的时间长度。采集声音数据的量可以是语音识别的单位(更具体地，从作为集体语音识别的目标的一个或更多个采集声音数据项的开头到终止的累积量)。

图3和图4是示出从初始画面的显示直到确定了作为语音识别的目标的采集声音数据的终止由输出部130显示的画面的转变的示例的图。参照图3，输出控制器146使初始画面G10-1被显示。初始画面G10-1包括用于开始语音识别的语音识别开始操作对象G14以及作为通过语音识别获取的字符串(下文也称为“识别字符串”)的显示部的识别字符串显示部G11。

此外，初始画面G10-1包括用于删除识别字符串的整体的全删除操作对象G12和用于决定识别字符串的决定操作对象G13。此外，初始画面G10-1包括用于向后移动识别字符串处的光标位置的移动操作对象G15，用于向前移动识别字符串处的光标位置的移动操作对象G16，以及用于删除光标位置处的字符或词的删除操作对象G17。

首先，用户如画面G10-2所示执行选择语音识别开始操作对象G14的操作，并且如果通过操作输入部115输入了选择语音识别开始操作对象G14的操作，则由操作检测部143检测该操作，并且输出控制器146使声音采集开始画面G10-3被显示。如果输出控制器146使声音采集开始画面G10-3被显示，则用户开始朝向声音采集部120说话。

如果由声音采集部120采集的采集声音数据被采集声音数据获取部142获取，则输出控制器146使预定对象(下文也称为“显示对象”)Mu在声音采集期间如画面G10-4所示地被显示。显示对象Mu可以保持静止或可以具有如画面G10-4所示的移动。在显示对象Mu具有移动时，例如，显示对象Mu的移动方向De可以取决于从声音源到声音采集部120的用户的说话话音的到达方向。估计用户说话话音的到达方向的方法也不具体限制。

例如，识别控制器144可以将与已执行了选择语音识别开始操作对象G14的操作的用户的手指的方向(例如从手指的根部到尖端的方向)一致或相似的一个到达方向估计为用户的说话话音的到达方向。可以预先确定相似度的范围。可以通过分析输入图像来获取手指的方向。

可替选地，识别控制器144可以将由声音采集部120输入的声音的到达方向估计为用户的说话话音的到达方向。如果存在多个声音到达方向，则可以将多个到达方向中的最初输入的声音的到达方向估计为用户的说话话音的到达方向，或者可以将多个到达方向中的与已执行选择语音识别开始操作对象G14的操作的用户的手指的方向一致或相似的一个到达方向估计为用户的说话话音的到达方向。

可替选地，识别控制器144可以将多个到达方向中的由声音采集部120输入的具有最大音量的声音的到达方向估计为用户的说话话音的到达方向。以这种方式，可以估计用户的说话话音的到达方向。相反，识别控制器144可以获取由声音采集部120从除了用户的说话话音的到达方向之外的方向输入的声音作为噪声。

图4示出了输出控制器146在用户的说话话音的到达方向(移动方向De)上移动显示对象Mu的示例。以这种方式，用户能够直观地识别出用户自己的说话话音正被声音采集部120采集。然而，显示对象Mu的移动不限于这样的移动。图4示出了显示对象Mu的目的地是语音识别开始操作对象G14的示例。然而，显示对象Mu的目的地不限于这样的示例。

虽然图4示出了输出控制器146使已依次出现的圆形显示对象Mu根据由声音采集部120执行的声音采集而移动的示例，但是显示对象Mu的显示状态不限于这样的示例。例如，输出控制器146可以根据采集声音数据，基于预定信息(例如采集声音数据的语音可能性和音量)来控制显示对象Mu的各种参数。此时使用的采集声音数据可以是来自用户的说话话音的到达方向的采集声音数据。显示对象Mu的参数可以包括显示对象Mu的形状、透明度、颜色、大小和运动中的至少任一个。

不具体限制评价采集声音数据中的语音可能性的方法。例如，也可以采用专利文献(JP 2010-38943A)中描述的方法作为评价采集声音数据中的语音可能性的方法。还可以采用专利文献(JP 2007-328228A)中描述的方法作为评价采集声音数据中的语音可能性的方法。虽然本文将描述通过输出控制器146执行评估语音可能性的示例，但是语音可能性的评估也可以由附图中未示出的服务器执行。

识别控制器144使语音识别部145开始针对由采集声音数据获取部142获取的采集声音数据的语音识别。开始语音识别的定时不受限制。例如，识别控制器144可以在显示对象Mu到达语音识别开始操作对象G14之后使语音识别部145开始针对与显示对象Mu对应的采集声音数据的语音识别。如识别期间的画面G10-5所示，可以显示已到达语音识别开始操作对象G14的显示对象Mu，使得显示对象Mu聚集在语音识别开始操作对象G14处。

输出控制器146可以使输出部130输出可允许范围的下限或上限中的至少一个。由于这使得用户能够在识别可允许范围的下限或上限中的至少一个的情况下说话，所以可以容易地将采集声音数据的量设置在可允许范围内，并且可以提高针对采集声音数据的语音识别的准确度。

此处，输出控制器146可以在采集声音数据的量小于可允许范围的下限时使输出部130输出采集声音数据不适合于语音识别的状态的指示以促使用户进一步说话。不具体限制采集声音数据不适合于语音识别的状态的指示。图5是示出采集声音数据的量小于可允许范围的下限时的显示示例的图。

如画面G10-6所示，采集声音数据不适合于语音识别的状态的指示可以由应用于识别字符串显示部G11的预定颜色(例如粉红色)表示。可替选地，如画面G10-6所示，采集声音数据不适合于语音识别的状态的指示可以由应用于语音识别开始操作对象G14的预定颜色(例如粉红色)表示。可替选地，如图画面G10-6所示，采集声音数据不适合于语音识别的状态的指示可以由应用于显示对象Mu的预定颜色(例如灰色)表示。

输出控制器146可以使输出部130输出采集声音数据的量。以这种方式，可以预期用户在识别采集声音数据的量的情况下说话，从而易于将采集声音数据的量设置在可允许范围内，并且提高针对采集声音数据的语音识别的准确度。在图5所示的示例中，语音识别开始操作对象G14的框与可允许范围的上限对应，并且显示对象Mu的大小与采集声音数据的量对应。

在采集声音数据的量大于可允许范围的下限并且采集声音数据的量小于可允许范围的上限时，输出控制器146可以使输出部130输出用户说话量适合的指示。不具体限制采集声音数据适合于语音识别的状态的指示。图6是示出在采集声音数据的量大于可允许范围的下限并且采集声音数据的量小于可允许范围的上限时的显示示例的图。

如画面G10-7所示，采集声音数据适合于语音识别的状态的指示可以由应用于识别字符串显示部G11的预定颜色(例如比上述粉红色更深的颜色)表示。可替选地，如画面G10-7所示，采集声音数据适合于语音识别的状态的指示可以由应用于语音识别开始操作对象G14的预定颜色(例如比上述粉红色更深的颜色)表示。可替换地，如画面G10-7所示，采集声音数据适合于语音识别的状态的指示可以被表示为应用于显示对象Mu的预定颜色(例如比上述灰色更深的颜色)。

输出控制器146可以在采集声音数据的量大于可允许范围的上限时使输出部130输出采集声音数据不适合于语音识别的状态的指示，以促使用户停止说话。如上所述，不具体限制采集声音数据不适合于语音识别的状态的指示。图7是示出在采集声音数据的量大于可允许范围的上限时的显示示例的图。

如画面G10-8所示，采集声音数据不适合于语音识别的状态的指示可以由应用于识别字符串显示部G11的预定颜色(例如粉红色)表示。可替选地，如画面G10-8所示，采集声音数据不适合于语音识别的状态的指示可以由应用于语音识别开始操作对象G14的预定颜色(例如粉红色)表示。可替选地，如画面G10-8所示，采集声音数据不适合于语音识别的状态的指示可以由应用于显示对象Mu的预定颜色(例如灰色)表示。

如画面G10-8所示，在采集声音数据的量大于可允许范围的上限时，输出控制器146可以将表示从语音识别开始操作对象G14的溢出的动画应用于显示对象Mu。在采集声音数据的量大于可允许范围的上限时，输出控制器146可以将表示多种颜色之间(例如灰色和黑色之间)的切换的动画应用于显示对象Mu。

此处，可以以任何方式确定作为语音识别的目标的部分的终止。例如，识别控制器144可以检测采集声音数据中是否存在音量在超过阈值的时间段内小于预定音量的部分(以下也简称为“无声部分”)，并且可以基于检测到无声部分的时刻来确定作为语音识别的目标的部分的终止。图8是示出检测到无声部分时的显示示例的图。

如画面G10-9所示，检测到无声部分的时刻可以被确定为作为语音识别的目标的部分的终止。画面G10-10是确定了作为语音识别的目标的部分终止之后的画面。参照画面G10-10，显示对象Mu增加了，并且在语音识别开始操作对象G14上显示的消息已从“请进行”改变为“请稍候”。随后，语音识别部145使语音识别部145针对采集声音数据的一部分或全部执行语音识别。具体地，识别控制器144使语音识别部145针对除了无声部分之外的采集声音数据执行语音识别。

语音识别部145针对除了无声部分之外的采集声音数据执行语音识别。例如，语音识别部145可以通过针对来自用户的说话话音的到达方向的采集声音数据执行语音识别来获取识别字符串。以这种方式，与直接对声音采集部120所输入的语音执行语音识别的情况相比，可以以较少噪声对语音执行语音识别，从而预期提高语音识别的准确度。接下来的操作根据是否已成功执行了语音识别而不同。

图9是示出在已成功执行语音识别时的显示示例的图。如画面G10-11所示，如果语音识别部145已成功执行了语音识别，输出控制器146可以将显示对象Mu移动到识别字符串显示部G11侧。这使得用户能够预测将在识别的字符串显示部G11上显示字符串。如画面G10-12所示，输出控制器146可以进一步将显示对象Mu移动到识别字符串显示部G11侧。

参照画面G10-12，输出控制部146使识别的字符串“I drove your car toairports”显示在识别字符串显示部G11中。另外，输出控制器146使选择候选显示部G18、选择候选切换操作对象G19等被显示。尽管不具体限制选择候选显示部分G18中显示的选择候选，在画面G10-12所示的示例中，预测转换类别、短语类别和原始形式类别等被显示为选择候选。

图10是示出语音识别失败时的显示示例的图。如果由语音识别部145进行的语音识别失败，则输出控制器146可以将显示对象Mu移动到不存在识别字符串显示部G11的侧(例如下侧)，如画面G10-13所示。这使得用户能够预测语音识别已失败。如画面G10-14所示，输出控制器146可以将显示对象Mu进一步移动到不存在识别字符串显示部G11的侧(例如下侧)。

在图5所示的示例的描述中，语音识别开始操作对象G14的框与可允许范围的上限对应，并且显示对象Mu的大小与采集声音数据的量对应。然而，可以以任何方式表示采集声音数据的可允许范围和量。图11是示出在采集声音数据的量小于可允许范围的下限时的另一显示示例的图。如画面G10-15所示，输出控制器146可以使指示采集声音数据的量的指示符G18被显示。如画面G10-15所示，指示器G18可以包括可允许范围的下限(t_min)和可允许范围的上限(t_max)。

如上所述，输出控制器146可以在采集声音数据的量小于可允许范围的下限时使输出部130输出采集声音数据不适合于语音识别的状态的指示，以促使用户进一步说话。采集声音数据不适合于语音识别的状态的指示可以由用于促使用户说话的消息表示。如图11所示，用于促使用户说话的消息可以是诸如“请继续说话”的消息。

图12是示出采集声音数据的量大于可允许范围的下限并且采集声音数据的量小于可允许范围的上限时的另一显示示例的图。如上所述，在采集声音数据的量大于可允许范围的下限并且采集声音数据的量小于可允许范围的上限时，输出控制器146可以使输出部130输出采集声音数据适合于语音识别的状态的指示。采集声音数据适合于语音识别的状态的指示可以由诸如如图12所示的“请进行”的消息表示。

图13是示出采集声音数据的量大于可允许范围的上限时的另一显示示例的图。如上所述，输出控制器146可以在采集声音数据的量大于可允许范围的上限时使输出部130输出采集声音数据不适合于语音识别的状态的指示，以促使用户停止说话。采集声音数据不适合于语音识别的状态的指示可以由用于促使用户说话的消息表示。如图13所示，用于促使用户说话的消息可以是诸如“请停止”的消息。

至此描述了根据本公开内容的实施方式的信息处理系统10的功能细节。

随后，将描述根据本公开内容的实施方式的信息处理系统10的操作的总体流程。图14是示出根据本公开内容的实施方式的信息处理系统10的操作的总体流程的示例的流程图。图14的流程图仅示出根据本公开内容的实施方式的信息处理系统10的操作的总体流程的示例，根据本公开内容的实施方式的信息处理系统10的操作的总体流程不限于图14中的流程图所示的示例。

首先，输出控制器146将零设置为变量t_acc(S11)。在未获取采集声音数据时(S12中的“否”)，输出控制器146完成操作，或在已获取采集声音数据时(S12中的“是”)，输出控制器146将获取的采集声音数据的量添加到变量t_acc(S13)。输出控制器146在变量t_acc小于可允许范围的下限(t_min)时(S14中的“是”)确定作为语音识别的目标的单元不是合适量(不足)(S15)，更新UI(画面)以表示作为语音识别的目标的单元不是合适量(不足)(S16)，并且继续进行到S12中的操作。

在变量t_acc大于可允许范围的下限(t_min)时(S14中的“否”)，输出控制器146继续进行到S17中的操作。然后，输出控制器146在变量t_acc小于可允许范围的上限(t_max)时(S17中的“是”)确定作为语音识别目标的单元是合适量(S18)，更新UI(画面)以表示作为语音识别的目标的单元是合适量(S19)，并且继续进行到S12中的操作。

此外，输出控制器146在变量t_acc小于可允许范围的上限(t_max)时(S17中的“否”)确定作为语音识别的目标的单元不是合适量(过度)(S20)，更新UI(画面)以表示作为语音识别的对象的单元不是合适量(过度)(S21)，并且继续进行到S12的操作。

至此描述了信息处理系统10的操作的整体流程。虽然此处可允许范围的上述下限和上限可以总是恒定的，但是可以通过输出控制器146更新可允许范围的下限或上限中的至少一个。例如，输出控制器146可以基于噪声量来更新可允许范围的下限或上限中的至少一个。例如，认为语音识别的准确度随着噪声量的增大而劣化。因此，输出控制器146可以更新可允许范围的上限，使得可允许范围的上限随着噪声量的增大而增大。

图15是示出根据噪声量来更新可允许范围的下限和上限的操作流程的示例的流程图。图15的流程图仅示出了根据噪声量更新可允许范围的下限和上限的操作流程的示例，根据噪声量更新可允许范围的下限和上限的操作流程不限于图15的流程图所示的示例。

首先，输出控制器146确定是否已获取采集声音数据(S31)，并且在未获取采集声音数据时(S31中的“否”)完成操作，或在获取了采集声音数据时(S31中的“是”)获取噪声量作为变量n_noise(S32)。随后，在变量n_noise小于预定噪声下限量n_min时(S33中的“是”)，输出控制器146在不更新可允许范围的下限(t_min)和可允许范围的上限(t_max)(S34)的情况下继续进行到S31中的操作。

相反，在变量n_noise大于预定噪声下限量n_min时(S33中的“否”)，输出控制器146将可允许范围的下限(t_min)和可允许范围的上限(t_max)乘以1.5(S35)，并且继续进行到S31中的操作。值1.5仅是与可允许范围的下限(t_min)和可允许范围的上限(t_max)相乘的值的示例，并且可以使用大于1的另一值来代替值1.5。

至此描述了根据噪声量来更新可允许范围的下限和上限的操作流程的示例。虽然在上述示例中描述了用于检测无声部分的阈值，但是用于检测无声部分的阈值可以是恒定的或被更新。在采集声音数据包括指示句子的开头或句子的结尾的预定表达时，例如，认为用户说出的句子已到达停止点，因此优选地改变用于完成作为语音识别的目标的部分的条件。

因此，在采集声音数据包括指示句子的开头或句子的结尾的预定表达时，输出控制器146优选地更新阈值。更具体地，在采集声音数据包括指示句子的开头或句子的结尾的预定表达时，认为用户说出的句子已到达停止点，因此优选地放松用于完成作为语音识别的目标的部分的条件。因此，在采集声音数据包括指示句子的开头或句子的结尾的预定表达时，输出控制器146优选地设置较小的阈值。

可以将表示句子的开头或句子的结尾的表达(下文中也称为“起始词”)作为与语音信息相关联的数据预先登记在起始词登记数据库(DB)中。然后，输出控制器146可以根据登记在起始词登记数据库中的语音信息是否被包括在采集声音数据中来确定起始词是否被包括在采集声音数据中。虽然本文将描述通过输出控制器146执行用于确定起始词是否包括在采集声音数据中的流程(下文中也称为“起始词识别处理流程”)的示例，但是起始词识别处理流程也可以由附图中未示出的服务器执行。

此处，将描述起始词登记数据库。图16是示出各种数据库的配置示例的图。图16所示的起始词登记数据库是以将起始词与其语音信息相关联的方式存储数据的数据库。图16所示的句子标点确定词数据库是以将表示句子的开头或句子的结尾的表达与其语音信息相关联的方式存储数据的数据库。

许可词数据库是用于也许可说出与句子标点确定词相似的词的情况的数据库。许可词数据库是以将许可词与其语音信息相关联的方式存储数据的数据库。虽然可以以任何方式生成起始词登记数据库，但是可以通过将登记在句子标点确定词数据库中的词登记在起始词登记数据库中来生成起始词登记数据库。另外，可以通过将登记在许可词数据库中的词登记在起始词登记数据库中来形成起始词登记数据库。

至此描述了起始词登记数据库。接下来，将描述更新用于检测无声部分的阈值的操作的流程。图17是示出更新用于检测无声部分的阈值的操作的流程的示例的流程图。图17的流程图仅示出了更新用于检测无声部分的阈值的操作的示例，更新用于检测无声部分的阈值的操作的流程不限于图17的流程图中所示的示例。

首先，输出控制器146确定是否获取了采集声音数据(S41)，并且在未获取采集声音数据时(S41的“否”)完成操作，或者在已获取了采集声音数据时(S41中的“是”)基于起始词语音识别(S43)来划分采集声音数据(S42)并且执行句子标点确定流程。稍后将参照图18描述基于起始词语音识别的句子标点确定流程的细节。

随后，输出控制器146在确定已说出句子标点词时(S44中为“是”)将用于检测无声部分的阈值乘以0.1(S45)，并且继续进行到S41中的操作。由于值0.1仅是与用于检测无声部分的阈值相乘的值的示例，所以可以使用小于1的另一值代替值0.1。相反，输出控制器146在确定未说出句子标点词时(S44中的“否”)保持用于检测无声部分的阈值(S46)，并且继续进行到S41中的操作。

至此描述了更新用于检测无声部分的阈值的操作的流程的示例。接下来，将描述基于图17所示的起始词语音识别的句子标点确定流程的细节。图18是示出基于起始词语音识别的句子标点确定流程的细节的流程图。图18的流程图仅示出了基于起始词语音识别的句子标点确定流程的示例，基于起始词语音识别的句子标点确定流程不限于图18的流程图中所示的示例。

首先，输出控制器146执行上述起始词识别处理流程(S431)，并且确定是否成功识别了起始词(S432)。输出控制器146确定已说出句子标点词(S433)，并且在已成功识别出起始词时(S432中的“是”)完成操作。相反，输出控制器146在对起始词的识别已失败时(S432中的“否”)确定未说出句子标点词(S434)并且完成操作。

至此描述了基于起始词语音识别的句子标点确定流程的细节。在以上描述中，描述了这样的示例：其中将起始词识别处理流程S431用作确定是否已说出句子标点词的方法的示例。然而，确定是否已说出句子标点词的方法不限于这样示例。例如，在获得了由语音识别部145进行的语音识别的中间结果时，输出控制器146可以基于语音识别的中间结果来确定是否已说出了句子标点词(输出控制器146可以根据起始词是否被包括在语音识别的中间结果中来确定起始词是否被包括在采集声音数据中)。

图19是示出基于语音识别的中间结果来确定是否已说出了句子标点词的操作的流程的示例的流程图。图19的流程图仅示出了基于语音识别的中间结果来确定是否已说出了句子标点词的操作的示例，基于语音识别的中间结果确定是否已说出句子标点词的操作的流程不限于图19的流程图中所示的示例。

首先，语音识别部145对采集到的声音数据进行语音识别处理(S51)。随后，在未获取到语音识别的中间结果时(S52中的“否”)，输出控制器146进行到S51中的操作，或者在获取到语音识别的中间结果时(S52中的“是”)，输出控制器146划分中间结果(S53)。为了划分中间结果，可以使用通过使用语素分析来将中间结果划分为语素的处理。随后，输出控制器146将处理(S54至S58)重复与通过划分而获得的字符串(划分字符串)的数目相等的次数。

输出控制器146确定划分字符串是否已登记在起始词登记数据库中(S55)，当在处理(S54至S58)的重复期间确定起始词登记数据库中登记了划分字符串时(S55中的“是”)，确定未说出句子标点词(S57)，并且返回至处理的重复的开始(S54)。相反，在确定划分字符串未登记在起始词登记数据库中时(S55中的“否”)，输出控制器146确定已说出了句子标点词(S56)并且离开对处理(S54至S58)的重复。至此描述了基于语音识别的中间结果来确定是否已说出句子标点词的操作。

[1.4.针对语音识别的适宜性确定的修改示例]

至此描述了根据采集声音数据的量是否在预定的可允许范围内来确定采集声音数据的状态是否适合于语音识别的示例。然而，可以通过另一方法来确定采集声音数据的状态是否适合于语音识别。例如，假设如果采集声音数据中存在多个句子，则针对采集声音数据的语音识别的准确度不提高。因此，输出控制器146可以根据采集声音数据中是否包括起始词来确定采集声音数据的状态是否适合于语音识别。

也就是说，输出控制器146可以使输出部130输出采集声音数据中是否包括起始词来作为采集声音数据的状态是否适合于语音识别。在下文中，将描述针对这样的语音识别的适宜性确定的修改示例。图20示出了根据针对语音识别的适宜性确定的修改示例的操作的流程。图20是示出根据语音识别的适宜性确定的修改示例的操作的流程的示例的流程图。图20的流程图仅示出根据语音识别的适宜性确定的修改示例的操作的示例，而根据针对语音识别的适宜性确定的修改示例的操作的流程不限于图20的流程图中所示的示例。

首先，输出控制部146确定是否获取了采集声音数据(S61)，在未获取采集声音数据时(S61的“否”)完成操作，或者在已获取了采集声音数据时(S61中的“是”)基于起始词语音识别来划分采集声音数据(S62)并且执行句子标点确定流程(S43)。可以如已描述的那样执行基于起始词语音识别的句子标点确定流程。

随后，在确定已说出句子标点词时(S64中的“是”)，输出控制器146确定采集声音数据的状态适合于语音识别(S65)，更新UI(画面)以表示采集声音数据的状态适合于语音识别(S66)，并且继续进行到S61中的操作。相反，在确定未说出句子标点词时(S64中的“否”)，输出控制器146确定采集声音数据的状态不适合于语音识别(S67)，更新UI(画面)以表示采集声音数据的状态不适合于语音识别(S68)，并且继续进行到S61中的操作。

至此描述了针对语音识别的适宜性确定的修改示例。

[1.5.显示形式的修改示例]

关于输出部130是能够将画面投影到桌子Tb1的顶表面上的投影仪的示例给出了上面的描述。然而，输出部130的显示形式不限于该示例。在下文中，将描述输出部130的显示形式的修改示例。图21是示出输出部130的显示形式的修改示例的图。如图21所示，在信息处理系统10是移动终端的情况下，输出部130可以设置在移动终端中。移动终端的类型不限于具体类型，并且其可以是平板终端、智能电话或蜂窝电话。

[1.6.硬件配置示例]

接下来，参考图22描述根据本公开内容的实施方式的信息处理系统10的硬件配置。图22是示出根据本公开内容的实施方式的信息处理系统10的硬件配置示例的框图。

如图22所示，信息处理系统10包括中央处理单元(CPU)901、只读存储器(ROM)903和随机存取存储器(RAM)905。另外，信息处理系统10可以包括主机总线907、桥接器909、外部总线911、接口913、输入装置915、输出装置917、存储装置919、驱动器921、连接端口923和通信装置925。信息处理系统10还可以根据需要包括图像拍摄装置933和传感器935。与CPU901结合或代替CPU 901，信息处理系统10可以具有被称为数字信号处理器(DSP)或专用集成电路(ASIC)的处理电路。

CPU 901用作算术处理单元和控制装置，并且根据记录在ROM 903、RAM 905、存储装置919或可移除记录介质927中的各种程序来控制信息处理系统10的整体操作或其一部分。ROM 903存储例如CPU 901使用的程序和操作参数。RAM 905临时存储例如要由CPU 901在执行中使用的程序和在执行程序时适当改变的参数。CPU 901、ROM 903和RAM 905通过由诸如CPU总线的内部总线构成的主机总线907彼此连接。此外，主机总线907经由桥接器909连接到诸如外围组件互连(PCI)/接口总线的外部总线911。

输入装置915是例如由用户操作的装置，诸如鼠标、键盘、触摸面板、按钮、开关和杆。输入装置915可以包括用于检测用户的话音的麦克风。输入装置915可以是例如使用红外线或其他无线电波的遥控装置，或可以是符合信息处理系统10的操作的诸如蜂窝电话的外部连接装置929。输入装置915包括基于用户输入的信息生成输入信号并将其输出到CPU901的输入控制电路。用户向信息处理系统10输入各种数据，并指示信息处理系统10通过操作输入装置915来执行处理操作。此外，稍后将描述的图像拍摄装置933还可以通过拍摄用户的手或手指的移动等用作输入装置。在这种情况下，可以根据手的运动或手指的取向来确定定点位置。

输出装置917由能够将所获取的信息可视地或可听地通知给用户的装置构成。输出装置917可以是诸如液晶显示器(LCD)、等离子体显示面板(PDP)、有机电致发光(EL)显示器和投影仪等显示装置、全息显示装置、诸如扬声器和耳机的音频输出装置以及打印机装置等。输出装置917将通过信息处理系统10的处理而获得的结果输出为诸如文本或图像的视频，或将其输出为诸如话音或声音的音频。另外，输出装置917可以包括例如用于照亮周围环境的灯。

存储装置919是被配置为信息处理系统10的存储部分的示例的数据存储装置。存储装置919例如由诸如硬盘驱动器(HDD)的磁存储装置、半导体存储装置、光学存储装置和磁光存储装置构成。存储装置919存储由CPU 901执行的程序、各种数据、从外部获得的各种类型的数据等。

驱动器921是用于诸如磁盘、光盘、磁光盘和半导体存储器的可移除记录介质927的读写器，并且被并入信息处理系统10中或外部附接到信息处理系统10。驱动器921读取记录在附接的可移除记录介质927中的信息并将该信息输出到RAM 905。另外，驱动器921写入附接的可移除记录介质927。

连接端口923是用于将装置直接连接到信息处理系统10的端口。连接端口923可以是例如通用串行总线(USB)端口、IEEE 1394端口或小型计算机系统接口(SCSI)端口。另外，连接端口923可以是例如RS-232C端口、光学音频端子或高清晰度多媒体接口(HDMI，注册商标)端口。外部连接装置929连接到连接端口923，因此可以在信息处理系统10与外部连接装置929之间交换各种数据。

通信装置925是例如由用于连接到通信网络931的通信装置等构成的通信接口。通信装置925可以是例如用于有线或无线局域网(LAN)、蓝牙(注册商标)或无线USB(WUSB)的通信卡。另外，通信装置925可以是例如用于光通信的路由器、用于非对称数字用户线路(ADSL)的路由器或用于各种通信的调制解调器。通信装置925使用诸如TCP/IP的预定协议例如与因特网或其他通信装置发送和接收信号等。另外，连接到通信装置925的通信网络931是通过有线或无线连接的网络，并且是例如因特网、家庭LAN、红外通信、无线电波通信、卫星通信等。

图像拍摄装置933通过使用诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)的图像传感器和用于控制将对象图像成像在图像传感器上的诸如透镜的各种构件来拍摄真实空间并产生拍摄图像。图像拍摄装置933可以拍摄静止图像或运动图像。

传感器935是例如各种传感器，例如，加速度计、陀螺仪传感器、地磁传感器、光传感器和声音传感器。传感器935获取关于信息处理系统10本身的状态的信息例如信息处理系统10的壳体的姿态以及关于信息处理系统10的周围环境的信息例如信息周围的亮度或噪声。传感器935还可以包括GPS传感器，其接收全球定位系统(GPS)信号并测量装置的纬度、经度和高度。

关于信息处理系统10的硬件配置的示例给出了以上描述。上述每个部件可以使用通用构件来配置，或可以配置有专用于每个部件的功能的硬件。这样的配置可以根据实现时的技术水平适当地改变。

<2.结论>

根据本公开内容的实施方式，信息处理装置140包括获取采集声音数据的采集声音数据获取部142和使输出部至少输出采集声音数据的状态是否适合于如上所述的语音识别的输出控制器146。由于用户使用这样的配置能够通过识别采集声音数据的状态是否适合于语音识别来调整说话，因此可以提高针对采集声音数据的语音识别的准确度。

以上已参照附图描述了本公开内容的优选实施方式，而本公开内容不限于上述示例。本领域的技术人员可以在所附权利要求的范围内发现各种变型和修改，并且应当理解，它们将自然地落入本公开内容的技术范围内。

关于输出部130的显示形式的修改示例给出了以上描述，但是输出部130的显示形式不限于上述例子。输出部130可以是例如设置在除头戴式显示器之外的可穿戴终端(例如手表或眼镜)中的显示器。另外，输出部130可以是例如设置在车载导航系统中的显示器。另外，输出部130可以是例如在医疗领域中使用的显示器。

此外，可以创建用于使包括在计算机中的诸如CPU、ROM和RAM等的硬件执行与上述信息处理系统10的功能等同的功能的程序。此外，还可以提供其上记录有该程序的计算机可读记录介质。

此外，输出控制器146生成用于将显示内容显示在输出部130上的显示控制信息，并且将所生成的显示控制信息输出到输出部130，因此可以控制输出部130，使得输出部130对显示内容进行显示。显示控制信息的内容可以根据系统配置适当地改变。

具体地，用于实现信息处理装置140的程序可以是例如web应用。在这样的情况下，可以使用诸如超文本标记语言(HTML)、标准通用标记语言(SGML)和可扩展标记语言(XML)的标记语言来创建显示控制信息。

每个部件的位置不限于特定位置，只要执行上述信息处理系统10的操作即可。在一个具体示例中，图像输入部110、操作输入部115、声音采集部120、输出部130和信息处理装置140可以设置在经由网络连接的不同装置中。在这种情况下，信息处理装置140例如对应于诸如web服务器或云服务器的服务器，并且图像输入部110、操作输入部115、声音采集部120和输出部130可以对应于经由网络连接到服务器的客户端。

信息处理装置140中包括的所有部件可以不容置在同一装置中。例如，输入图像获取部141、采集声音数据获取部142、操作检测部143、识别控制器144、语音识别部145和输出控制器146的一部分可以存在于不同于信息处理装置140的装置中。例如，语音识别部145可以存在于服务器中，该服务器不同于包括输入图像获取部141、采集声音数据获取部142、操作检测部143、识别控制器144和输出控制器146的信息处理装置140。

此外，本说明书中描述的效果仅是说明性或示例性的效果，而不是限制性的。也就是说，利用或代替上述效果，根据本公开内容的技术可以实现对于本领域技术人员而言根据本说明书的描述清楚的其他效果。

另外，本技术还可以被配置如下。

(1)一种信息处理装置，包括：

采集声音数据获取部，其获取采集声音数据；以及

输出控制器，其使输出部至少输出所述采集声音数据的状态是否适合于语音识别。

(2)根据(1)所述的信息处理装置，

其中，所述输出控制器使所述输出部输出所述采集声音数据的量是否在预定的可允许范围内，以作为所述采集声音数据的状态是否适合于所述语音识别。

(3)根据(2)所述的信息处理装置，

其中，在所述采集声音数据的量小于所述可允许范围的下限时，所述输出控制器使所述输出部输出所述采集声音数据不适合于所述语音识别的状态的指示。

(4)根据(2)或(3)所述的信息处理装置，

其中，在所述采集声音数据的量大于所述可允许范围的上限时，所述输出控制器使所述输出部输出所述采集声音数据不适合于所述语音识别的状态的指示。

(5)根据(2)至(4)中任一项所述的信息处理装置，

其中，在所述采集声音数据的量大于所述可允许范围的下限并且所述采集声音数据的量小于所述可允许范围的上限时，所述输出控制器使所述输出部输出所述采集声音数据适合于所述语音识别的状态的指示。

(6)根据(2)至(5)中任一项所述的信息处理装置，

其中，所述输出控制器使所述输出部输出所述可允许范围的下限和上限中的至少一个。

(7)根据(1)至(6)中任一项所述的信息处理装置，

其中，所述输出控制器使所述输出部输出所述采集声音数据的量。

(8)根据(6)所述的信息处理装置，

其中，所述采集声音数据的量包括所述采集声音数据的时间长度。

(9)根据(6)所述的信息处理装置，

其中，所述采集声音数据的量包括从所述采集声音数据提取的音素的数量。

(10)根据(6)所述的信息处理装置，

其中，所述采集声音数据的量包括所述采集声音数据中的类语音部分的时间长度。

(11)根据(2)至(10)中任一项所述的信息处理装置，

其中，所述输出控制器更新所述可允许范围的下限和上限中的至少一个。

(12)根据(11)所述的信息处理装置，

其中，所述输出控制器基于噪声量来更新所述可允许范围的所述下限和所述上限中的至少一个。

(13)根据(12)所述的信息处理装置，

其中，所述输出控制器更新所述上限使得所述上限随着所述噪声量的增大而增大。

(14)根据(1)所述的信息处理装置，

其中，所述输出控制器使所述输出部输出所述采集声音数据中是否包括指示句子的开头或句子的结尾的预定表达，以作为所述采集声音数据的状态是否适合于所述语音识别。

(15)根据(14)所述的信息处理装置，

其中，在获得了所述语音识别的中间结果时，所述输出控制器基于所述中间结果中是否包括所述预定表达来确定所述采集声音数据中是否包括所述预定表达。

(16)根据(1)至(15)中任一项所述的信息处理装置，包括：

识别控制器，其使得进行针对所述采集声音数据的一部分或全部的语音识别。

(17)根据(16)所述的信息处理装置，

其中，所述识别控制器基于一个时刻来确定作为所述语音识别的目标的部分的终止，在该时刻处，所述采集声音数据中音量小于预定音量的时间段超过阈值。

(18)根据(17)所述的信息处理装置，

其中，当所述采集声音数据中包括指示句子的开头或句子的结尾的预定表达时，所述输出控制器更新所述阈值。

(19)一种信息处理方法，所述信息处理方法包括：

获取采集声音数据；以及

使输出部至少输出所述采集声音数据的状态是否适合于语音识别。

(20)一种使计算机用作信息处理装置的程序，所述信息处理装置包括：

采集声音数据获取部，其获取采集声音数据；以及

附图标记列表

10 信息处理系统

110 图像输入部

115 操作输入部

120 声音采集部

130 输出部

140 信息处理装置(控制器)

141 输入图像获取部

142 采集声音数据获取部

143 操作检测部

144 识别控制器

145 语音识别部

146 输出控制器

Claims

1.一种信息处理装置，包括：

采集声音数据获取部，其获取采集声音数据；以及

2.根据权利要求1所述的信息处理装置，

3.根据权利要求2所述的信息处理装置，

4.根据权利要求2所述的信息处理装置，

5.根据权利要求2所述的信息处理装置，

6.根据权利要求2所述的信息处理装置，

7.根据权利要求1所述的信息处理装置，

8.根据权利要求6所述的信息处理装置，

9.根据权利要求6所述的信息处理装置，

10.根据权利要求6所述的信息处理装置，

11.根据权利要求2所述的信息处理装置，

12.根据权利要求11所述的信息处理装置，

13.根据权利要求12所述的信息处理装置，

14.根据权利要求1所述的信息处理装置，

15.根据权利要求14所述的信息处理装置，

16.根据权利要求1所述的信息处理装置，包括：

17.根据权利要求16所述的信息处理装置，

18.根据权利要求17所述的信息处理装置，

19.一种信息处理方法，包括：

获取采集声音数据；以及

20.一种使计算机用作信息处理装置的程序，所述信息处理装置包括：

采集声音数据获取部，其获取采集声音数据；以及