CN106233246B

CN106233246B - 用户界面系统、用户界面控制装置和用户界面控制方法

Info

Publication number: CN106233246B
Application number: CN201480078112.7A
Authority: CN
Inventors: 平井正人
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-04-22
Filing date: 2014-04-22
Publication date: 2018-06-12
Anticipated expiration: 2034-04-22
Also published as: JP5968578B2; DE112014006614B4; CN106233246A; JPWO2015162638A1; US20170010859A1; DE112014006614T5; WO2015162638A1

Abstract

本发明目的在于减轻进行语音输入的用户的操作负担。为了实现该目的，本发明的用户界面系统具有：估计部(3)，其根据与当前状况相关的信息，估计用户的语音操作的意图；候选选择部(5)，其供用户从估计部(3)估计出的多个语音操作的候选中选择一个候选；引导输出部(7)，其针对用户选择出的候选，输出促使用户进行语音输入的引导；以及功能执行部(10)，其执行与用户针对引导的语音输入对应的功能。

Description

用户界面系统、用户界面控制装置和用户界面控制方法

技术领域

本发明涉及能够进行语音操作的用户界面系统和用户界面控制装置。

背景技术

通常，在具有能够进行语音操作的用户界面的设备中，准备一个语音操作用的按钮。按下语音操作用的按钮时，传来“滴声后请说话”的引导，用户进行发声(语音输入)。在发声时，以预先决定的步骤发出预先决定的发声关键字。此时，从设备传来语音引导，与设备进行几次对话，执行目标功能。在这种设备中，存在不记得发声关键字和/或步骤而无法进行语音操作的课题。此外，存在需要与设备进行多次对话、在完成操作之前花费时间的课题。

存在下述这样的用户界面：通过使多个按钮与和该按钮的功能相关联的语音识别关联起来，从而无需记住步骤，通过一次发声就能够执行目标功能(专利文献1)。

现有技术文献

专利文献

专利文献1：WO2013/015364号公报

发明内容

发明要解决的课题

可是，由于具有画面所显示的按钮的数量为语音操作的入口的数量这一制约，因此，存在无法排列数目繁多的语音操作的入口的课题。此外，在排列数目繁多的语音操作的入口的情况下，存在按钮的数量变得过多从而难以找到目标按钮的课题。

本发明是为了解决上述问题而完成的，其目的在于减轻进行语音输入的用户的操作负担。

用于解决课题的手段

本发明的用户界面系统具有：估计部，其根据与当前状况相关的信息，估计用户期望的语音操作；候选选择部，其供用户从估计部估计出的多个语音操作的候选中选择一个候选；引导输出部，其针对用户选择出的候选，输出促使用户进行语音输入的引导；以及功能执行部，其执行与用户针对引导的语音输入对应的功能，在估计出的多个语音操作的候选的似然度低的情况下，估计部将多个候选的上位概念的语音操作的候选作为估计结果输出至候选选择部，候选选择部提示上位概念的语音操作的候选。

本发明的用户界面控制装置具有：估计部，其根据与当前状况相关的信息，估计用户期望的语音操作；引导生成部，其针对根据用户的选择而从估计部估计出的多个语音操作的候选中确定的一个候选，生成促使用户进行语音输入的引导；语音识别部，其对用户针对引导的语音输入进行识别；以及功能确定部，其输出指示信息，以执行与识别出的语音输入对应的功能，在估计出的多个语音操作的候选的似然度低的情况下，估计部将多个候选的上位概念的语音操作的候选作为估计结果进行输出，引导生成部针对估计出的上位概念的语音操作的候选，生成促使用户进行语音输入的引导。

本发明的用户界面控制方法包括以下步骤：根据与当前状况相关的信息，估计用户期望的语音操作；针对根据用户的选择而从通过估计步骤估计出的多个语音操作的候选中确定的一个候选，生成促使用户进行语音输入的引导；对用户针对引导的语音输入进行识别；输出指示信息以执行与识别出的语音输入对应的功能；在通过估计步骤估计出的多个语音操作的候选的似然度低的情况下，将多个候选的上位概念的语音操作的候选作为估计结果进行输出；以及提示上位概念的语音操作的候选。

本发明的用户界面控制程序使计算机执行以下处理：估计处理，根据与当前状况相关的信息，估计用户期望的语音操作；引导生成处理，针对根据用户的选择而从通过估计处理估计出的多个语音操作的候选中确定的一个候选，生成促使用户进行语音输入的引导；语音识别处理，对用户针对引导的语音输入进行识别；输出指示信息以执行与识别出的语音输入对应的功能的处理；在估计出的多个语音操作的候选的似然度低的情况下将多个候选的上位概念的语音操作的候选作为估计结果进行输出的处理；以及提示上位概念的语音操作的候选的处理。

发明的效果

根据本发明，根据情况提供符合用户意图的语音操作的入口，由此，能够减轻进行语音输入的用户的操作负担。

附图说明

图1是示出实施方式1中的用户界面系统的结构的图。

图2是示出实施方式1中的用户界面系统的动作的流程图。

图3是实施方式1中的语音操作候选的显示例。

图4是实施方式1中的用户界面系统的操作例。

图5是示出实施方式2中的用户界面系统的结构的图。

图6是示出实施方式2中的用户界面系统的动作的流程图。

图7是实施方式2中的用户界面系统的操作例。

图8是示出实施方式2中的用户界面系统的另一结构的图。

图9是示出实施方式3中的用户界面系统的结构的图。

图10是示出实施方式3中的关键字知识的示例的图。

图11是示出实施方式3中的用户界面系统的动作的流程图。

图12是实施方式3中的用户界面系统的操作例。

图13是示出实施方式4中的用户界面系统的结构的图。

图14是示出实施方式4中的用户界面系统的动作的流程图。

图15是在实施方式4中估计的语音操作的候选和似然度的示例。

图16是实施方式4中的语音操作候选的显示例。

图17是在实施方式4中估计的语音操作的候选和似然度的示例。

图18是实施方式4中的语音操作候选的显示例。

图19是示出实施方式1～4中的用户界面控制装置的硬件结构例的图。

具体实施方式

实施方式1.

图1是示出本发明的实施方式1中的用户界面系统的图。用户界面系统1具有用户界面控制装置2、候选选择部5、引导输出部7和功能执行部10。候选选择部5、引导输出部7和功能执行部10由用户界面控制装置2控制。此外，用户界面控制装置2具有估计部3、候选确定部4、引导生成部6、语音识别部8和功能确定部9。以下，以将用户界面系统用于汽车驾驶的情况为例进行说明。

估计部3接收与当前状况相关的信息，估计在当前时刻用户要进行的语音操作的候选、即符合用户意图的语音操作的候选。与当前状况相关的信息例如是外部环境信息和历史信息。估计部3可以使用双方的信息，也可以使用任意一方的信息。外部环境信息是本车的当前车速及制动器的状态等车辆信息、气温、当前时刻、当前位置等信息。使用CAN(Controller Area Network)等取得车辆信息。此外，使用温度传感器等取得气温，利用从GPS(Global Positioning System)卫星发送的GPS信号取得当前位置。历史信息是以前用户进行了目的地设定的设施、用户操作的汽车导航装置、音频装置、空调、电话机等设备的设定信息、用户利用后述的候选选择部5选择的内容、用户进行语音输入的内容以及由后述的功能执行部10执行的功能等，与各自的发生日期以及位置信息等一起存储。因此，估计部3使用历史信息中的、与当前时刻或当前位置相关的信息进行估计。这样，即使是以前的信息，影响到当前状况的信息也包含在与当前状况相关的信息中。历史信息可以存储于用户界面控制装置内的存储部，也可以存储于服务器的存储部。

候选确定部4从估计部3所估计的多个语音操作候选中提取可由候选选择部5提示的数量的候选，将所提取的候选输出至候选选择部5。另外，估计部3也可以对于所有的功能赋予符合用户意图的概率。在该情况下，候选确定部4只要按照概率从高到低的顺序提取可由候选选择部5提示的数量的候选即可。此外，估计部3也可以将提示的候选直接输出至候选选择部5。候选选择部5将从候选确定部4接收到的语音操作的候选提示给用户，使得用户能够选择期望的语音操作的对象。即，候选选择部5作为语音操作的入口发挥功能。以下，假设提示部5是触摸面板显示器而进行说明。例如，在候选选择部5可显示的候选的数量为最多三个的情况下，按照由估计部3估计出的候选的似然度从高到低的顺序显示三个。如果由估计部3估计出的候选为一个，则将该一个候选显示于候选选择部5。图3是在触摸面板显示器上显示三个语音操作的候选的示例。在图3的(1)中，显示三个候选“打电话”、“设定目的地”、“听音乐”，在图3的(2)中，显示三个候选“吃饭”、“听音乐”、“去游乐园”。在图3的示例中显示三个候选，但所显示的候选的数量、显示步骤和布局可以是任意的。

用户从显示的候选中选择想进行语音输入的候选。关于选择的方法，触摸显示在触摸面板显示器上的候选而进行选择即可。在用户选择了语音操作的候选后，候选选择部5将所选择的触摸面板显示器上的坐标位置传送给候选确定部4，候选确定部4将坐标位置与语音操作的候选对应起来，确定进行语音操作的对象。另外，也可以利用候选选择部5确定语音操作的对象，将所选择的语音操作的候选的信息直接输出至引导生成部6。所确定的语音操作对象与时刻信息以及位置信息等一起作为历史信息而蓄积，用于将来的语音操作的候选估计。

引导生成部6根据由候选选择部5确定的语音操作的对象，生成促使用户进行语音输入的引导。引导优选为具体的提问形式，用户通过回答该提问能够进行语音输入。在生成引导时，使用存储有按照候选选择部5显示的语音操作的每个候选而预先决定的语音引导、显示引导或效果音的引导辞典。引导辞典可以存储于用户界面控制装置内的存储部，也可以存储于服务器的存储部。

引导输出部7输出由引导生成部6生成的引导。引导输出部7可以是以语音的形式输出引导的扬声器，也可以是以文字的形式输出引导的显示部。或者，也可以使用扬声器和显示部双方输出引导。在以文字的形式输出引导的情况下，也可以将作为候选选择部5的触摸面板显示器用作引导输出部7。例如，如图4的(1)所示，在选择了“打电话”作为语音操作的对象的情况下，输出向导语音引导“给谁打电话？”、或在画面上显示“给谁打电话？”。用户针对从引导输出部7输出的引导进行语音输入。例如，针对“给谁打电话？”这样的引导，说出“山田”。

语音识别部8对用户针对引导输出部7的引导而说出的内容进行语音识别。此时，语音识别部8使用语音识别辞典进行语音识别。语音识别辞典可以是一个，也可以根据由候选确定部4确定的语音操作的对象切换辞典。通过对辞典进行切换或限定，提高了语音识别率。在对辞典进行切换或限定的情况下，与由候选确定部4确定的语音操作的对象相关的信息不仅输入至引导生成部6，还输入至语音识别部8。语音识别辞典可以存储于用户界面控制装置内的存储部，也可以存储于服务器的存储部。

功能确定部9用于确定与由语音识别部8识别出的语音输入对应的功能，将指示信息发送给功能执行部10以执行该功能。功能执行部10是指车内的汽车导航装置、音频装置、空调、电话机等设备，功能是指这些设备所执行的某些功能。例如，在语音识别部8识别出“山田”这样的用户语音输入的情况下，将指示信息发送给作为功能执行部10之一的电话机，以便执行“给山田打电话”的功能。所执行的功能与时刻信息以及位置信息等一起作为历史信息而蓄积，用于将来的语音操作的候选估计。

图2是对实施方式1中的用户界面系统的动作进行说明的流程图。在流程图中，至少ST101和ST105的动作是用户界面控制装置的动作(即，用户界面控制程序的处理步骤)。使用图1～图3，对用户界面控制装置和用户界面系统的动作进行说明。

估计部3使用与当前状况相关的信息(外部环境信息、操作历史等)，估计用户要执行的语音操作即用户想进行的语音操作的候选(ST101)。在例如将用户界面系统用作车载装置的情况下，可以从发动机起动开始例如按照每几秒定期地进行该估计的动作，也可以在外部环境变化的时机进行该估计的动作。作为估计的语音操作，例如有以下的示例。对于在结束工作回家时经常从公司的停车场打电话的人而言，在当前所在地为“公司的停车场”、当前时刻为“晚上”这样的状况下，估计出“打电话”的语音操作。估计部3也可以估计多个语音操作的候选。例如，对于经常在回家时打电话、或设定目的地、或听广播的人而言，按照概率从高到低的顺序估计“打电话”、“设定目的地”、“听音乐”这样的功能。

候选选择部5从候选确定部4或估计部3取得提示的语音操作的候选的信息，进行提示(ST102)。具体而言，例如，显示在触摸面板显示器上。图3是显示三个功能候选的示例。图3的(1)是估计出上述的“打电话”、“设定目的地”、“听音乐”的功能的情况下的显示例。此外，图3的(2)例如是在“节假日”、“上午11点”的状况下估计出“吃饭”、“听音乐”、“去游乐园”这些语音操作的候选的情况下的显示例。

接下来，候选确定部4或候选选择部5判断用户在所显示的语音操作的候选中选择的候选是什么，确定语音操作的对象(ST103)。

接下来，引导生成部6根据候选选择部4确定的语音操作的对象，生成促使用户进行语音输入的引导。然后，引导输出部7输出由引导生成部6生成的引导(ST104)。图4示出引导输出的示例。例如，如图4的(1)所示，在ST103中确定了“打电话”这样的语音操作作为用户要进行的语音操作的情况下，输出“给谁打电话？”这样的基于语音的引导或基于显示的引导。或者，如图4的(2)所示，在确定了“设定目的地”这样的语音操作的情况下，输出“去哪里？”这样的引导。这样，具体地选择语音操作的对象，因此，引导输出部7能够对用户提供具体的引导。

如图4的(1)所示，针对“给谁打电话？”这样的引导，用户例如以语音的形式输入“山田”。此外，如图4的(2)所示，针对“去哪里？”这样的引导，用户例如以语音的形式输入“东京站”。引导的内容优选是这样的提问：用户针对该引导的答复直接关系到功能的执行。不是“滴声后请说话”这种粗略的引导，而是具体地提问“给谁打电话？”、“去哪里？”，因此，用户容易知道说什么即可，容易进行与所选择的语音操作相关的语音输入。

语音识别部8使用语音识别辞典进行语音识别(ST105)。此时，也可以将所使用的语音识别辞典切换为与在ST103中确定的语音操作相关的辞典。例如，在选择了“打电话”这样的语音操作的情况下，也可以切换为存储有登记了电话号码的人的名字和设施的名称等与“电话”相关的语言的辞典。

功能确定部9确定与识别出的语音对应的功能，将指示信号发送给功能执行部10以执行该功能。然后，功能执行部10根据指示信息，执行功能(ST106)。例如，在图4的(1)的示例中，当识别出“山田”这样的语音时，确定“给山田打电话”这样的功能，利用作为功能执行部10之一的电话机给电话本中登记的山田打电话。此外，在图4的(2)的示例中，当识别出“东京站”这样的语音时，确定“检索前往东京站的路径”这样的功能，利用作为功能执行部10之一的汽车导航装置检索前往东京站的路径。另外，在执行给山田打电话的功能时，也可以利用“给山田打电话”的语音或显示，向用户通知功能的执行。

在上述的说明中，候选选择部5是触摸面板显示器，将估计出的语音操作的候选通知给用户的提示部和用于供用户选择一个候选的输入部是一体的，但候选选择部5的结构不限于此。如以下那样，将估计出的语音操作的候选通知给用户的提示部和用于供用户选择一个候选的输入部也可以构成为分体。例如，也可以利用控制杆等对显示器上显示的候选进行光标操作来进行选择。在该情况下，作为提示部的显示器和作为输入部的控制杆等构成候选选择部5。此外，也可以在方向盘等上设置与显示器上显示的候选对应的硬按键，通过按压该硬按键进行选择。该情况下，作为提示部的显示器和作为输入部的硬按键构成候选选择部5。此外，也可以利用手势操作来选择所显示的候选。该情况下，用于检测手势操作的照相机等作为输入部而包含在候选选择部5中。而且，也可以以语音的形式从扬声器输出所估计的语音操作的候选，使用户通过按钮操作、控制杆操作或语音操作进行选择。在该情况下，作为提示部的扬声器和作为输入部的硬按键、控制杆或麦克风构成候选选择部5。如果引导输出部7是扬声器，则能够将该扬声器用作候选选择部5的提示部。

此外，在用户选择语音操作的候选之后注意到错误操作的情况下，还可以从所提示的多个候选中重新选择。例如，对提示了图4所示的三个候选的情况下的示例进行说明。在选择“目的地设定”的功能并输出“去哪里？”的语音引导之后用户注意到错误操作的情况下，可以从相同的三个候选中重新选择“听音乐”。针对第二次选择，引导生成部6生成“听什么？”这样的引导。针对从引导输出部7输出的“听什么？”这样的引导，用户进行关于音乐再现的语音操作。在以下的实施方式中，也同样可重新选择语音操作的候选。

如上所述，根据实施方式1中的用户界面系统和用户界面控制装置，能够根据状况提供符合用户意图的语音操作的候选即语音操作的入口，减轻进行语音输入的用户的操作负荷。此外，能够准备与细分化的目的对应的多种语音操作的候选，因此，能够广泛地应对用户的各种目的。

实施方式2.

在上述实施方式1中，说明了利用用户对从引导输出部7输出的引导的一次语音输入来执行用户期望的功能的示例。在实施方式2中说明以下的用户界面控制装置和用户界面系统：在语音识别部8的识别结果为多个的情况、或存在多个与识别出的语音对应的功能的情况等、无法通过用户的一次语音输入就确定要执行的功能的情况下能够通过简单的操作来执行功能。

图5是示出本发明的实施方式2中的用户界面系统的图。实施方式2中的用户界面控制装置2具有识别判断部11，识别判断部11判断作为语音识别部8的语音识别结果、待执行的功能是否能够确定为一个。此外，实施方式2中的用户界面系统1具有功能候选选择部12，功能候选选择部12将作为语音识别的结果而提取出的多个功能候选提示给用户，使用户选择。以下，假设功能候选选择部12是触摸面板显示器进行说明。其它结构与图1所示的实施方式1的结构相同。

关于本实施方式，主要对与实施方式1不同的方面进行说明。识别判断部11判断作为语音识别的结果、所识别的语音输入是否与由功能执行部10执行的一个功能对应、即是否存在多个与所识别的语音输入对应的功能。例如，判断所识别的语音输入是一个还是多个。此外，在识别出的语音输入是一个的情况下，判断与该语音输入对应的功能是一个还是多个。

在识别出的语音输入是一个且与该语音输入对应的功能是一个的情况下，将该识别判断的结果输出至功能确定部9，功能确定部9确定与识别出的语音输入对应的功能。该情况下的动作与上述实施方式1相同。

另一方面，在语音识别的结果是多个的情况下，识别判断部11将该识别结果输出至功能候选选择部12。此外，即使在语音识别的结果是一个的情况下，在存在多个与识别出的语音输入对应的功能的情况下，也将该判断结果(与各功能对应的候选)发送给功能候选选择部12。功能候选选择部12显示由识别判断部11判断出的多个候选。用户从所显示的多个候选中选择出一个后，所选择的候选被发送给功能确定部9。关于选择的方法，触摸触摸面板显示器上所显示的候选进行选择即可。在该情况下，候选选择部5具有下述语音操作的入口的功能：通过由用户触摸所显示的候选来受理语音输入。功能候选选择部12具有用户的触摸操作直接关系到功能的执行的手操作输入部的功能。功能确定部9确定与用户选择出的候选对应的功能，将指示信息发送给功能执行部10，以执行该功能。

例如，说明如图4的(1)所示那样用户针对“给谁打电话？”这样的引导以语音的形式输入了例如“山田”的情况。在语音识别部8进行识别的结果是例如提取出“山田”、“山名”、“ヤマサ”这三个候选的情况下，无法确定要执行的一个功能。因此，识别判断部11将指示信号发送给功能候选选择部12，以使功能候选选择部12显示上述的三个候选。此外，即使在语音识别部8识别出“山田”的情况下，也存在电话本中登记有多个“山田”、例如“山田太郎”、“山田今日子”、“山田厚”而无法限定为一个人的情况。也就是这样的情况：作为与“山田”对应的功能，存在“给山田太郎打电话”“给山田今日子打电话”“给山田厚打电话”这些多个功能。在这种情况下，识别判断部11将指示信号发送给功能候选选择部12，以使功能候选选择部12显示“山田太郎”、“山田今日子”、“山田厚”等候选。

当通过用户的手操作而从功能候选选择部12所显示的多个候选中选择出一个时，功能确定部9确定与所选择的候选对应的功能，对功能执行部10指示功能的执行。另外，也可以是，功能候选选择部12确定要执行的功能，从功能候选选择部12直接将指示信息输出至功能执行部10。例如，当选择了“山田太郎”时，给山田太郎先生打电话。

图6是实施方式2中的用户界面系统的流程图。在流程图中，至少ST201、ST205和ST206的动作是用户界面控制装置的动作(即，用户界面控制程序的处理步骤)。在图6中，ST201～ST204与用于说明实施方式1的图2的ST101～ST104相同，因此，省略说明。

在ST205中，语音识别部8使用语音识别辞典进行语音识别。识别判断部11判断识别出的语音输入是否与由功能执行部10执行的一个功能对应(ST206)。在识别出的语音输入是一个且与该语音输入对应的功能是一个的情况下，识别判断部11将该识别判断的结果发送给功能确定部9，功能确定部9确定与识别出的语音输入对应的功能。功能执行部10根据由功能确定部9确定的功能来执行功能(ST207)。

在识别判断部11判断为存在语音识别部8的语音输入的多个识别结果的情况下、或者判断为存在多个与识别出的一个语音输入对应的功能的情况下，由功能候选选择部12提示与多个功能对应的候选(ST208)。具体而言，在触摸面板显示器上进行显示。当通过用户的手操作而从功能候选选择部12所显示的候选中选择了一个候选时，功能确定部9确定要执行的功能(ST209)，功能执行部10根据来自功能确定部9的指示来执行功能(ST207)。另外，如上所述，也可以是，功能候选选择部12确定执行的功能，从功能候选选择部12直接向功能执行部10输出指示信息。通过同时使用语音操作和手操作，相比于在用户与设备之间重复只有语音的对话的情况，能够更快速且可靠地执行目标功能。

例如，如图7所示，在用户针对“给谁打电话？”这样的引导以语音的形式输入了“山田”的情况下，当语音识别的结果是可确定为一个功能时，执行“给山田打电话”这样的功能，输出“给山田打电话”这样的显示和语音。此外，在语音识别的结果是提取出“山田”、“山名”、“ヤマサ”这三个候选的情况下，显示该三个候选。当用户选择了“山田”时，执行“给山田打电话”这样的功能，输出“给山田打电话”这样的显示和语音。

在上述说明中，功能候选选择部12是触摸面板显示器，向用户通知功能的候选的提示部和用于供用户选择一个候选的输入部是一体的，但功能候选选择部12的结构不限于此。与候选选择部5同样，也可以是，向用户通知功能的候选的提示部和用于供用户选择一个候选的输入部构成为分体。例如，提示部不限于显示器，也可以是扬声器，输入部也可以是控制杆、硬按键或麦克风。

此外，在使用图5的上述说明中，分别设置了作为语音操作入口的候选选择部5、引导输出部7以及用于最终选择用户想执行的功能的功能候选选择部12，但也可以形成为一个显示部(触摸面板显示器)。图8是使一个显示部13具有语音操作的入口的功能、引导输出的功能、用于最终选择功能的手操作输入部的功能的情况下的结构图。即，显示部13相当于候选选择部、引导输出部和功能候选输出部。在使用一个显示部13的情况下，通过示出所显示的项目是哪种操作的对象，提高了用户的使用方便性。例如，在作为语音操作的入口发挥功能的情况下，在显示项目之前显示麦克风的图标。在图3和图4中的三个候选显示是作为语音操作的入口发挥功能的情况下的显示例。此外，图7中的三个候选的显示是用于不具有麦克风图标的手操作输入的显示例。

此外，也可以将引导输出部作为扬声器并由一个显示部(触摸面板显示器)构成候选选择部5和功能候选选择部12。而且，也可以用一个提示部和一个输入部构成候选选择部5和功能候选选择部12。在该情况下，利用一个提示部提示语音操作的候选和要执行的功能的候选，用户使用一个输入部选择语音操作的候选，选择要执行的功能。

此外，功能候选选择部12构成为通过用户的手操作来选择功能的候选，但也可以构成为，通过语音操作从所显示的功能的候选或以语音的方式输出的功能的候选中选择用户期望的功能。例如，也可以构成为，在提示了“山田太郎”、“山田今日子”、“山田厚”这些功能的候选的情况下，以语音的方式输入“山田太郎”、或使“1”、“2”、“3”等号码与各个候选对应起来，以语音的方式输入“1”，由此，选择“山田太郎”。

如上所述，根据实施方式2中的用户界面系统和用户界面控制装置，即使在通过一次语音输入无法确定目标功能的情况下，通过提示功能的候选，使用户能够进行选择，从而能够通过简单的操作执行目标功能。

实施方式3.

在用户说出的关键字是广泛含义的关键字的情况下，无法确定功能且无法执行功能，或者由于显示多个功能候选而导致选择花费时间。例如，在用户针对“去哪里？”这一问题说出“游乐园”的情况下，属于“游乐园”的设施有很多，因此，无法确定。此外，当将很多游乐园的设施名作为候选来显示时，用户进行选择花费时间。因此，本实施方式的特征在于，在用户说出的关键字是广泛含义的语言的情况下，能够利用意图估计技术来估计用户想进行的语音操作的候选，将估计的结果作为语音操作的候选、即语音操作的入口而具体地进行提示，在下一次的发话中执行目标功能。

关于本实施方式，主要说明与上述实施方式2的不同之处。图9是本实施方式3中的用户界面系统的结构图。与上述实施方式2的主要不同之处为：识别判断部11使用关键字知识14，根据识别判断部11的判断结果，再次使用估计部3来估计语音操作的候选。以下，假设提示部15是触摸面板显示器而进行说明。

识别判断部11使用关键字知识14，判断由语音识别部8识别出的关键字是上位层次的关键字还是下位层次的关键字。关键字知识14中例如存储有图10的表那样的语言。例如，作为上位层次的关键字，有“主题公园”，作为主题公园的下位层次的关键字，关联有“游乐园”、“动物园”、“水族馆”等。此外，作为上位层次的关键字有“吃饭”、“饭”、“肚子饿了”，作为它们的下位层次的关键字关联有“乌冬面”、“中国菜”、“家庭餐馆”等。

例如，在识别判断部11对于第一次语音输入识别为“主题公园”的情况下，“主题公园”是上位层次的语言，因此，将作为与“主题公园”对应的下位层次的关键字的“游乐园”、“动物园”、“水族馆”、“博物馆”等语言发送给估计部3。估计部3利用外部环境信息和历史信息，根据从识别判断部11接收到的“游乐园”、“动物园”、“水族馆”、“博物馆”等语言来估计与用户想执行的功能对应的语言。候选选择部15显示通过估计而得到的语言的候选。

另一方面，在识别判断部11判断为由语音识别部8识别出的关键字是关系到最终的执行功能的下位层次的语言的情况下，该语言被发送给功能确定部9，由功能执行部10执行与该语言对应的功能。

图11是示出实施方式3中的用户界面系统的动作的流程图。在流程图中，至少ST301、ST305、ST306和ST308的动作是用户界面控制装置的动作(即，用户界面控制程序的处理步骤)。在ST301～ST304中，根据状况来估计用户想进行的语音操作即符合用户意图的语音操作，提示估计出的语音操作的候选，进行与用户选择出的语音操作相关的引导输出。ST301～ST304的动作与上述实施方式1、2相同。此外，图12是示出本实施方式3中的显示例的图。以下，使用图9～图12，主要说明与实施方式1、2不同的ST305之后的动作、即对用户针对引导输出的发声进行语音识别的动作之后的动作。

首先，如图12所示，假设在ST301中被估计出而在ST302中由候选选择部15显示的语音操作的候选为“打电话”、“设定目的地”、“听音乐”这三个。用户选择了“设定目的地”时，确定语音操作的对象(ST303)，引导输出部7通过语音向用户提问“去哪里？”(ST304)。在用户针对该引导以语音的形式输入“主题公园”后，语音识别部8进行语音识别(ST305)。识别判断部11从语音识别部8接收识别结果，参照关键字知识14，判断识别结果是上位层次的关键字还是下位层次的关键字(ST306)。在判断为上位层次的关键字的情况下，前进至ST308。另一方面，在判断为下位层次的关键字的情况下，前进至ST307。

例如，假设语音识别部8识别出“主题公园”。如图10所示，“主题公园”是上位层次的关键字，因此，识别判断部11将与“主题公园”对应的下位层次的关键字“游乐园”、“动物园”、“水族馆”、“博物馆”等发送给估计部3。估计部3使用外部环境信息和历史信息，根据从识别判断部11接收到的“游乐园”、“动物园”、“水族馆”、“博物馆”等下位层次的多个关键字来估计用户想进行的语音操作的候选(ST308)。另外，也可以利用外部环境信息和历史信息中的任意一方。

候选选择部15提示估计出的语音操作的候选(ST309)。例如，如图12所示，将“去动物园”、“去水族馆”、“去游乐园”这三个项目作为语音操作的入口进行显示。候选确定部4根据用户的选择，从提示出的语音操作候选中确定进行语音操作的对象(ST310)。另外，也可以由候选选择部15确定语音操作的对象，将所选择的语音操作的候选的信息直接输出至引导生成部6。接下来，引导生成部6生成与确定的语音操作的对象对应的引导，引导输出部7输出引导。例如，在判断为用户根据所提示的项目选择了“去游乐园”的情况下，通过语音输出“去哪个游乐园？”的引导(ST311)。语音识别部8对用户针对该引导的发声进行识别(ST305)。这样，能够再次估计符合用户意图的语音操作的候选并限定候选，更具体地，能够对用户想做的事情进行提问，因此，用户容易进行语音输入，无需进行好几次语音输入，就能执行目标功能。

如果是可执行语音识别部8识别出的结果的下位层次的关键字，则执行与该关键字对应的功能(ST307)。例如，在用户针对“去哪个游乐园？”这样的引导而说出“日本游乐园”的情况下，利用作为功能执行部10的汽车导航装置，执行对前往“日本游乐园”的路径进行检索等的功能。

在ST309中候选确定部4确定的语音操作的对象以及在ST307中由功能执行部10执行的功能与时刻信息以及位置信息等一起作为历史信息而蓄积在数据库(未图示)中，用于将来的语音操作的候选估计。

在图11的流程图中进行了省略，虽然由语音识别部8识别出的关键字是下位层次的语言，但在识别判断部11判断为不会关系到最终的执行功能的情况下，也可以与上述实施方式2同样，候选选择部15显示用于使用户选择最终的执行功能的功能的候选，通过用户的选择来确定功能(图6的ST208、ST209)。例如，在具有多个与“日本游乐园”相似的名称的游乐园且语音识别部8无法限定为一个候选的情况下，或者在判断为具有多个与识别出的一个候选对应的功能例如路径的检索及停车场的检索的情况下，候选选择部15显示关系到最终功能的候选。然后，通过用户的操作选择一个功能的候选，由此，确定要执行的功能。

在图9中，构成为利用一个候选选择部15进行语音操作候选的选择和功能的候选的选择，但也可以是这样的结构：如图5那样，分别设置用于选择语音操作候选的候选选择部5和用于在语音输入之后选择功能的候选的功能候选选择部12。此外，如图8那样，也可以使一个显示部13具有语音操作的入口的功能、手操作输入部的功能以及引导输出的功能。

此外，在上述的说明中，候选选择部15是触摸面板显示器，向用户通知估计出的语音操作的候选的提示部和用于供用户选择一个候选的输入部是一体的，但候选选择部15的结构不限于此。如在实施方式1中说明的那样，也可以是，向用户通知估计出的语音操作的候选的提示部和用于供用户选择一个候选的输入部构成为分体。例如，提示部不限于显示器，也可以是扬声器，输入部也可以是控制杆、硬按键或麦克风。

此外，在上述的说明中，关键字知识14存储于用户界面控制装置内，但也可以存储于服务器的存储部中。

如上所述，根据实施方式3中的用户界面系统和用户界面控制装置，即使用户语音输入的关键字是广泛含义的关键字，通过再次估计符合用户意图的语音操作的候选并限定候选，提示给用户，能够减轻进行语音输入的用户的操作负担。

实施方式4.

在上述各实施方式中，构成为将估计部3估计出的语音操作的候选提示给用户，但在估计部3估计出的语音操作的候选的似然度都较低的情况下，会提示与用户意图一致的概率较低的候选。因此，在本实施方式4中，在估计部3确定的各候选的似然度较低的情况下，进行上位概念化而进行提示。

关于本实施方式，主要说明与上述实施方式1的不同之处。图13是本实施方式4中的用户界面系统的结构图。与上述实施方式1之间的主要不同之处为估计部3使用关键字知识14。其他结构与实施方式1中的结构相同。关键字知识14与上述实施方式3中的关键字知识14相同。另外，如图1所示，在以下的说明中，假设实施方式1中的估计部3使用关键字知识14而进行说明，但也可以构成为实施方式2和实施方式3中的估计部3(图5、8、9中的估计部3)使用关键字知识14。

估计部3接收外部环境信息、历史信息等与当前状况相关的信息，估计在当前时刻用户要进行的语音操作的候选。在通过估计而提取的各候选的似然度较低的情况下，如果它们的上位层次的语音操作的候选的似然度较高，则估计部3将其上位层次的语音操作的候选发送给候选确定部4。

图14是实施方式4中的用户界面系统的流程图。在流程图中，至少ST401～ST403、ST406、ST408和ST409的动作是用户界面控制装置的动作(即，用户界面控制程序的处理步骤)。此外，图15～图18是估计的语音操作的候选的示例。使用图13～图18以及示出关键字知识14的图10，对实施方式4的动作进行说明。

估计部3使用与当前状况相关的信息(外部环境信息、操作历史等)，估计用户要进行的语音操作的候选(ST401)。接下来，估计部3提取估计出的各候选的似然度(ST402)。如果各候选的似然度较高，则前进至ST404，候选确定部4判断用户从候选选择部5提示的语音操作的候选中选择的候选是什么，确定语音操作的对象。另外，也可以是，候选选择部5确定语音操作的对象，将所选择的语音操作的候选的信息直接输出至引导生成部6。引导输出部7根据所确定的语音操作的对象，输出促使用户进行语音输入的引导(ST405)。语音识别部8对用户针对引导而输入的语音进行识别(ST406)，功能执行部10执行与识别出的语音对应的功能(ST407)。

另一方面，在ST403中估计部3判断为所估计的各候选的似然度较低的情况下，前进至ST408。例如是估计出图15所示的候选的情况。图15是按照各候选的似然度从高到低的顺序进行排列的表。“去吃中国菜”这样的候选的似然度为15％，“去吃意大利菜”这样的候选的似然度为14％，“打电话”这样的候选的似然度为13％，各候选的似然度较低，因此，例如，即使如图16所示那样按照似然度从高到低的顺序显示这些候选，与用户想进行语音操作的情况一致的概率也较低。

因此，在本实施方式4中，计算估计出的各候选的上位层次的语音操作的似然度。作为计算方法，例如对属于相同上位层次的语音操作的下位层次的候选的似然度进行合计。例如，如图10所示，“中国菜”、“意大利菜”、“法国菜”、“家庭餐馆”、“咖喱”、“烤肉”这样的候选的上位层次为“吃饭”，在对下位层次的候选的似然度进行合计时，作为上位层次的语音操作的候选的“吃饭”的似然度为67％。根据该计算结果，估计部3对包含上位层次的语音操作的候选进行估计(ST409)。在上述的示例中，如图17所示，估计部3按照似然度从高到低的顺序，估计为“去吃饭”(似然度67％)、“打电话”(似然度13％)、“听音乐”(10％)。例如，如图18所示，候选选择部5显示该估计结果，根据用户的选择，由候选确定部4或候选选择部5确定语音操作的对象(ST404)。关于ST405之后的动作，与上述的各候选的似然度较高的情况下的动作相同，因此，省略说明。

另外，在上述的说明中，关键字知识14存储于用户界面控制装置内，但也可以存储于服务器的存储部中。

如上所述，根据该实施方式4中的用户界面系统和用户界面控制装置，提示与用户意图一致的概率较高的上位概念的语音操作的候选，因此，能够更可靠地进行语音输入。

图19是示出实施方式1～4中的用户界面控制装置2的硬件结构的一例的图。用户界面控制装置2是计算机，具有存储装置20、处理装置30、输入装置40、输出装置50这些硬件。硬件由用户界面控制装置2的各部(估计部3、候选确定部4、引导生成部6、语音识别部8、功能确定部9和识别判断部11)使用。

存储装置20例如是ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)。能够通过存储装置20实现服务器的存储部和用户界面控制装置2的存储部。存储装置20中存储有程序21和文件22。程序21中包含用于执行各部的处理的程序。文件22中包含利用各部进行输入、输出、运算等的数据、信息、信号等。此外，关键字知识14也包含在文件22中。此外，历史信息、引导辞典或语音识别辞典也可以包含在文件22中。

处理装置30例如是CPU(Central Processing Unit)。处理装置30从存储装置20读出程序21，并执行程序21。能够利用处理装置30实现用户界面控制装置2的各部的动作。

用户界面控制装置2的各部利用输入装置40进行数据、信息、信号等的输入(接收)。此外，用户界面控制装置2的各部利用输出装置50进行数据、信息、信号等的输出(发送)。

标号说明

1：用户界面系统；2：用户界面控制装置；3：估计部；4：候选确定部；5：候选选择部；6：引导生成部；7：引导输出部；8：语音识别部；9：功能确定部；10：功能执行部；11：识别判断部；12：功能候选选择部；13：显示部；14：关键字知识；15：候选选择部；20：存储装置；21：程序；22：文件；30：处理装置；40：输入装置；50：输出装置。

Claims

1.一种用户界面系统，其具有：

估计部，其根据与当前状况相关的信息，估计用户期望的语音操作的候选，并且提取估计出的各候选的似然度；

候选选择部，其供用户从所述估计部估计出的多个语音操作的候选中选择一个候选；

引导输出部，其针对用户选择出的所述候选，输出促使用户进行语音输入的引导；以及

功能执行部，其执行与用户针对所述引导的语音输入对应的功能，

在估计出的多个语音操作的候选的似然度低的情况下，所述估计部计算所述多个候选的上位概念的语音操作的候选的似然度，并且按照似然度从高到低的顺序对包括所述上位概念的语音操作的候选的多个候选进行估计，将估计出的多个候选作为估计结果输出至所述候选选择部，

所述候选选择部向用户提示所述估计结果所示的候选。

2.根据权利要求1所述的用户界面系统，其特征在于，

在具有多个与所述用户的语音输入对应的功能的候选的情况下，提示所述多个功能的候选，以使得用户选择一个功能的候选。

3.根据权利要求1所述的用户界面系统，其特征在于，

在所述用户的语音输入为上位概念的语言的情况下，所述估计部根据与当前状况相关的信息，估计所述上位概念的语言中包含的下位概念的语音操作的候选，

所述候选选择部提示所述估计部估计出的下位概念的语音操作的候选。

4.一种用户界面控制装置，其具有：

引导生成部，其针对根据用户的选择而从所述估计部估计出的多个语音操作的候选中确定的一个候选，生成促使用户进行语音输入的引导；

语音识别部，其对用户针对所述引导的语音输入进行识别；以及

功能确定部，其输出指示信息，以执行与识别出的语音输入对应的功能，

在估计出的多个语音操作的候选的似然度低的情况下，所述估计部计算所述多个候选的上位概念的语音操作的候选的似然度，并且按照似然度从高到低的顺序对包括所述上位概念的语音操作的候选的多个候选进行估计，将估计出的多个候选作为估计结果进行输出，

所述引导生成部针对所述估计结果所示的候选，生成促使用户进行语音输入的引导。

5.根据权利要求4所述的用户界面控制装置，其特征在于，

所述用户界面控制装置还具有识别判断部，该识别判断部判断是否存在多个与所述语音识别部识别出的用户的语音输入对应的功能的候选，在判断为存在多个的情况下，输出所述判断结果，以向用户提示所述多个功能的候选。

6.根据权利要求4所述的用户界面控制装置，其特征在于，

所述语音识别部判断所述用户的语音输入是上位概念的语言还是下位概念的语言，

在所述用户的语音输入是上位概念的语言的情况下，所述估计部根据与当前状况相关的信息，估计所述上位概念的语言中所包含的下位概念的语音操作的候选，

所述引导生成部针对根据用户的选择而从所述下位概念的语音操作的候选中确定的一个候选，生成引导。

7.一种用户界面控制方法，包括以下步骤：

根据与当前状况相关的信息，估计用户期望的语音操作的候选，并且提取估计出的各候选的似然度；

针对根据用户的选择而从通过所述估计步骤估计出的多个语音操作的候选中确定的一个候选，生成促使用户进行语音输入的引导；

对用户针对所述引导的语音输入进行识别；

输出指示信息以执行与识别出的语音输入对应的功能；

在通过所述估计步骤估计出的多个语音操作的候选的似然度低的情况下，计算所述多个候选的上位概念的语音操作的候选的似然度，并且按照似然度从高到低的顺序对包括所述上位概念的语音操作的候选的多个候选进行估计，将估计出的多个候选作为估计结果进行输出；以及

向用户提示所述估计结果所示的候选。

8.一种用户界面控制方法，使计算机执行以下的处理：

估计处理，根据与当前状况相关的信息，估计用户期望的语音操作的候选，并且提取估计出的各候选的似然度；

引导生成处理，针对根据用户的选择而从通过所述估计处理估计出的多个语音操作的候选中确定的一个候选，生成促使用户进行语音输入的引导；

语音识别处理，对用户针对所述引导的语音输入进行识别；

输出指示信息以执行与识别出的语音输入对应的功能的处理；

在所述估计出的多个语音操作的候选的似然度低的情况下计算所述多个候选的上位概念的语音操作的候选的似然度，并且按照似然度从高到低的顺序对包括所述上位概念的语音操作的候选的多个候选进行估计，将估计出的多个候选作为估计结果进行输出的处理；以及

向用户提示所述估计结果所示的候选的处理。