CN103208283B

CN103208283B - 使用语音识别执行用户功能的方法及装置

Info

Publication number: CN103208283B
Application number: CN201310011801.3A
Authority: CN
Inventors: 李东烈; 朴世焕
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-01-11
Filing date: 2013-01-11
Publication date: 2019-01-15
Anticipated expiration: 2033-01-11
Also published as: EP3288024B1; KR102022318B1; AU2013200153B2; US20130179173A1; US10347246B2; JP2013143151A; AU2013200153A1; EP2615607A2; EP3288024A1; KR20130082339A; EP2615607A3; WO2013105826A1; CN103208283A; EP2615607B1

Abstract

本发明提供了使用语音识别执行用户功能的方法及装置。该方法包括：显示用户功能执行屏幕；确认要按照语音输入执行的功能；将与所确认的功能相对应的语音命令显示在用户功能执行屏幕上；在连续接收语音识别执行请求的同时，识别用户的语音输入；以及当识别的语音命令是显示的语音命令中的至少一个时，执行与输入的语音命令相联系的功能。

Description

使用语音识别执行用户功能的方法及装置

技术领域

本发明一般涉及使用语音识别执行用户功能的方法及装置。

背景技术

语音识别技术可以在像智能电话、电视机、汽车导航设备等那样的各种电子设备中实现。

一般说来，语音识别技术按统计分析方案分类输入语音，其中为了精确识别语音，需要复杂的统计模型和大容量的语音识别数据库。因此，为了支持语音识别，在电子设备中使用大量的计算资源和大的存储器。

但是，支持语音识别的传统电子设备由于像成本、大小和便携性这样的局限性而无法满足高性能计算能力和大存储器的要求。于是，在传统电子设备中在语音识别的精度和处理速度方面存在各种局限性。

发明内容

本发明就是针对现有技术中出现的上述问题而作出的，并提供了至少下述优点。

因此，本发明的一个方面提供了通过输出可执行语音命令来通过语音识别执行用户功能的方法及装置。

本发明的另一个方面提供了使用户可以容易地确认可执行语音命令的方法及装置。

依照本发明的一个方面，提供了一种由电子设备执行用户功能的方法。该方法包括：显示用户功能执行屏幕；确认要按照语音输入执行的功能；将与所确认的功能相对应的语音命令显示在用户功能执行屏幕上；在连续接收语音识别执行请求的同时，识别用户的语音输入；以及根据识别的语音输入，当显示的语音命令被语音输入时，执行与输入的语音命令相联系的功能。

依照本发明的另一个方面，提供了一种用于执行用户功能的装置。该装置包括：显示用户功能执行屏幕的显示单元；当被按压时输入语音识别执行请求的输入部；收集和记录语音输入的音频处理器；以及控制器，用于接收来自所述输入部的语音识别执行请求，确认按照语音输入执行的功能，以及控制所述显示单元将与所确认的功能相对应的语音命令显示在用户功能执行屏幕上，在正在接收语音识别执行请求的同时，识别语音输入，以及根据识别的语音输入，当显示的语音命令被输入时，执行与输入的语音命令相联系的功能。

按照本发明的另一个方面，提供了一种语音识别系统，其包括：由提供对象的应用配置的应用层；以及用户界面框架，用于输出由从应用层中收集的对象构成的用户执行屏幕，在屏幕被切换到执行屏幕时从存储的语音命令中搜索与对象相联系的语音命令，以便确定在显示执行屏幕时的候选语音可识别命令，以及将确定的候选语音可识别命令传送给语音识别引擎。

附图说明

本发明的某些实施例的上述和其他方面、特征和优点将从如下结合附图的详细描述中更明显看出，在附图中：

图1是例示按照本发明实施例的终端的框图；

图2是例示按照本发明实施例的终端的控制器的框图；

图3是例示按照本发明实施例使用语音识别执行用户功能的方法的流程图；

图4例示了按照本发明实施例在使用语音识别执行用户功能时显示的屏幕的例子；

图5例示了按照本发明实施例在使用语音识别执行用户功能时显示的屏幕的例子；

图6例示了按照本发明实施例当在车辆操作系统中使用语音识别执行用户功能时显示的屏幕的例子；

图7例示了按照本发明实施例当在电视系统中使用语音识别执行用户功能时显示的屏幕的例子；

图8是例示按照本发明实施例的语音命令的流程图；以及

图9至图11例示了按照本发明实施例的语音识别系统。

具体实施方式

下面参照附图详细描述本发明的各种实施例。在所有附图中相同标号自始至终用于指示相同或相似部件。另外，并入本文中的众所周知的功能或结构的详细描述可能被省略，以避免掩盖本发明的主题。

在本文中，术语“用户功能”指的是按照输入信号执行的功能，所述输入信号是通过按照用户请求的预定输入，例如，语音命令生成的。

图1是例示按照本发明实施例的终端的框图。

例如，该终端可以包括支持语音识别的，像便携式多媒体播放器（PortableMultimedia Player，PMP）、数字广播播放器、个人数字助理（Personal DigitalAssistant，PDA）、音乐文件播放器（例如，MP3播放器）、便携式游戏终端、平板式个人电脑（PC）和智能电话那样的移动设备，或者像车辆导航设备、电视机、电冰箱和洗衣机那样的电子设备。

参照图1，该终端包括射频（RF）通信单元110、键输入单元120、音频处理器130、触摸屏140、存储器160和控制器170。在本文中，术语“单元”指的是硬件设备或硬件设备与软件的组合体。

RF通信单元110在控制器170的控制下，形成用于语音通话（voice call）的通信信道、用于图像通话（image call）的通信信道以及用于发送像图像或消息那样的数据的数据通信信道。例如，RF通信单元110可以接收用于将按照语音输入执行的用户功能的语音命令列表。该语音命令列表被控制器170参考以便显示语音命令。

另外，RF通信单元110通过数据通信信道接收对于语音识别模式的语音识别执行请求。当在语音识别执行请求正在被接收的同时，语音识别被执行，但语音识别执行请求的接收停止时，控制器170终止语音识别。基本上，控制器170根据语音识别执行请求的接收来确定语音识别模式的开始和终止。

键输入单元120包括用于接收数字或字符信息的输入、以及用于设置各种功能的多个输入键和功能键。例如，功能键可以包括箭头键、侧键（side key）和热键等。

此外，键输入单元120生成与终端的用户设置和功能控制相联系的键信号，并将生成的键信号传送给控制器170。

终端的触摸屏140像全触摸屏那样被支持时，键输入单元120可以包括侧键、归位（home）键和配备在终端的外壳的侧边上的其他功能键。尤其，本发明的键输入单元120可以包括用来执行语音识别功能的语音识别功能键组。

并且，键输入单元120可以将从语音识别功能键组的语音识别功能键生成的语音识别功能键事件传送给控制器170。然后，控制器170按照语音识别功能键的请求信号确定语音识别模式的开始和终止。

音频处理器130包括扬声器（SPK）和麦克风（MIC），扬声器用于输出例如在通话期间接收的或来自存储器160中存储的音频文件的音频数据，麦克风用于收集用户的语音或其他音频信号。更具体地说，音频处理器130在控制器170的控制下，在语音识别模式中驱动MIC，以便记录通过MIC收集的用户的语音。此外，音频处理器130将记录的语音传送给控制器170，控制器170针对记录的语音进行语音识别。当语音识别模式开始或终止时，音频处理器130可以通过SPK输出相应的声音效果。

触摸屏140包括触控板141和显示单元143。触控板141配备在显示单元143的前面。触摸屏140的大小可以按触控板141的大小来确定。并且，触摸屏140按照用户功能的执行来显示屏幕，并且感测与用户功能的控制相联系的触摸事件。

触控板141配备在显示单元143的上部和下部中的至少一个中，触控板141的传感器以矩阵样式布置。因此，触控板141按照触控板141上被触摸对象的接触或接近距离来生成触摸事件，并将生成的触摸事件传送给控制器170。例如，触摸事件包括触摸类型和位置信息。

触控板141生成用于执行语音识别模式的事件（下文称为“语音识别触摸事件”）。例如，当用户触摸通过触控板141输出的用户功能执行屏幕的特定图像，例如图标时，触控板141将语音识别触摸事件传送给控制器170。

当在与图标显示区域相对应的位置中产生触摸事件时，执行与该图标相联系的功能。当第一次接收到语音识别触摸事件时，例如，当用户触摸语音识别图标时，控制器170开始语音识别模式，并在语音识别触摸事件正被接收的同时、即在用户连续触摸语音识别图标的同时，控制显示单元143输出用于执行与特定对象相联系的功能的至少一条语音命令。当语音识别触摸事件的接收停止、即当用户停止触摸语音识别图标时，控制器117终止语音识别模式。

显示单元143显示用户输入的信息、提供给用户的信息、终端的各种菜单等。因此，显示单元143根据终端的预定使用来提供各种用户功能的执行屏幕。

显示单元143可以用液晶显示器（LCD）或有机发光二极管（Organic LightEmitted Diode，OLED）来配置。并且，显示单元143可以配备在触控板141的上部或下部上。另外，显示单元143可以向正在输出的用户功能执行屏幕添加语音命令，并显示添加后的用户功能执行屏幕。

存储器160存储用于功能操作的至少一个应用、用户生成的用户数据、利用网络收发的消息以及随着应用的执行产生的数据。例如，存储器160可以包括程序区和数据区。

程序区可以存储用于引导终端和用于操作前述组件的操作系统（OS）、以及下载的和安装的应用。本发明的程序区还可以存储语音命令设置程序161和语音识别操作程序163。

语音命令设置程序161包括用于显示语音命令的例程。例如，语音命令设置程序161包括用于确认按照语音输入执行的功能的例程、用于按照确认的功能确定语音命令的例程、和用于登记（register）确定的语音命令的例程。语音命令设置程序161可以进一步包括语音命令显示方案设置例程。

语音命令设置程序161可以进一步包括用于在登记语音命令之前测试语音命令的相似性的例程、和用于按照相似性测试结果改变相似的语音命令的例程。

语音命令设置程序161可以在语音命令的显示时间点之前按照语音识别操作程序163的请求来执行。并且，语音命令设置程序161可以按照用户请求来执行。

语音识别操作程序163使用语音识别执行用户功能。语音识别操作程序163包括用于在接收预置的语音识别执行请求的同时，与在执行屏幕上显示语音命令同时地执行语音识别功能的例程。该例程可以被设置成：在显示语音命令时，按照预置显示方案来显示语音命令。例如，语音识别执行请求可以是由键输入单元120接收的语音识别键输入事件或通过触控板接收的语音识别触摸事件。

并且，语音识别操作程序163包括用于在语音识别执行请求的接收停止时，从执行屏幕中移除语音命令并终止语音识别功能的例程。语音识别操作程序163包括用于基于语音识别结果、在经由语音输入了显示的语音命令之一时执行对应的功能的例程。

数据区存储按照终端的使用生成的数据。更具体地说，本发明的数据区存储在执行语音命令设置程序和语音识别操作程序的同时使用或生成的数据。例如，数据区可以存储可执行用户功能的语音命令、可添加或可替代的词、用户功能的优先级、以及语音命令显示方案。可以将语音命令存储成与特定执行屏幕相联系的命令显示地图。命令显示地图的特征在于，它包括在预定用户功能执行屏幕上按照语音输入执行的至少一个功能的对应的语音命令的输出位置信息。并且，数据区可以存储用于与语音识别操作程序163相联系的语音识别的各种统计模型和语音识别结果。

控制器170控制终端的总体操作。因而，控制器170通过输出可执行语音命令来控制与语音识别相联系的操作。例如，在连续接收语音识别执行请求的同时，控制器170控制显示单元143将语音命令添加并显示到当前显示的用户功能执行屏幕上。并且，控制器170利用相似性测试，控制在用户功能执行屏幕上显示不相似的语音命令。

图2是例示按照本发明实施例的终端的控制器的框图。

参照图2，控制器170包括输入事件收集器171、记录事件收集器173、语音识别器175、功能执行器177和执行屏幕输出单元179。

输入事件收集器171收集从触控板141或键输入单元120生成的输入事件。更具体地说，输入事件收集器171接收语音识别执行请求。例如，输入事件收集器171收集语音识别触摸事件和/或来自触控板141的语音识别触摸事件。并且，输入事件收集器171将接收的输入事件传送给功能执行器177。

记录事件收集器173收集来自音频处理器130的记录的音频事件。具体来说，记录事件收集器173接收记录事件，在记录事件中记录了用户在语音识别模式下说出的语音。这样的记录事件包括至少一个所说的词。并且，记录事件收集器173将记录事件传送给语音识别器175。

语音识别器175从记录事件中识别语音以便分类音素并识别由音素构成的词（或词串）。特别是，语音识别器175访问存储器160以确定记录事件是否包括显示在当前执行屏幕上的语音命令。例如，语音识别器175根据预置的语音命令，例如显示在当前执行屏幕上的语音命令，进行语音识别。例如，当语音被识别成音素单位时，语音识别器175将当前显示的语音命令的音素与识别的音素进行比较。

当当前显示的语音命令的音素不同于识别的音素时，语音识别器175可以确定未输入语音命令，以缩短语音识别时间。当以词为单位进行语音识别时，本发明的实施例可以提供相同的优点。当当前显示的语音命令的词不同于识别出的词时，语音识别器175可以确定未输入语音命令，以缩短语音识别时间。

依照本发明的实施例，可识别语音输入的多样性被抑制，以便尝试快速的语音识别。并且，依照本发明的实施例，通过限制将语音识别成所显示的语音命令之一的情况的数量，提供了具有高精度的语音识别服务。

另外，依照本发明的实施例，不是将语音识别委托给基于服务器，即外部服务器的嵌入式引擎，而是在终端中进行语音识别，从而提供快速的语音识别。

当与当前显示的语音命令之一相对应的词包括在记录事件中时，语音识别器将对应的语音命令通知给控制终端的总体操作的功能执行器177。当从输入事件收集器171接收到语音识别请求时，功能执行器177将终端的模式改变成语音识别模式。功能执行器177在语音识别模式下将语音识别模式开始通知给音频处理器130，并控制音频处理器130开始语音记录。此后，功能执行器177按照从语音识别器175接收的语音命令执行对应的功能，并将执行的功能通知给执行屏幕输出单元179。当语音识别请求的接收停止时，功能执行器177控制音频处理器130停止记录事件。于是，语音识别器175不再进行语音识别。另外，功能执行器177可以控制语音识别器175终止语音识别。

执行屏幕输出单元179控制显示单元143随着用户功能被执行输出对应的执行屏幕。用户功能执行屏幕可以包括至少一个图像组件，例如，图标、缩略图、字符等。可以将图像组件与特定功能相联系。于是，当产生从触摸屏140或键输入单元120选择特定图像组件的事件时，控制器170控制与特定图像组件相联系的功能被执行。

更具体地说，执行屏幕输出单元179支持在语音识别模式下将预置的语音命令附加地输出到当前显示的用户功能执行屏幕。执行屏幕输出单元179可以访问存储器160，以便确认当前执行屏幕上的可执行用户功能和用于执行用户功能的语音命令。

执行屏幕输出单元179可以控制显示单元143在执行屏幕上附加地显示确认的语音命令。执行屏幕输出单元179按照预置的方案显示语音命令。并且，执行屏幕输出单元179可以参照命令显示地图来检测语音命令的显示位置。

图3是例示按照本发明实施例的使用语音识别来执行用户功能的方法的流程图。

参照图3，在步骤310中，控制器170控制显示单元143显示用户功能执行屏幕。如上所述，用户功能执行屏幕可以包括像图标、缩略图、字符等那样的图像组件，其中每个图像组件与特定功能相联系。因而，当从触摸屏140或键输入单元120产生选择特定图像组件的事件时，控制器170控制与该特定图像组件相联系的功能被执行。

并且，控制器170可以在步骤310中确定与执行屏幕相联系的语音命令。在这种情况下，控制器170识别按照语音输入在执行屏幕上执行的功能，并从登记的语音命令中检测与所识别的功能相联系的语音命令。从而，依照本发明的实施例，进行自动搜索，以从登记的语音命令中提取与执行屏幕相联系的语音命令。其结果是，控制器170可以显著缩短用于从所有登记的语音命令当中搜索特定语音命令的时间。并且，每当切换执行屏幕时，控制器170可以动态地执行确定语音命令的过程。

此外，每当改变或添加执行屏幕的部分功能时，控制器170可以执行确定语音命令的过程。在这种情况下，控制器170可以在登记的语音命令当中搜索与改变或添加的功能相联系的语音命令。

另外，在步骤310中当切换到显示的执行屏幕时，控制器170可以登记语音命令。控制器170识别按照语音输入在执行屏幕上执行的功能。所述功能可以在执行屏幕正被输出的同时按照特定输入事件来执行或可以是特定应用的功能。按照语音输入在执行屏幕上执行的功能可以由设计者或用户来设置。此后，控制器170识别按照语音输入执行的功能的对应的语音命令。语音命令可以由设计者事先设置，或由控制器170自动设置。并且，控制器170可以按照用户输入来设置语音命令。

控制器170还可以针对识别的语音命令进行相似性测试。进行相似性测试以便提取发音或拼写与指定的语音命令相似的语音命令。

并且，控制器170还可以修改作为测试结果其发音或拼写与指定语音命令相似的提取的语音命令当中的至少一个语音命令。

因此，控制器可以防止由于使用相似的语音命令而出现不精确的语音识别结果。在改变相似的语音命令时，控制器170可以用其他语音命令替代作为改变目标的语音命令，或在作为改变目标的语音命令前面或后面添加词。在这种情况下，可以按照预定的优先级来选择将要改变的语音命令。例如，可以按与OS、终端的设计者开发的自用（in-house）应用以及从外部下载和安装的第三方应用相联系的用户功能（例如，帮助和搜索功能）的次序来确定优先级。例如，当自用应用的特定功能和第三方应用的功能具有相同的语音命令时，可以改变第三方应用的功能的语音命令。

可替代地，控制器170可以避免进行相似性测试。

在登记语音命令时，控制器170登记与利用语音输入的可执行功能相联系的对应的语音命令。并且，控制器170可以登记与特定执行屏幕相联系的语音命令。于是，当确定将要显示在用户功能执行屏幕上的语音命令时，控制器170可以搜索与用户功能执行屏幕相联系的登记的语音命令。于是，控制器170可以快速地确定大量登记的语音命令当中的、用于用户功能执行屏幕的重要语音命令。

控制器170可以在显示语音命令之前登记语音命令。此外，控制器170可以与执行用户功能分开地登记语音命令。

在步骤320中，控制器170在显示执行屏幕期间感测语音识别开始请求。这里，控制器170确定是否从触控板141或键输入单元120接收到语音识别执行请求。例如，控制器170可以接收来自触控板141的语音识别触摸事件或来自键输入单元120的语音识别功能键的语音识别键输入事件。语音识别触摸事件可以是针对构成当前输出的用户功能执行屏幕的特定图像组件的触摸事件。当未感测到语音识别执行请求时，控制器170在步骤325中按照输入信号执行对应的功能。

当感测到语音识别执行请求时，控制器170在步骤330中将终端切换到语音识别模式。并且，控制器170将至少一条语音命令输出到显示单元143，并控制由MIC选择的语音得到识别。例如，控制器170根据与在步骤310中的执行屏幕相联系的语音命令来识别收集的语音数据。

如上所述，依照本发明的实施例，语音命令被显示，以防止输入除了显示的语音命令之外的词。于是，依照本发明的实施例，最大程度地减少了用于语音识别的数据处理。另外，依照本发明的实施例，语音识别被限制在特定的语音命令，从而提供了精确的和快速的语音识别服务。

更具体地说，控制器170确认按照语音输入执行的至少一种功能。所述功能是可以通过预定触摸事件或键输入事件执行的各种功能，并且可以被事先设置。触摸事件或键输入事件的特定可执行功能可以被设置成按照语音输入、按照设计者的意图或用户的偏爱来执行。并且，控制器170可以控制特定应用的功能在语音识别模式下执行。

当接收到语音识别触摸事件时，控制器170输出与所触摸的图像组件相联系的应用的功能。另外，控制器170可以确定按照所确认的语音输入执行的功能的语音命令。如上所述，控制器170可以在步骤310中事先确定语音命令。因此，可以省略步骤330中的语音命令确定过程。每种功能的对应的音命令被自动生成或者可以由设计者或用户来设置。

控制器170选择所确定的语音命令的显示位置。例如，控制器170可以控制语音命令显示在执行屏幕的图像组件或执行屏幕的阴影块（blanket）周围。

更具体地说，控制器170可以控制显示单元143将特定图标，例如语音命令“日历（Calendar）”，显示在主屏幕上显示日历图标的区域的预定距离内。并且，控制器170可以控制语音命令“帮助（Help）”显示在执行屏幕的阴影块的任何部分上。

当确定了语音命令的显示位置时，如果存在与有关语音命令的功能相联系的图像组件，则控制器170可以选择该图像组件周围的语音命令组件。在这种情况下，控制器170可以参照执行屏幕的地图确定是否存在图像组件。并且，控制器170可以参照执行屏幕的地图选择语音命令显示位置。

当没有与将要显示的语音命令相联系的图像组件时，控制器170可以参照执行屏幕的地图识别空白区，并将语音命令显示在空白区中。例如，当按照触摸事件执行功能，但不存在相关的图像组件时，控制器170可以控制语音命令被显示在与触摸事件相联系的位置。例如，当功能被设置成通过从特定位置开始的触摸事件来执行时，控制器170可以控制对应的语音命令在执行屏幕的该特定位置被输出。

当该功能被设置成通过具有特定方向的触摸事件来执行时，控制器170可以控制对应的语音命令输出到执行屏幕上该特定方向的一侧。并且，当通过键输入单元120执行的功能被设置成按照语音输入来执行时，控制器170可以控制显示单元143将对应的语音命令显示在键输入单元120的安装位置周围。

如上所述，在选择了语音命令的显示位置之后，控制器170可以生成命令显示地图。例如，命令显示地图包括显示在预定用户功能执行屏幕上的语音命令的输出位置信息。

当存在与当前输出的用户功能执行屏幕相对应的命令显示地图时，控制器170可以在步骤330中控制语音命令参照命令显示地图进行显示。

另外，控制器170可以控制语音命令按照预置的显示方案来输出。例如，控制器170可以控制语音命令以工具提示或对话泡泡的形式覆盖并显示在执行屏幕上。

当存在与语音命令相联系的图像组件时，控制器170可以移除图像组件或指示图像组件的字符，并控制语音命令在移除了图像组件的区域上输出。当通过将多种功能与一个图像组件相联系来输出多个语音命令时，控制器170可以控制语音命令显示在列表中。另外，控制器170可以组合语音命令，以控制显示单元143显示一个弹出窗口或单独的屏幕。本领域的普通技术人员通常可以理解，可以以前述显示方案的组合形式来显示语音命令。

在步骤340中，控制器170确定语音识别执行请求的接收是否停止。当不再接收到语音识别功能键的键信号时，即，当语音识别功能键被释放时，或不再从触控板141接收到语音识别触摸事件时，控制器170确定感测到语音识别模式的终止请求。

于是，依照本发明的实施例，在针对特定图像组件连续进行语音功能键输入或触摸输入的同时执行语音识别功能。于是，依照本发明实施例的终端清楚地识别语音识别模式的开始和终止，从而使语音记录时间最小化。另外，依照本发明的实施例，使所记录的语音数据的大小最小化，这提高了语音识别的速度。

如果在预定时间内未输入语音，控制器170可以识别静默期，并确定语音输入期期满。于是，控制器170可以在步骤340中确定是否已请求语音识别的终止。在这种情况下，当在确认记录开始时间之后在预置时间内记录了静默期时，控制器170可以自动终止语音识别。

当在步骤340中未请求语音识别终止时，该方法返回到步骤330，控制器170继续显示语音命令以便进行语音识别。

当在步骤340中请求了语音识别终止时，控制器170在步骤350中移除语音命令的显示并终止语音识别功能，从而终止语音识别模式。

在步骤360中，控制器170确定是否输入了语音命令。也就是说，控制器170确认语音识别结果，以便确定是否输入了显示的语音命令之一。当确定输入了预定的语音命令时，控制器170在步骤370中执行与输入的语音命令相联系的功能。

如上所述，用户说出显示在显示单元143上的语音命令之一，从而不用单独的触摸操作或键输入操作而方便地使用与语音命令相联系的各种功能。

当在步骤360中未输入语音命令时，控制器170在步骤365中确定语音输入是否被重试。例如，控制器170可以通过弹出窗口检查用户是否想要重试语音输入。当在步骤365中用户通过预定的用户响应想要重试语音输入时，该方法返回到步骤330。但是，当在步骤365中用户不想重试语音输入时，该方法返回到步骤310。

可替代地，可以省略步骤365。在这种情况下，当在步骤360中未输入语音命令时，控制器170终止该方法。

图4例示了按照本发明实施例的当使用语音识别执行用户功能时显示的屏幕的例子。

参照图4，如屏幕401所例示，终端包括语音识别功能键120，并输出主屏幕410。在图4中，假设当显示主屏幕410时，通过功能键或触摸事件执行的所有功能都可以通过语音输入来执行。

当用户按压语音识别功能键120时，控制器170感测语音识别执行请求。控制器170确认通过语音输入执行的功能，如屏幕403所例示，以便输出用于主屏幕410上的功能的语音命令显示425，430和435。另外，控制器170使语音识别功能局限于显示的语音命令。

更具体地说，在语音命令425被显示，从而确定互联网浏览器应用执行功能的对应的语音命令为“互联网（Internet）”时，控制器170确认互联网浏览器应用执行功能通过语音输入来执行。并且，控制器170确认存在与该功能相联系的图像组件，即，互联网浏览器图标420，并在互联网浏览器图标420的周围输出“互联网”425。

此外，控制器170确认用于报警中心显示功能的语音命令被显示成“通知（Notification）”435。当从主屏幕410的上端向向下方向发生拖拽触摸事件时，执行报警中心显示功能。控制器170参照主屏幕410的地图确认不存在与报警中心显示功能相联系的图像组件，并控制显示单元143将“通知”435显示在主屏幕410的上阴影块中，以反映触摸事件的开始位置。

并且，当发生向左侧的拖拽触摸事件时，不管触摸位置如何都执行帮助搜索功能。对于这种帮助功能，控制器170在主屏幕410的左侧显示帮助搜索功能的语音命令“帮助（Help）”430。

当存在与主屏幕相联系的命令显示地图时，控制器170按照命令显示地图控制显示单元143输出语音命令。

按照本发明的另一个实施例，在执行屏幕上可以支持帮助功能。并且，可以在语音识别模式下从执行屏幕中省略帮助功能，并且可以在当前执行屏幕上附加地显示可执行功能。例如，通过帮助功能附加地显示的功能可以是系统保留的命令、命令的参数范围、或使用方法相关命令。因此，当用户说出“帮助”时，控制器170可以在弹出窗口中显示预置的命令。

当用户释放语音识别功能键120时，如屏幕405所例示，控制器170从主屏幕中移除语音命令显示，并终止语音识别模式。

另外，控制器170可以显示通知语音识别功能的执行状态的消息。当通过语音识别接收到“消息（Message）”的语音输入时，如屏幕407所例示，控制器170支持消息应用被执行。

按照本发明的实施例，通过语音命令执行的功能可以是小部件（widget），例如，“搜索”、“检查”、“消息读取”或“消息创建”小部件。举例来说，控制器170可以执行源代码，如屏幕407所例示，以便登记用于“消息创建”小部件的语音命令。于是，提供执行屏幕的应用的开发者可以使用如屏幕407所例示的源代码添加语音命令。

尽管上述的语音识别模式可以在例如主屏幕410上执行，但本发明的上述实施例不局限于此，而是可以在不同屏幕，例如，如屏幕407所例示的消息执行屏幕上实现。

在这种情况下，可以将用于消息应用程序的编辑功能、新消息创建功能和搜索功能的语音命令显示附加地输出到消息执行屏幕。

图5例示了按照本发明另一个实施例的在使用语音识别执行用户功能时显示的屏幕的例子。

参照图5，终端包括触摸屏140并输出主屏幕510。并且，如主屏幕510上的指纹所示，用户通过触摸屏140触摸作为触摸对象的互联网浏览器图标520。当触摸持续了大于预置时间时，控制器170确定感测到语音识别执行请求。控制器170确认与触摸的互联网图标450相联系的互联网浏览器应用的预置功能。控制器170识别应用功能的语音命令，并如屏幕503所例示的，控制显示单元143在图标520周围输出对应的语音命令的显示525。另外，控制器170使语音识别功能局限于显示的语音命令。

在这种情况下，控制器170参照主屏幕510的地图，确认是否存在与互联网浏览器应用相联系的图像组件，即，图标520。并且，控制器170将应用功能的语音命令显示在互联网浏览器图标520的周围。

具体来说，因为在图像组件的周围显示了多个语音命令，所以控制器170可以控制显示单元143将多个语音命令显示成列表。另外，当感测到语音识别执行请求时，控制器170驱动MIC记录用户的语音，以便执行语音识别。

当用户释放触摸对象上的触控板141接触时，如屏幕505所例示，控制器170移除语音命令显示525，并终止语音识别。

当按照语音识别结果确定说出了语音命令“搜索（Search）”时，如图507所例示，控制器170执行在网络浏览器上输出网络搜索页的功能。

图6例示了按照本发明实施例的当在车辆操作系统中使用语音识别执行用户功能时显示的屏幕的例子。

参照图6，当车辆导航设备600输出菜单屏幕时，可以通过安装在车辆方向盘610上的输入单元接收语音识别执行请求。在这种情况下，可以通过无线通信将语音识别执行请求从车辆方向盘610发送到车辆导航设备600。车辆导航设备600识别可执行功能，例如，全球定位卫星（Global Positioning Satellite，GPS）功能、音乐回放功能、数字多媒体广播（Digital Multimedia Broadcasting，DMB）查看功能，例如并启动语音识别功能。车辆导航设备600可以按照功能检查语音命令，以在菜单屏幕上显示语音命令。例如，在图6中，车辆导航设备600在DMB图标620的周围覆盖并显示“电视（TV）”625以作为DMB功能的语音命令。如果车辆方向盘610的输入单元的输入终止，即，按钮被释放，则车辆导航设备600通过语音识别确定语音命令被输入，并执行对应功能。

图7例示了按照本发明实施例的当在电视系统中使用语音识别执行用户功能时显示的屏幕的例子。

参照图7，电视系统包括显示菜单屏幕的电视机700和遥控器710。当输入遥控器710上被设置成执行语音识别功能的键时，电视机700显示可执行功能的语音命令，并执行语音识别功能。例如，在图7中，电视机700在用于应用2的图标720的周围显示“通话（Call）”725作为用于应用执行功能的语音命令。

图8是例示按照本发明实施例的使用语音命令的过程的流程图。

参照图8，在步骤810中，当屏幕配置改变时，语音识别系统配置语音命令。在这种情况下，语音识别系统首先确认在当前屏幕状态中的可执行组件。这里，组件可以是显示在当前执行屏幕上的小部件或在选择输入期间生成可执行事件的对象。并且，语音识别系统从组件中提取未登记语音命令的组件，并可选地将语音命令分配给提取的组件。然后，语音识别系统可以确认多个登记的语音命令当中与组件相联系的语音命令。于是，语音识别系统显著缩短了语音命令的配置时间。

当分配语音命令时，语音识别系统可以分配定义的相似性较低的命令，以提高语音识别的精度。

此外，当确定配置语音命令的过程已终止时，语音识别系统可以对语音命令进行相似性测试。这里，进行相似性测试是为了识别发音或拼写与先前指定的语音命令相似的语音命令。然后，语音识别系统可以改变相似的语音命令中的至少一个。

于是，语音识别系统可以防止由于使用相似的语音命令而出现不精确的语音识别结果。

当改变相似的语音命令时，语音识别系统可以用另一条语音命令替代作为改变目标的语音命令，或者可以在作为改变目标的语音命令前面或后面添加词。通过相似性测试，语音识别系统可以重新配置语音命令，以便减小语音命令之间的相似性。

如上所述，语音识别系统在屏幕的切换期间配置语音命令，以等待语音识别模式开始请求。

图9例示了按照本发明实施例的语音识别系统。

参照图9，在第一步骤中，通过从应用层的特定应用收集在配置将被切换的屏幕时所需小部件或对象，来安排语音识别系统中软件的平台层中的用户界面（User Interface，UI）框架。此后，在第二步骤中，UI框架提取由开发者事先定义的针对收集的小部件或对象的语音命令。这里，可以通过搜索所有登记的语音命令当中与每个小部件和对象相联系的语音命令，来对UI框架进行自动搜索。

UI框架可以针对语音命令未被确定的小部件或对象向平台层的语音框架请求语音命令。当在每个收集的小部件或对象中都指定了语音命令时，UI框架可以在第三步骤中确定与每个小部件或对象相联系的语音命令，作为在将要切换的屏幕被显示的同时可能进行语音识别的候选语音命令。这里，候选语音命令是在语音识别模式下将要显示在将要切换的屏幕上的语音命令。

于是，每当改变显示的屏幕时，可以将与屏幕相联系的语音命令转换成将由UI框架搜索的候选识别目标。并且，UI框架将候选语音命令组传送给语音框架。作为响应，语音框架将语音命令传送给语音识别引擎，以便可以准备开始语音识别。

于是，例示在图9中的语音识别系统限制了将语音识别成许多候选语音命令的情况的数量，从而提供了更迅速和更精确的语音识别服务。

再次参照图8，在步骤820中，用户按压硬件按钮120或触摸屏140的图标，以便开始语音命令的记录。在步骤830中，语音识别系统显示可用的语音命令，即，在步骤810中配置的语音命令。

于是，用户可以确认在终端的当前状态下可执行硬件或软件组件的语音命令。

此外，语音识别系统将语音命令显示在对应组件的周围。例如，在显示单元143上与硬件组件的安装位置相邻地显示用于硬件组件的语音命令，并且可以与显示在显示单元143上的软件组件相邻地输出用于软件组件的语音命令。另外，当用户按压硬件按钮120或触摸屏140的图标时，语音识别系统开始用于语音识别的记录。

在硬件按钮120或触摸屏140的图标正被按压的同时，在步骤840中，用户读出将在触摸屏140上输出并使用的语音命令。在步骤850中，用户说出语音命令，然后释放硬件按钮120或触摸屏140的图标。在步骤860中，语音识别系统处理记录的语音命令，以便执行对应的功能。

更具体地说，语音识别系统在用户正在按压硬件按钮120或触摸屏140的图标的同时识别记录的语音，并执行与所识别的语音命令相联系的硬件或软件组件的预置功能。

图10例示了按照本发明实施例的语音识别系统。

参照图10，在第一步骤中，当用户按压硬件按钮120或触摸屏140的图标时，语音识别系统通过软件平台层的OS和设备驱动器将用户的输入通知给UI框架。在第二步骤中，作为响应，UI框架从语音识别系统中登记的所有语音命令当中收集与显示的执行屏幕相联系的语音命令，识别所收集的语音命令的输出位置，重新配置执行屏幕，并在显示单元143上输出重新配置的执行屏幕。语音识别系统可以重新配置执行屏幕，以便按照前述显示方案显示语音命令。

在输出了语音命令之后，UI框架在第三过程中向语音框架请求语音识别。并且，语音框架向多媒体框架请求记录开始，以便语音识别引擎可以接收语音记录数据。

于是，在第五步骤中，多媒体框架激活MIC以收集语音，并生成记录数据。多媒体框架将通过MIC记录的语音数据传送给语音框架。语音框架将接收的语音数据传送给语音识别引擎。并且，语音识别引擎分析记录的语音数据以便进行语音识别。从而，用户按压用于语音识别系统的硬件按钮120或触摸屏140的图标，以便进行前面所例示的语音识别。

图11例示了按照本发明实施例的语音识别系统。

参照图11，在进行语音识别的同时，当用户释放硬件按钮120或触摸屏140的图标时，语音识别系统在第一过程中通过OS和设备驱动器将用户的释放通知给UI框架。作为响应，UI框架在第二过程中从语音框架请求语音识别终止。并且，UI框架控制显示单元143输出在第二步骤中移除了语音命令的执行屏幕。

在第三步骤中，已经接收到语音识别终止请求的语音框架向多媒体框架请求记录终止。

于是，多媒体框架在第四步骤中去激活MIC，并且在第五步骤中将最终记录的语音数据传送给语音框架以终止记录。语音识别引擎在第六步骤中将包括最终语音数据的语音识别结果传送给语音框架。

此外，语音框架将语音识别结果传送给UI框架。

在第七步骤中，当语音识别结果适当时，也就是说，当语音识别结果与输出的语音命令之一相符时，UI框架予以支持，从而执行与所识别的语音命令相对应的小部件或对象的事件。

尽管用户未持续按压硬件按钮120或触摸屏140的图标，语音识别系统也可以执行语音识别。例如，当用户短暂地按压然后离开硬件按钮120或触摸屏140的图标时，语音识别系统可以开始语音记录。

并且，当确定在预置时间内未输入语音时，语音识别系统可以终止语音记录。

提供了用于识别受控语音、以便执行与指示可执行功能的至少一个语音命令一起显示的用户功能的方法及装置。从而，本发明的实施例指示用户说出显示的语音命令之一。并且，本发明显示不相似语音命令，以便引发保证高精度语音识别的语音输入。

因而，本发明的实施例引导用户的语音输入，以便使基于显示的语音命令的、针对语音输入的语音识别更迅速和更精确，并且防止执行用户不希望的功能。

如上所述，在按照本发明的实施例的用于识别受控语音以执行用户功能的方法及装置中，显示用于执行用户功能的语音命令，以引导用户的语音输入，从而改善语音识别。

尽管在上文中详细描述了本发明的特定实施例，但应该清楚地知道，许多对于本领域的普通技术人员来说可能是显而易见的对本文教导的基本发明构思的改变和修改将仍然落在如权利要求书及其等效物所限定的本发明的精神和范围之内。

Claims

1.一种由电子设备使用语音识别执行用户功能的方法，该方法包含：

显示用户功能执行屏幕；

在所述用户功能执行屏幕上识别将要按照语音输入执行的可执行功能和与所述可执行功能对应的语音命令；

在连续接收到语音识别执行键输入或语音识别执行触摸输入的同时，在用户功能执行屏幕上显示语音命令并且识别用户的语音输入；

当不再接收到语音识别执行键输入或语音识别执行触摸输入时，确定所识别出的语音输入是否是所显示语音命令中的至少一个；以及

当识别的语音输入是显示的语音命令中的至少一个时，执行与输入的语音命令相联系的功能，

其中，所述方法进一步包含：测试语音命令的相似性；以及在显示语音命令之前，按照测试的结果，改变相似的语音命令中的至少一个。

2.如权利要求1所述的方法，其中，在用户功能执行屏幕的图像组件的周围或在用户功能执行屏幕的阴影块中显示语音命令。

3.如权利要求1所述的方法，其中，在与对应于语音命令的功能相联系的图像组件的周围显示语音命令。

4.如权利要求1所述的方法，其中，当按照语音输入执行的功能是通过键输入事件执行的功能时，在生成键输入事件的键输入单元的安装位置的周围显示语音命令。

5.如权利要求1所述的方法，进一步包含确定用户的语音输入是否与显示的语音命令中的至少一个相符。

6.如权利要求1所述的方法，其中，所述功能包括在接收到触摸事件或键输入事件时执行的功能和特定应用的预置功能之一。

7.如权利要求1所述的方法，进一步包含：当语音识别执行键输入或语音识别执行触摸输入不再被接收时，从执行屏幕中移除显示的语音命令，以终止语音识别。

8.如权利要求1所述的方法，进一步包含：每当显示的屏幕被改变时，动态地改变和搜索与显示的屏幕相联系的语音命令作为候选识别目标。

9.一种使用语音识别执行用户功能的装置，该装置包含：

显示单元，其显示用户功能执行屏幕；

输入部，其在被按压时接收语音识别执行键输入或语音识别执行触摸输入；

音频处理器，其收集和记录语音输入；以及

控制器，其：

控制显示单元显示用户功能执行屏幕；

在连续接收到语音识别执行键输入或语音识别执行触摸输入的同时，控制显示单元在用户功能执行屏幕上显示语音命令，并且识别语音输入；

其中，所述控制器：测试语音命令的相似性；以及在显示语音命令之前，按照测试的结果，改变相似的语音命令中的至少一个。

10.如权利要求9所述的装置，其中，在用户功能执行屏幕的图像组件的周围或在用户功能执行屏幕的阴影块中显示语音命令。

11.如权利要求9所述的装置，其中，在与对应于语音命令的功能相联系的图像组件的周围显示语音命令。

12.如权利要求9所述的装置，其中，在用户功能执行屏幕上的触摸事件的方向的一侧显示语音命令。

13.如权利要求9所述的装置，其中，在用户功能执行屏幕当中的触摸事件的开始位置处显示语音命令。

14.如权利要求9所述的装置，其中，以工具提示、弹出窗口或列表形式显示语音命令。

15.如权利要求9所述的装置，其中，所述控制器确认按照语音输入执行的功能，调用包括与用户功能执行屏幕相联系的语音命令的显示位置的命令显示地图，并控制显示单元在执行屏幕上按功能显示对应的语音命令。

16.如权利要求9所述的装置，其中，所述控制器存储与用户功能执行屏幕相联系的语音命令的显示位置。

17.如权利要求9所述的装置，其中，所述控制器确定用户的语音输入是否是显示的语音命令中的至少一个。

18.如权利要求9所述的装置，其中，按照语音输入执行的功能包括按照用于用户功能的触摸事件或键输入事件执行的功能以及特定应用的预置功能之一。

19.如权利要求9所述的装置，其中，当语音识别执行键输入或语音识别执行触摸输入不再被接收时，所述控制器移除显示的语音命令，并终止语音识别。

20.一种语音识别系统，其包含：

由应用配置的应用层，用于提供对象；以及

用户界面框架，用于输出由从应用层收集的对象配置的用户执行屏幕，在屏幕被切换到执行屏幕时从存储的语音命令中搜索与对象相联系的语音命令，以便确定在显示执行屏幕时的候选语音可识别命令，以及将确定的候选语音可识别命令传送给语音识别引擎，

其中，所述语音识别引擎在连续地接收到语音识别执行键输入或语音识别执行触摸输入的同时识别语音输入，以及

其中，所述用户界面框架测试语音命令的相似性，以及在显示语音命令之前，按照测试的结果，改变相似的语音命令中的至少一个。

21.如权利要求20所述的语音识别系统，其中，所述用户界面框架重新配置执行屏幕，以便显示候选语音可识别命令。

22.如权利要求20所述的语音识别系统，进一步包含：

多媒体框架，用于记录用户语音；以及

语音框架，其具有语音识别引擎；

所述语音框架从所述多媒体框架接收记录的语音数据，并确定该语音数据是否与候选语音命令中的至少一个相符。