CN104169837B

CN104169837B - 用于智能语音识别的方法和设备

Info

Publication number: CN104169837B
Application number: CN201280069917.6A
Authority: CN
Inventors: 赵殷亨; 吴周玹; 孙浩元
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2012-02-17
Filing date: 2012-11-21
Publication date: 2017-03-22
Anticipated expiration: 2032-11-21
Also published as: EP2815290B1; CN104169837A; US8793136B2; US8793138B2; US20130218572A1; WO2013122310A1; US20140288931A1; US20130253937A1; US9229681B2; EP2815290A1; EP2815290A4

Abstract

具有语音识别能力的显示装置可以被用于允许用户讲出用于控制显示装置的某些特征的语音命令。作为用于增加操作效率的装置，显示装置可以利用各个语音识别单元可以被分配特定任务的多个语音识别单元。

Description

用于智能语音识别的方法和设备

技术领域

本发明涉及一种具有语音识别能力的显示装置。该显示装置可以被用于允许用户讲出用于控制显示装置的某些特征的语音命令。作为用于增加操作效率的装置，显示装置可以利用各个语音识别单元可以被分配特定任务的多个语音识别单元。

背景技术

电视机已经越来越受欢迎以成为家庭娱乐文化的主要部分。并且随着对于电视的技术已经变得更加先进，用户体验已经相应地演变。用户不仅能够利用用于观看广播节目的现代电视，而且能够连接到因特网以观看在线内容。

继续包括对于电视的新技术的目的为了提供更好的用户体验。类似地，在电视技术上的先进已经允许用户不再被限于通过按动远程控制上的键控制电视。虽然遥控器概念仍然用作重要的功能，但是，用户能够做出各种不同的手势，通过电视能够将其识别为控制命令。一个这样的手势是要控制电视的某些特征的用户讲出的语音命令。

然而，先前的语音识别系统的一个主要缺陷是实际语音识别单元的布置是在装置外的服务器而不是在电视本身的电路内。在图1中能够看到该设置。当通过电视100接收语音输入时，语音输入必须经由网络105被传输到位于外部服务器110上的语音识别单元。然后，语音识别单元将会处理语音输入以确定语音输入是否能够被识别为已知的语音命令。然后产生的被识别的语音命令的确定必须经由网络105被传输回到电视100。因此在这样的设置中，与存储语音识别单元的装置外的服务器通信的需求严重地限制用户发出语音输入命令并且让电视识别用户的语音输入命令的能力。

由此断定存在开发能够容易地和有效地识别用户的语音命令的电视并且相应地控制电视的特征的需求。

发明内容

技术问题

本发明的目的是为了解决当涉及到通过用户的语音输入命令的使用控制显示装置时背景技术的限制和缺陷。

本发明的另一目的是为了通过专用至少一个语音识别单元以处理用户的自然语言语音命令在自然语言语音识别过程期间减少错误的发生。

本发明的又一目的是为了提供专用于处理属于预设语音命令的列表的用户的语音命令的至少一个语音识别单元。

问题的解决方案

为了实现这些目的，本发明公开一种通过显示装置识别语音输入命令的方法，该方法包括：接收第一语音输入；通过第一语音识别单元将第一语音输入识别为要通过第二语音识别单元处理的第一语音命令；通过第二语音识别单元处理第一语音命令，以及根据第一语音命令控制显示装置的特征。

优选地，第一语音命令是自然语言语音命令，并且第一语音命令的识别发起语音输入命令模式。

优选地，根据第一语音命令控制的显示装置的特征包括显示可用的语音命令的第一菜单。

优选地，通过外部网络接收第一语音输入。

优选地，本发明进一步包括接收第二语音输入；通过第一语音识别单元将第二语音输入识别为要通过第一语音识别单元处理的第二语音命令；通过第一语音识别单元处理第二语音命令，以及根据第二语音命令控制显示装置的特征。

更加优选地，当只有对应于被显示在可用的语音命令的第一菜单上的语音命令的语音输入通过第一语音识别单元识别时，第二语音命令对应于被显示在可用的语音命令的第一菜单上的语音命令中的一个。

更加优选地，响应于第二语音命令显示装置的特征被控制以增加显示装置设置的一个单位。

更加优选地，显示装置的特征是音量、频道、颜色、亮度、对比度、菜单或者页面设置中的一个。

更加优选地，响应于第二语音命令显示装置的特征被控制以增加预定数目的显示装置设置单位。

优选地，本发明进一步包括，显示可用的语音命令的第二菜单，其中，第二菜单包括没有被显示在可用的语音命令的第一菜单上的至少一个新的可用的语音命令。

优选地，第一语音识别单元和第二语音识别单元被嵌入作为显示装置的电路的部分，第一语音识别单元和第二语音识别单元位于外部服务器上，或者第一语音识别单元被嵌入作为显示装置的电路的部分并且第二语音识别单元位于外部服务器上。

为了进一步实现本发明的目的，本发明也公开一种用于通过显示装置识别语音输入命令的方法，该方法包括：接收第一语音输入；通过第一语音识别单元将第一语音输入识别为要通过第一语音识别单元处理的第一语音命令；通过第一语音识别单元处理第一语音命令，以及根据第一语音命令控制显示装置的特征。

优选地，响应于第一语音命令显示装置的特征被控制以停止增加。

优选地，显示装置的特征是音量、频道、颜色、亮度、对比度、菜单或者页面设置中的一个。

为了进一步实现本发明的目的，本发明进一步公开一种显示装置，包括：麦克风，该麦克风被配置以接收第一语音输入；第一语音识别单元，该第一语音识别单元被配置以接收第一语音输入并且将第一语音输入识别为通过第一语音识别单元没有进一步处理的语音输入；第二语音识别单元，该第二语音识别单元被配置以接收第一语音输入并且处理第一语音输入以获得第一语音命令，以及系统控制器，该系统控制器被配置以根据第一语音命令控制显示装置的特征。

优选地，本发明进一步包括：显示器，该显示器被配置以显示可用的语音命令的第一菜单，其中，可用的语音命令的第一菜单的显示是根据第一语音命令控制的特征。

更加优选地，通过外部网络接收第一语音输入。

更加优选地，第一语音识别单元进一步被配置以接收第二语音输入并且处理第二语音输入以获得第二语音命令，以及其中，系统控制器进一步被配置以根据第二语音命令控制显示装置的特征。

更加优选地，当只有对应于被显示在可用的语音命令的菜单上的语音命令的语音输入通过第一语音识别单元识别时，第二语音命令对应于被显示在可用的语音命令的第一菜单上的语音命令中的一个。

优选地，响应于第二语音命令显示装置的特征被控制以增加一个单位。

更加优选地，权利要求22所述的显示装置，其中，显示装置的特征是音量、频道、颜色、亮度、对比度、菜单或者页面设置中的一个。

优选地，响应于第二语音命令显示装置的特征被控制以增加预定数目的单位。

优选地，在根据第二语音命令控制显示装置的特征之后显示可用的语音命令的第二菜单，其中，第二菜单包括来自于可用的语音命令的第一菜单的至少一个附加的语音命令。

优选地，第二语音识别单元位于外部服务器上。

为了进一步实现本发明的目的，本发明进一步公开一种显示装置，包括：麦克风，该麦克风被配置以接收第一语音输入和第二语音输入；第一语音识别单元，该第一语音识别单元被配置以接收第一语音输入并且处理第一语音输入以获得第一语音命令；第二语音识别单元，该第二语音识别单元被配置以接收第二语音输入并且处理第二语音输入以获得第二语音命令，以及系统控制器，该系统控制器被配置以根据第一语音命令控制显示装置的第一特征并且根据第二语音命令控制显示装置的第二特征。

优选地，响应于第一语音命令显示装置的第一特征被控制以停止增加。

更加优选地，显示装置的第一特征是音量、频道、颜色、亮度、对比度、菜单或者页面设置中的一个。

本发明的有益效果

根据本发明，显示装置能够容易地和有效地识别用户的语音命令并且相应地控制显示装置的特征。

根据本发明，显示装置通过专用至少一个语音识别单元以处理用户的自然语言语音命令在自然语言语音识别处理期间减少错误的发生。

附图说明

被包括以提供本发明的进一步理解和被合并并且组成此申请的一部分的附图，图示本发明的实施例并且连同描述一起用作解释本发明的原理。

在附图中：

图1图示现有技术的语音识别系统；

图2图示根据本发明的用于显示装置的框图；

图3a图示根据本发明的一些实施例的用于输入用于发起语音识别功能的第一命令的第一场景；

图3b图示根据本发明的一些实施例的用于输入第二语音命令的第二场景；

图3c图示根据本发明的一些实施例的用于输入第三语音命令的第三场景；

图3d图示根据本发明的一些实施例的用于输入第四语音命令的第四场景；

图3e图示根据本发明的一些实施例的用于输入第五语音命令的第五场景；

图3f图示根据本发明的一些实施例的用于输入用于结束语音识别功能的第六语音命令的第六场景；

图3g图示根据本发明的一些实施例的电视返回到默认状态的第七场景；

图4a图示根据本发明的一些实施例的用于输入用于发起语音识别功能的第一命令的第一场景；

图4b图示根据本发明的一些实施例的用于输入第二语音命令的第二场景；

图4c图示根据本发明的一些实施例的用于输入第三语音命令的第三场景；

图4d图示根据本发明的一些实施例的用于输入第四语音命令的第四场景；

图4e图示根据本发明的一些实施例的电视返回到默认状态的第五场景；

图5图示根据本发明的一些实施例的描述一组操作步骤的流程图；以及

图6图示根据本发明的一些实施例的描述另一组操作步骤的流程图。

具体实施方式

现在详细地参考本发明的示例性实施例，在附图中图示其示例。对于本领域的普通技术人员来说显而易见的是，在下面的描述的某些实例中，在没有传统的详情的具体详情的情况下描述本发明，以便于避免不必要地分散本发明。如有可能，将会贯穿附图使用相同的附图标记以指代相同或者相似的部件。显示装置的所有的提及要被理解为对本发明的显示装置做出的提及，除非另有明文规定。

因此断定根据本发明的显示装置能够通过合并多个语音识别单元提供用户的语音命令的快速且有效的识别。参考图2，提供用于根据本发明的一些实施例的显示装置200的通用架构框图。要了解的是，其是在本发明的范围内以利用可以包括比在图2中清楚地图示的显示装置更少或者更多数目的组件的显示装置。在图2中图示的显示装置200优选地是电视机，但是可替选地，例如，显示装置可以是移动通信装置、笔记本计算机、个人计算机、平板计算设备、便携式导航装置、便携式视频播放器或者个人数字助手(PDA)。

显示装置200包括调谐器201、解复用器202、音频处理器203、视频处理器204、显示器205、扬声器206、通信单元206、麦克风207、系统控制器208、第一语音识别单元209、第二语音识别单元210以及存储单元211。

虽然在图2中没有具体地图示全部，但是显示装置200的组件能够经由一个或者多个通信总线或者信号线相互通信。也应了解的是，显示装置200的组件可以被实现为硬件、软件或者硬件和软件两者的组合(例如，中间件)。

可以包括多个不同的调谐器的调谐器201能够被调谐到数字广播频道并且接收包括经由可以被复用成被调谐的频道的服务所接收到的MPEG传输流的信号。解复用器202将MPEG传输流解析成音频、视频以及数据信号。音频信号被传输到音频处理器203以便于执行音频信号的解码，其将会使音频信号恢复到其原始形式用于输出。在音频处理器203内解码音频信号之后，音频信号将处于可以由扬声器206输出的状态。视频信号被传输到视频处理器204以便于执行视频信号的解码，其将会使视频信号恢复到其原始形式用于输出。在视频处理器204内解码视频信号之后，视频信号将处于可以在显示器205上输出的状态。数据信号可以被传输到系统控制器209用于处理。

如在图2中所图示，通信单元206可以包括允许无线接入到诸如因特网、局域网(LAN)、广域网(WAN)等等的外部通信网络的RF电路。通过通信单元206接入的无线通信网络可以遵循包括，但不限于，全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址接入(CDMA)、宽带码分多址接入(W-CDMA)、时分多址接入(TDMA)、蓝牙、无线保真(Wi-Fi)、短消息服务(SMS)文本消息的各种通信标准和协议以及允许通过显示装置200的无线通信的任何其它的相关通信标准或者协议。

此外，通信单元206可以包括用于允许在显示装置200和外部电子装置之间的有线数据传送通信的各种输入和输出接口(未示出)。例如，接口可以包括允许根据通用串行总线(USB)标准族、IEEE 1394标准族的数据传送或者其它与数据传送相关的相似标准的接口。

经由通信单元206显示装置200可以接收组合视频、音频和数据信号的多媒体信号。这样的多媒体信号被系统控制器208发送到解复用器202以将其分离成单个的视频、音频和数据信号。在解复用器将多媒体信号解析成单个的视频、音频和数据信号之后，视频信号被发送到视频处理器204，用于被要求使视频信号进入可以被显示的原始状态的任何解码，并且最终可以在显示器205上显示被解码的视频信号。在解复用之后，音频信号被发送到音频处理器203，用于被要求使音频信号进入可以被显示的原始状态的任何解码，并且最终可以通过扬声器206输出被解码的音频信号。数据信号可以被传输回到系统控制器208用于处理。

系统控制器208，连同被存储在存储单元211上的数据和指令，将会控制显示装置200的全部操作。以这样的方式，系统控制器208能够控制如在图2中所图示的和没有具体地图示的显示装置200的所有的组件。如在图2中所图示的存储单元211可以包括诸如非易失性随机访问存储器(NVRAM)或者电可擦写可编程只读存储器(EEPROM)的非易失性类型的存储器，通常被称为闪存。存储单元211也可以包括诸如动态随机访问存储器(DRAM)和静态随机访问存储器(SRAM)的高速随机访问存储器的其它形式，或者包括磁性硬盘驱动器(HDD)。在柔性显示装置是移动装置的情况下，存储单元211可以附加地包括用于存储用户特征信息的用户身份模块(SIM)卡。

麦克风207被显示装置200利用以拾取存在于围绕显示装置200的环境内的音频信号(例如，用户的语音输入)。关于本发明，麦克风207用以拾取对显示装置200讲出的用户的语音输入。麦克风207经常处于“接通”状态以确保可以总是接收到用户的语音输入。即使当显示装置200处于切断状态时，麦克风可以被保持接通以便于允许使用用户的语音输入命令打开显示装置200。

第一语音识别单元209接收通过麦克风207拾取的用户的语音输入并且在对应于用户的语音输入的音频数据上执行语音识别过程以解释用户的语音输入的意思。然后第一语音识别单元209可以将被解释的语音输入与可以被存储为第一语音识别单元209的部分的预设语音命令的集合相比较。可替选地，预设语音命令的集合可以被存储在存储单元211内。如果语音输入匹配预设语音命令中的一个，则将此信息发送到系统控制器208并且系统控制器208可以相应地控制显示装置200的特征。预设语音命令的示例可以包括“向上”、“升高”、“向下”、“降低”、“停止”以及“退出”。

在一些实施例中，预设语音命令的集合也可以包括预设命令单词和用户的自然语言语音输入的组合。例如，如果用户说出“向上跳过十”以便于向前向上跳过十个频道，则第一语音识别单元209可以被配置以将单词“跳过”和“向上”识别为预设命令单词。然而，第一语音识别单元209可以利用自然语言识别过程以将数字“十”识别为指示十个单位，在此情况下的单位为频道。因为预设用户可能想要向前跳过的频道的所有可能数目可能不是有效的，并且也给用户提供更大的控制能力，所以可以在第一语音识别单元209上实现此过程。例如，由于各个电视内容提供服务允许宽范围的可用的频道(例如，卫星提供商、有线提供商、ipTV提供商、广播电视提供商)的事实，电视制造商不能精确地预测是可用的频道的数目。并且在这样的情况下，将所有可能的频道数目组合存储为预设语音命令可能过度复杂。因此允许第一语音识别单元209处理预设语音命令和自然语言语音命令的组合为第一语音识别单元209提供更加有效和灵活的方法以识别一系列广泛的语音命令。可替选地，如果存储大量的预设语音命令的集合不是问题，则可以将预设语音命令的集合进行扩展以包括所有可能的要别识别的语音命令。在此可替选的情况下，用户的语音命令，“向上跳过十”将会是预设语音命令的集合的一部分。

然而如果语音输入没有被第一语音识别单元209识别为包括任何预设语音命令单词，则用户的被解释的语音输入被发送到第二语音识别单元210。当用户的被解释的语音输入不包含匹配任何的预设语音命令单词的任何单词时，则这是用户使用自然语言已经讲出的指示。自然语言能够被认为是用户自然地，或者自由地讲出，没有考虑匹配预设语音命令单词。第二语音识别单元210被专用于处理用户的自然语言语音输入并且确定是否语音命令是想要的。

如所提及的，通过麦克风207所拾取的没有通过第一语音识别单元209被识别为包括预设语音命令单词的任何语音输入将会被发送到第二语音识别单元210用于处理。然后第二语音识别单元210将会确定是否能够从用户的自然语言语音输入解释适当的语音命令，并且如果这样被确定的语音命令信息将会被发送到系统控制器208，其中系统控制器208将会相应地处理显示装置特征的控制。在一些可替选的实施例中，第二语音识别单元210可以位于外部服务器上。在这样的情况下，可以经由通信单元206进行在显示装置200和位于外部服务器上的第二语音识别单元210之间的通信。

应该理解的是，根据本发明对显示装置的组件的所有后续引用旨在对应于如上所述的各种组件。

现在注意图3，其图示要被用户的语音输入命令控制的显示装置特征是音量调节特征的各种场景。图3a图示在正常的观看状态下用户正在欣赏正在显示装置300上播放的节目的场景。当用户正在欣赏正在显示装置300上播放的节目时，用户可以决定音量需要被调高。然后用户可以讲出，“我想要音量控制”，作为第一语音输入320-1。通过显示装置300的麦克风拾取用户的第一语音输入320-1。

从麦克风，在第一语音识别单元处处理用户的第一语音输入320-1以便于将第一语音输入320-1解释为词汇信息。然后第一语音识别单元将会将被解释的第一语音输入320-1和预设语音命令单词的集合相比较以确定通过用户的第一语音输入320-1所讲出的任何单词是否匹配预设语音命令。在本示例中，第一语音输入320-1可以被理解为不包含预设语音命令单词的自然语言语音输入。因此，因为发现第一语音输入320-1不包含预设语音命令单词，所以第一语音识别单元将会将对应于第一语音输入320-1的词汇信息发送到第二语音识别单元。在一些实施例中，也可以将第一语音输入320-1音频信息发送到第二语音识别单元。

第二语音识别单元专用于处理在第一语音识别单元处没有与预设语音命令单词相匹配的用户的语音输入。这样的语音输入可以被称为自然语言语音输入。因此在这样的情况下，用户的第一语音输入320-1未被第一语音识别单元识别为匹配预设语音命令单词，并且因此已经将第一语音输入320-1发送到第二语音识别单元用于处理。第二语音识别单元将会处理对应于第一语音输入320-1的词汇信息并且将其和单词的数据库相比较以获得对用户可以通过第一语音输入320-1想要什么命令的估计。另外，第二语音识别单元也可以考虑显示装置的当前状态以获得用户的想要的语音命令是什么的更加精确的估计。因此通过处理第一语音输入320-1单词，“我想要音量控制”，并且考虑显示装置300处于缺省观看状态，第二语音识别单元可以确定用户正在试图在显示装置300上发起语音命令模式。当第二语音识别单元确定对用户的第一语音输入320-1的意图的最佳估计是要发起语音命令模式时，第二语音识别单元将会将此信息传达到显示装置300的系统控制器。然后系统控制器将会进行必要的步骤以发起语音命令模式。

图3b图示在已经发起了语音命令模式的状态中的显示装置。通过首先发起语音命令模式，可以显示第一菜单301-1。第一菜单301-1由对用户来说可用以讲出以便于控制某些音量控制特征的预设语音命令单词的列表组成。例如，图3b所图示的第一菜单301-1看到包括下面的预设语音命令单词：“向上”、“升高”、“向下”、“降低”以及“音量”数字。而且当语音命令模式是活跃的时在显示装置300上显示音量显示图302和音量显示盒303。音量显示图302和音量显示盒303被显示以便于在显示装置300上分别地提供当前音量的图形的和数字的表示。例如，在图3b中，音量显示图302和音量显示盒303指示显示装置300处于音量在五处的状态。虽然音量显示图302和音量显示盒303两者被描述为同时显示，但是在一些实施例中，音量显示图302或者音量显示盒303中的一个可以被单独地显示。

在通过图3b所描述的场景中，看到用户已经讲出通过显示装置300的麦克风所拾取的第二语音输入302-2，“向上”。因为在第一菜单301-1上看到的所有的语音命令是被存储在显示装置300上的预设语音命令的集合的部分，所以第二语音输入，“向上”，被第一语音识别单元处理并且被第一语音识别单元识别为用于将音量增加单个单位的语音命令。因此显示装置300的系统控制器将会获知通过响应于用户的第二语音输入320-2将音量增加单个单位来控制音量特征。应该注意的是，显示装置300的麦克风能够从背景噪声321和322当中拾取用户的第二语音输入320-2。

在图3c中图示用户的第二语音输入320-2的结果，在图3c中示出的音量已经被增加了单个单位。音量显示图302和音量显示盒303被描述为指示音量已经增加了单个单位，从五至六。在图3c中描述的场景也图示提供附加的可用的语音命令单词“停止”和“退出”的正在被显示的第二菜单301-2。虽然显示装置300的当前实施例预期当首先发起语音命令模式时具有第一菜单301-1并且在继续语音命令模式的使用期间具有第二菜单301-2，本发明的其它实施例可以在语音命令模式的整个操作期间仅具有单个可用的语音命令菜单。也要注意的是，虽然本发明的一些实施例可以利用描述不同的可用的语音命令单词的集合的多个的不同菜单，但是被存储在存储单元内的可用的语音命令单词的集合保持相同并且因此在任何时间是可用的。例如，虽然在第二菜单301-2中显示语音命令单词“退出”并且没有在第一菜单301-1中显示，但是当仅显示第一菜单301-1时显示装置仍然可以识别和处理讲出“退出”的用户的语音输入。

在通过图3c描述的场景中，现在看到用户讲出命令，“升高”，作为第三语音输入320-3。通过显示装置300的麦克风从背景噪声321和322当中也拾取第三语音输入320-3。第三语音输入320-3也被包括在被存储在显示装置300上的预设语音命令单词的集合中，并且因此通过第一语音识别单元处理和识别用户的第三语音输入320-3。然后第一语音识别单元将用户的第三语音输入320-3的意图传达到系统控制器，然后该系统控制器将会根据“升高”语音命令控制显示装置300的音量特征。在一些实施例中，“升高”语音命令可以将显示装置300的音量特征递增地增加预定数目的单位。例如，根据一些实施例可以响应于“升高”语音命令将音量增加十个单位。在其它的实施例中，语音命令“升高”可以导致音量特征的无限增加直至识别用于停止音量增加的后续的语音命令(例如，“停止”或“退出”)。这可以与用户物理地在遥控器上按下在音量增大按钮上类似。

当音量特征响应于“升高”语音命令实现处于正在被增加的过程中时，用户可以说出第四语音输入320-4，“停止”，用于停止如在图3d中所描述的音量的增加。虽然在正常的条件下音量响应于“升高”语音命令已经持续增加，但是看到用户的第四语音输入320-4已经中断音量的进一步增加。音量显示图302和音量显式盒303指示在音量已经达到九个单位之后音量增加被中断。

用户的第四语音输入320-4是如通过第二菜单301-2所图示的可用的预设语音命令单词的集合的部分。因此在从背景噪声321当中通过麦克风拾取用户的第四语音输入320-4之后，第四语音输入320-4可以被第一语音识别单元处理和识别。然后第一语音识别单元将第四语音输入320-4的想要的命令传达到显示装置的系统控制器，其中系统控制器将会根据用户的第四语音输入320-4实现音量的控制。在这样的情况下，用户的第四语音输入320-4，“停止”，对应于用于停止音量特征的递增的增加的命令。可替选地，如果音量特征处于正在被增量地减少的过程中，第四语音输入320-4，“停止”，可以类似地导致音量的递增的减少的停止。

如上所提及，第一识别单元的独特的特征中的一个是识别包括预设单词和自然语言单词两者的用户的语音命令的能力。为了更好地图示第一语音识别单元的这个特征，在图3e中看到用户讲出第五语音输入320-5，“音量二十二”，其包括预设单词和自然语言单词两者。在背景噪声321当中通过显示装置300的麦克风拾取第五语音输入320-5。一旦第一语音识别单元接收第五语音输入320-5，第一语音识别单元将会处理第五语音输入320-5以便于将第五语音输入320-5的音频信息解释为词汇信息。在处理第五语音输入320-5之后，第一语音识别单元将会识别“音量”是预设语音命令单词，然而数字“二十二”可以或者可以没有作为预设语音命令单词的集合的部分被包括。在没有将数字“二十二”识别为预设语音命令单词的情况下，第一语音识别单元可以进一步执行自然语言语音识别以确定对于用户的第五语音输入320-5的“二十二”音频信息部分的解释。在一些实施例中，当要求自然语言语音识别时，第一语音识别单元可以可替选地与第二语音识别单元通信。

在任何情况下，第一语音识别单元能够对没有被立刻识别为预设语音命令单词的用户的第五语音输入320-5的部分完成自然语言语音识别。在完成语音识别之后，第一语音识别单元能够识别第五语音输入320-5想要将显示装置300的音量修改成二十二个单位。然后将此信息从第一语音识别单元中继到显示装置300的系统控制器，系统控制器反过来将显示装置300的音量修改到二十二个单位。产生的音量变化被显示在在图3f中图示的显示装置300上。

虽然在图3f中描述的场景中假定必须在自然语言语音识别下处理第五语音输入320-5的数字部分，在一些实施例中与用户的语音输入的数字部分相对应的音频信息可以被简单地存储为预设的语音命令单词中的一个。在一些实例中这可以比使用自然语言语音识别解释与数字相对应的音频信息更加有效。例如，对应于所有可能的音量级别的数字可以被配置为是预设语音命令单词的集合的部分。

图3f图示遵循用户的第五语音输入320-5的执行的状态下的显示装置300。因此音量显示图302和音量显示盒303都指示显示装置300的当前音量被设置为二十二。在此状态下，也看到用户说出第六语音输入320-6，“退出”，其想要退出显示装置300的语音命令模式。从背景噪声321当中通过显示装置300的麦克风拾取用户的第六语音输入320-6，并且第六语音输入320-6被发送到第一语音识别单元。

用户的第六语音输入320-6通过第一语音识别单元处理并且被识别以对应于预设语音命令单词。然后被解释的语音命令被发送到反过来将会实现语音命令的系统控制器，在本情况下该语音命令是退出语音命令模式。在图3g中描述显示装置300返回到正常的观看状态的结果。虽然图示图3g以当显示装置300返回到正常的观看状态时让音量显示盒303保持在显示装置300的显示屏幕上，在一些实施例中在从语音命令模式退出之后可以不显示音量显示盒303。

根据本发明的语音命令模式对于可以被递增地增加或者减少的显示装置的任何特征来说是可用的。其它的这样的特征包括颜色调节特征(例如，颜色亮度、颜色对比度、颜色清晰度)、显示调节特征(例如，向上、向下、向左或者向右调节显示的图片的位置)以及频道变化特征。为了进一步提供本发明的描述将会关注用于显示装置的频道调节特征的语音命令模式。

图4图示通过用户的语音输入命令控制频道变化特征的各种场景。图4a图示在正常的观看状态下用户正在欣赏正在显示装置400上播放的节目的场景。当用户正在欣赏正在显示装置400上播放的节目时，用户可以决定改变频道。然后用户可以讲出，“我想要频道控制”，作为第一语音输入420-1。通过显示装置400的麦克风拾取用户的第一语音输入420-1。

从麦克风，在第一语音识别单元处处理用户的第一语音输入420-1以便于将第一语音输入420-1的音频信息解释为词汇信息。然后第一语音识别单元将会将被解释的第一语音输入420-1和预设语音命令单词的集合相比较以确定通过用户的第一语音输入420-1所讲出的任何单词是否匹配预设语音命令。在本示例中，第一语音输入420-1可以被理解为不包含预设语音命令单词的自然语言语音输入。因此，因为发现第一语音输入420-1不包含预设语音命令单词，所以第一语音识别单元将会将对应于第一语音输入420-1的词汇信息发送到第二语音识别单元。在一些实施例中，也可以将第一语音输入420-1音频信息发送到第二语音识别单元。

第二语音识别单元专用于处理在第一语音识别单元处没有与预设语音命令单词相匹配的用户的语音输入。这样的语音输入可以被称为自然语言语音输入。因此在这样的情况下，用户的第一语音输入420-1未被第一语音识别单元识别为匹配预设语音命令单词，并且因此已经将第一语音输入420-1发送到第二语音识别单元用于处理。第二语音识别单元将会处理对应于第一语音输入420-1的词汇信息并且将其和单词的数据库相比较以获得对用户可以通过第一语音输入420-1想要什么命令的估计。另外，第二语音识别单元也可以考虑显示装置的当前状态以获得用户的想要的语音命令是什么的更加精确的估计。因此通过处理第一语音输入420-1单词，“我想要频道控制”，并且考虑显示装置400处于缺省观看状态，第二语音识别单元可以确定用户正在试图在显示装置400上发起语音命令模式。当第二语音识别单元确定对用户的第一语音输入420-1的意图的最佳估计是要发起语音命令模式时，第二语音识别单元将会将此信息传达到显示装置400的系统控制器。然后系统控制器将会进行必要的步骤以发起语音命令模式。

图4b图示在已经发起了语音命令模式的状态中的显示装置。通过首先发起语音命令模式，可以显示菜单401。菜单401由对用户来说可用以讲出以便于控制某些音量控制特征的预设语音命令单词的列表组成。例如，图4b所图示的菜单401看到包括下面的预设语音命令单词：“向上”、“向上跳过”数字、“向下”、“向下跳过”数字、“频道”数字以及“退出”。而且当语音命令模式是活跃的时在显示装置400上显示音量显示盒403。音量显示盒403被显示以便于在显示装置400上提供当前频道的数字的表示。例如，在图4b中，音量显示盒403指示显示装置400处于当前观看频道是频道一(1)的状态。

在通过图4b所描述的场景中，看到用户已经讲出通过显示装置400的麦克风所拾取的第二语音输入402-2，“向上”。因为在菜单401上看到的所有的语音命令是被存储在显示装置400上的预设语音命令的集合的部分，所以第二语音输入，“向上”，被第一语音识别单元处理并且被第一语音识别单元识别为用于将当前频道增加单个频道的语音命令。因此显示装置400的系统控制器将会获知通过响应于用户的第二语音输入420-2将当前频道增加单个频道来控制频道特征。应该注意的是，显示装置400的麦克风能够从背景噪声421当中拾取用户的第二语音输入420-2。

在图4c中图示用户的第二语音输入420-2的结果，在图4c中示出的频道已经被增加了单个频道，从频道一(1)到频道二(2)。通过指示当前频道现在是频道二(2)的频道显示盒403给出视觉指示。

在通过图4c描述的场景中，现在看到用户讲出命令，“向上跳过十”，作为第三语音输入420-3。通过显示装置400的麦克风从背景噪声421当中也拾取第三语音输入420-3。第三语音输入420-3是由预设单词和自然语言单词组成。一旦第一语音识别单元接收第三语音输入420-3，第一语音识别单元将会处理第三语音输入420-3以便于将第三语音输入420-3的音频信息解释为词汇信息。在处理第三语音输入420-3之后，第一语音识别单元将会识别“音量”是预设语音命令单词，然而数字“十”可以或者可以没有作为预设语音单词的集合的部分被包括。在没有将数字“十”识别为预设语音命令单词的情况下，第一语音识别单元可以进一步执行自然语言语音识别以确定对于用户的第三语音输入420-3的“十”音频信息部分的解释。在一些实施例中，当要求自然语言语音识别时，第一语音识别单元可以可替选地与第二语音识别单元通信。

在任何情况下，第一语音识别单元能够对没有被立刻识别为预设语音命令单词的用户的第三语音输入420-3的部分完成自然语言语音识别。在完成语音识别之后，第一语音识别单元能够识别第三语音输入420-3想要将显示装置400的频道修改成增加了十个频道。然后将此信息从第一语音识别单元中继到显示装置400的系统控制器，系统控制器反过来将显示装置400的当前频道变成是先前的当前频道上面的10个频道的频道。产生的频道变化被显示在在图4d中图示的显示装置400上，其中频道显示盒403将当前频道显示为十二(12)。

虽然在图4c中描述的场景中假定必须在自然语言语音识别下处理第三语音输入420-3的数字部分，在一些实施例中与用户的语音输入的数字部分相对应的音频信息可以被简单地存储为预设的语音命令单词中的一个。在一些实例中这可以比使用自然语言语音识别解释与数字相对应的音频信息更加有效。例如，对应于所有可用的频道的范围的数字可以被配置为是预设语音命令单词的集合的部分。

图4d图示遵循用户的第三语音输入420-3的执行的状态下的显示装置400。因此频道显示盒403指示显示装置400的当前频道是频道十二(12)。在此状态下，也看到用户说出第四语音输入420-4，“退出”，其想要退出显示装置400的语音命令模式。从背景噪声421当中通过显示装置400的麦克风拾取用户的第四语音输入420-4，并且第四语音输入420-4被发送到第一语音识别单元。

用户的第四语音输入420-4通过第一语音识别单元处理并且被识别以对应于预设语音命令单词。然后被解释的语音命令被发送到反过来将会实现语音命令的系统控制器，在本情况下该语音命令是退出语音命令模式。在图4e中描述显示装置400返回到正常的观看状态的结果。虽然图示图4e以当显示装置400返回到正常的观看状态时让频道显示盒403保持在显示装置400的显示屏幕上，在一些实施例中在从语音命令模式退出之后可以不显示频道显示盒403。

图5是描述根据本发明的一些实施例的在显示装置上的用于最初进入语音命令模式的一系列步骤的流程图。当观看显示装置上的内容时，用户可以决定在显示装置上发起语音命令模式。用于发起语音命令模式的一个方法是，进行要求显示装置开始语音命令模式的语音输入。因此在步骤501中用户可以讲出通过显示装置的麦克风拾取并且通过第一语音识别单元后续接收到的语音输入。

在第一语音识别单元处，第一语音识别单元将会将用户的语音输入和预设语音命令单词的列表相比较，如在步骤502中所看到的。现在如果用户的语音输入匹配是预设语音命令单词的列表的部分的语音命令单词，用户的语音输入将会保持在第一语音识别单元中并且被第一语音识别单元处理，如在步骤503中所看到的。语音输入的处理至少包括解释语音输入、匹配语音输入与被包括在预设语音命令单词的列表中的语音命令单词以及将适当的控制信息传输到系统控制器以在显示装置上实现适当的控制。

然而，如果包括用户的语音输入的单词都不匹配被包括在预设语音命令单词的列表中的语音命令单词，则用户的语音输入被发送到第二语音识别单元用于进一步处理。通过第二语音识别单元进行的进一步处理至少包括对用户的语音输入执行自然语言语音识别以确定用户的语音输入的解释。一旦通过第二语音识别单元对用户的语音输入完成自然语言语音识别过程，显示装置可以确定用户的语音输入是否对应于可以被用于控制显示装置的特征的适当的语音命令。

图6图示描述用于利用用于根据本发明的语音命令模式控制显示装置的特征的一系列步骤的流程图。在步骤601处用户讲出用于增加显示装置的特征的语音命令。可能的特征的示例可以包括显示装置的音量、颜色或者频道特征。并且假定第一语音识别单元或者第二语音识别单元中的一个已经适当地处理用户的语音命令，如对于在图5中描述的序列所描述的，在步骤602处显示装置的特征被增加。

接下来在步骤603中显示装置确定是否用户的语音命令想要将特征增加了大于一个单位。如果语音命令想要仅将显示装置的特征增加一个单位，则在步骤606中特征的增加被停止。这样的情形的示例是用户可以使用语音命令以将当前频道增加到下一个更高的频道。在的这样的情形下语音命令想要将频道仅增加一，并且在第一增加之后进一步的增加不是必要的。

然而，可以存在想要将显示装置的特征增加大于单个单位的其它语音命令。例如，用户的语音命令可以想要将显示装置的音量递增地增加十个单位。然后音量可以被递增地增加直到其比在语音命令被识别之前的音量设置增加高了十个单位。因此如果用户的语音命令打算将显示装置的特征增加大于一，则序列移向步骤604。

在步骤604中，显示装置确定是否已经达到根据用户的语音命令显示装置的特征被想要被增加的单位的数目。换言之，如果用户的语音命令想要将音量特征增加十个单位，步骤604是显示装置必须确定是否音量特征确实已经被增加了十。如果显示装置确定已经达到数目，则显示装置的特征停止被增加，如在步骤606中所描述的。然而，如果显示装置确定还没有达到数目，则序列前进到步骤605。

在步骤605中显示装置确定通过用户是否已经讲出用于停止显示装置特征的增加的后续的语音命令。如果用户确实已经讲出用于停止特征的增加的语音命令，并且显示装置已经识别用于停止特征的增加的语音命令，则步骤606描述显示装置停止特征的增加。然而如果通过显示装置没有识别用于停止特征的增加的这样的语音命令，则序列返回到特征被递增地增加的步骤602。

显而易见的是，描述根据本发明的过程的先前描述的流程图可以包括比在流程图中清楚地图示的更多或者更少的操作步骤。而且，在先前描述的图5和图6的流程图中描述的各个操作步骤可以关于彼此被串行或者并行地执行。

另外，虽然在仅处理显示装置的音量设置特征和频道设置特征方面已经清楚地描述本发明，但是利用语音命令操作以处理各种不同的特征在本发明的范围内。例如，根据本发明的语音命令操作可以被利用以处理显示装置的音量、频道、颜色、亮度、对比度、菜单或者页面设置特征。

总体上，对于本领域的普通技术人员来说将会显而易见的是，在本发明中能够进行各种修改和变化。因此，尽管参考具体示例和实施例已经描述了前述描述，但是这些不旨在是详尽的或者不旨在将本发明仅限于具体地描述的那些示例和实施例。

本发明的实施方式

如上所述，在用于实现本发明的实现的上述“具体实施方式”中已经充分地论述了有关描述。

对于本领域的技术人员来说将会显而易见的是，在没有脱离本发明的精神或者范围的情况下能够在本发明中进行各种修改和变化。因此，旨在倘若它们落入随附的权利要求和它们的等效物的范围内本发明覆盖本发明的修改和变化。

工业实用性

如上所述，本发明可以被整体地或者部分地应用于具有语音识别能力的显示装置以及其控制方法。

Claims

1.一种显示装置，包括：

麦克风，所述麦克风被配置以接收第一语音输入；

第一语音识别单元，所述第一语音识别单元被配置以接收所述第一语音输入并且将所述第一语音输入识别为不通过所述第一语音识别单元进一步处理的语音输入；

第二语音识别单元，所述第二语音识别单元被配置以接收所述第一语音输入并且处理所述第一语音输入以获得第一语音命令，以及

系统控制器，所述系统控制器被配置以根据所述第一语音命令控制所述显示装置的特征；以及

显示器，所述显示器被配置为显示包括可用的语音命令的第一菜单，其中，可用的语音命令的第一菜单的显示是根据所述第一语音命令控制的所述特征，

其中，所述第一语音识别单元进一步被配置为：

接收第二语音输入，并且

处理所述第二语音输入以获得第二语音命令，

其中，所述系统控制器进一步被配置为根据所述第二语音命令控制所述显示装置的特征，

其中，在根据所述第二语音命令控制所述显示装置的所述特征之后显示可用的语音命令的第二菜单，

其中，所述第二菜单包括没有显示在可用的语音命令的所述第一菜单上的至少一个新的附加的语音命令。

2.根据权利要求1所述的显示装置，其中，所述第一语音命令是自然语言语音命令，并且所述第一语音命令的识别发起语音输入命令模式。

3.根据权利要求1所述的显示装置，其中，通过外部网络接收所述第一语音输入。

4.根据权利要求1所述的显示装置，其中，当只有对应于被显示在可用的语音命令的所述菜单上的语音命令的语音输入通过所述第一语音识别单元被识别时，所述第二语音命令对应于被显示在可用的语音命令的第一菜单上的所述语音命令中的一个。

5.根据权利要求1所述的显示装置，其中，响应于所述第二语音命令所述显示装置的所述特征被控制以增加一个单位。

6.根据权利要求5所述的显示装置，其中，所述显示装置的所述特征是音量、频道、颜色、亮度、对比度、菜单或者页面设置中的一个。

7.根据权利要求1所述的显示装置，其中，响应于所述第二语音命令所述显示装置的所述特征被控制以增加预定数目的单位。

8.根据权利要求7所述的显示装置，其中，所述显示装置的所述特征是音量、频道、颜色、亮度、对比度、菜单或者页面设置中的一个。

9.根据权利要求1所述的显示装置，其中，所述第二语音识别单元位于外部服务器上。