CN103811007A

CN103811007A - 显示装置、语音获取装置及其语音识别方法

Info

Publication number: CN103811007A
Application number: CN201310553280.4A
Authority: CN
Inventors: 蒋种赫; 崔赞熙; 柳熙涉; 朴劲美; 朴胜权; 裵在铉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-11-09
Filing date: 2013-11-08
Publication date: 2014-05-21
Anticipated expiration: 2033-11-08
Also published as: RU2015121906A; KR20140060040A; JP6640502B2; CN103811007B; CN104883587A; EP4106339A1; EP2731349B1; US20140136205A1; EP3352471B1; US11727951B2; JP5868927B2; US10043537B2; EP3352471A1; JP2016027484A; JP2014096153A; EP2731349A1; US20170337937A1; US20230121055A1; US10586554B2; US20200184989A1

Abstract

公开了显示装置、语音获取装置及其语音识别方法，所述显示装置包括：显示图像的显示单元；与多个外部装置通信的通信单元；以及控制器，其包括识别用户语音的语音识别引擎，从语音获取单元接收语音信号，并且控制所述通信单元从所述多个外部装置中的至少一个接收候选指令字以识别接收到的语音信号。

Description

显示装置、语音获取装置及其语音识别方法

技术领域

与示例性实施例一致的装置及方法涉及显示装置、语音获取装置及其语音识别方法，更具体地，涉及识别用户语音的显示装置、语音获取装置及其语音识别方法。

背景技术

语音识别功能被用在比如数字电视（TV）、空调、家庭影院、个人计算机（PC）以及移动电话等等的各种电子装置中。

为了执行语音识别功能，比如TV的主装置应该具有接收用户语音的麦克风和识别输入语音的语音识别引擎，并且语音识别引擎可以将输入语音与存储的候选指令字（instruction words）进行比较，并根据比较结果识别语音。

然而，具有语音识别功能的相关技术电子装置具有接收用户语音的固定装置，因此难以利用输入语音的各种输入装置，比如移动电话。此外，如果提供了许多候选指令字，则将提高识别率，但是电子装置将要比较候选指令字，这导致语音识别处理速度较慢。此外，因为主装置的存储容量有限，所以不能不断地增加候选指令字的数量。

发明内容

根据示例性实施例的方面，提供一种显示装置，其包括：显示单元，其在其上显示图像；通信单元，其与多个外部装置通信；以及控制器，其包括识别用户语音的语音识别引擎，从语音获取单元接收语音信号，并且控制所述通信单元从所述多个外部装置中的至少一个接收候选指令字以识别接收到的语音信号。

可以提供多个语音获取单元。如果对所述多个语音获取单元中的至少一个检测到语音输入，则所述控制器从对其检测到语音输入的语音获取单元接收语音信号。

所述语音获取单元可以包括下列各项中的至少一个：在所述显示装置中提供的内置麦克风、在多个外部装置中的至少一个中提供的第一外部麦克风、以及与内置麦克风和第一外部麦克风不同的第二外部麦克风。

所述外部装置可以包括可以管理候选指令字的至少一个应用。

所述显示装置还可以包括管理候选指令字的原生应用（nativeapplication）。

所述显示装置还可以包括存储单元，其在其中存储所接收到的候选指令字，并且所述语音识别引擎可以通过使用存储的候选指令字识别接收到的语音。

如果多个语音获取单元中的至少一个检测到唤醒关键字，则所述控制器可以启用检测到唤醒关键字的语音获取单元，并且从所启用的语音获取单元接收语音信号。

如果通过操纵在多个语音获取单元中的一个中提供的预定按钮输入了触发信号，则所述控制器可以启用通过其输入了触发信号的语音获取单元，并且从所启用的语音获取单元接收语音信号。

所述控制器可以控制所述显示单元在其上显示对于所述语音信号的语音识别结果以及与语音识别结果相对应的候选指令字。

所述显示单元可以在其上显示关于管理候选指令字的应用的信息。

所述语音识别引擎可以通过在接收到的候选指令字当中决定与接收到的语音信号相同或者相似的指令字来识别语音。

根据另一个示例性实施例的方面，提供一种语音获取装置，其包括：通信单元，其与具有语音识别功能的显示装置通信；语音获取单元，其接收用户语音；语音转换器，其将接收到的语音转换成电语音信号；以及控制器，其控制所述通信单元向所述显示装置发送所转换的语音信号以及候选指令字以识别所述语音信号。

所述语音获取装置还可以包括可以管理候选指令字的至少一个应用。

根据另一个示例性实施例的方面，提供一种显示装置的语音识别方法，其包括：从语音获取单元接收语音信号；从多个外部装置中的至少一个接收候选指令字以识别所接收到的语音信号；以及根据所接收到的语音信号以及候选指令字识别用户的语音。

所述语音识别方法还可以包括：检测输入到多个语音获取单元中的至少一个的语音，并且接收语音信号可以包括：从对其检测到语音输入的语音获取单元接收语音信号。

所述语音获取单元可以包括下列各项中的至少一个：在所述显示装置中提供的内置麦克风、在多个外部装置中的至少一个中提供的第一外部麦克风、以及在与所述显示装置和所述多个外部装置不同的装置中提供的第二外部麦克风。

所述外部装置可以包括管理候选指令字的至少一个应用。

所述显示装置还可以包括管理候选指令字的原生应用。

所述语音识别方法还可以包括存储所接收到的候选指令字，并且识别语音可以包括通过使用存储的候选指令字识别语音。

检测语音输入可以包括：检测输入到多个语音获取单元中的一个的唤醒关键字，以及启用检测到所述唤醒关键字的语音获取单元。

检测语音输入可以包括：根据在多个语音获取单元中的一个中提供的预定按钮的操纵检测触发信号的输入，以及启用通过其输入了所述触发信号的语音获取单元。

所述语音识别方法还可以包括：显示对于所述语音信号的语音识别结果以及与语音识别结果相对应的候选指令字。

所述显示可以包括：显示关于管理候选指令字的应用的信息。

识别语音可以包括：通过在接收到的候选指令字当中决定与接收到的语音信号相同或者相似的指令字来识别语音。

附图说明

从以下参照附图对示例性实施例的描述，以上和/或其它方面将变得清楚和更加容易理解，附图中：

图1图示了根据示例性实施例的语音识别系统的示例；

图2是根据示例性实施例的语音识别系统的框图；

图3图示了根据示例性实施例的语音识别执行的示例；

图4图示了作为图3中语音识别的结果显示的屏幕的示例；

图5图示了根据另一个示例性实施例的语音识别执行的示例；

图6是示出根据示例性实施例的语音识别系统的语音识别方法的流程图；

图7是示出图6中检测语音输入的过程的细节的流程图；以及

图8是示出图6中执行语音识别的过程的细节的流程图。

具体实施方式

下面，将参照附图详细描述示例性实施例。示例性实施例可以以各种形式来具体实现，而不局限于这里阐明的示例性实施例。为了清楚起见，省略了对公知部件的描述，并且相同的参考标记始终指代相同的元件。

图1图示了根据示例性实施例的语音识别系统的示例。

如图1中所示，语音识别系统包括主装置100、多个语音获取装置201和202、以及多个外部装置301、302和303。主装置100、多个语音获取装置201和202、以及多个外部装置301、302和303相互连接以相互通信。

主装置100包括用于接收用户语音的比如麦克风的语音获取单元140、以及用于识别输入语音并通过通信单元160与多个语音获取装置201和202以及多个外部装置301、302和303通信的语音识别引擎181。主装置100还包括被驱动以使主装置100执行各种功能（服务）的原生(native)应用171和172。原生应用171和172预先在其中存储与所述功能相对应的候选指令字。即，原生应用171和172被包括在可用的服务情景(available service scenario)中。存储在原生应用171和172中的候选指令字在语音识别时被发送到语音识别引擎181以使语音识别引擎181能够执行语音识别。

多个语音获取装置201和202中的每一个可以包括用于接收用户语音的比如麦克风的语音获取单元，并且与接收到的语音相对应的语音信号被发送到主装置100以用于语音识别。

多个语音获取装置201和202可以接收用户的语音，将所述语音转换为电语音信号，并且将所述电语音信号发送到主装置100。多个语音获取装置201和202可以执行与主装置100的无线通信。虽然无线通信包括无线LAN、射频（RF）通信、蓝牙、紫蜂、红外线（IR）通信等等，但是不局限于此。

多个外部装置301、302和303可以根据需要包括用于执行功能（服务）的至少一个开发应用（dev.Application）。开发应用预先在其中存储与由外部装置301、302和303执行的功能相对应的候选指令字。存储在开发应用中的候选指令字命令在语音识别时被发送到语音识别引擎181以使语音识别引擎181能够执行语音识别。

在原生应用171和172中以及在开发应用中预先存储的候选指令字可以是与应用的功能/操作相关的指令字。例如，如果主装置100是TV，则与TV的频道改变、音量调整等等相关的候选指令字可以被存储在原生应用171和172中的一个中。如果外部装置302是空调，则与空调的温度调整（升高/降低）、风的强度调整（强/弱/中等）等等相关的候选指令字可以被存储在外部装置302中所包括的应用中。

外部装置或者语音获取装置可以包括语音获取单元和开发应用两者。在这种情况下，如果语音被输入到第一外部装置301中的语音获取单元，则预先存储在第一外部装置301的开发应用中的候选指令字被发送到主装置100的语音识别引擎181以执行语音识别。

根据示例性实施例的语音识别系统包括至少一个语音获取单元。如果检测到输入到该语音获取单元的语音，则语音识别系统通过启用对其已经检测到语音输入的语音获取单元来接收语音流。如果提供了多个语音获取单元，则语音识别系统可以通过启用所述多个语音获取单元当中的对其已经检测到语音输入的语音获取单元来接收语音流。多个语音获取单元可以包括在主装置100中提供的内置麦克风、在多个外部装置301、302和303中的至少一个中提供的第一外部麦克风、以及在与主装置100及多个外部装置301、302和303不同的语音获取装置201和202中提供的第二外部麦克风。语音获取装置201和202与主装置100及多个外部装置301、302和303分离。

如果所述多个语音获取单元中的至少一个检测到唤醒关键字，则主装置100可以启用通过其检测到该唤醒关键字的语音获取单元，并且从所启用的语音获取单元接收语音信号。如果在所述多个语音获取单元中的至少一个中通过操纵预定按钮（例如，事件发生）输入了触发信号，则主装置100可以启用通过其输入了该输入触发信号的语音获取单元并且从所启用的语音获取单元接收语音信号。

主装置100可以以语音识别模式操作。如果通过唤醒关键字或者触发信号启用了至少一个语音获取单元，则主装置100可以禁用其它语音获取单元以防止出现语音识别错误。主装置100可以以远程或者进程语音识别模式（distant or adjacent voice recognition mode）操作。为了用户便利，主装置100可以显示示出连接到显示单元130（稍后将描述）的语音获取单元的用户接口（UI）。

主装置100可以从多个外部装置301、302和303中的至少一个接收候选指令字以识别接收到的语音信号。接收到的候选指令字可以被发送到语音识别引擎181以用于语音识别。

多个外部装置301、302和303包括管理候选指令字的至少一个应用。主装置100包括管理候选指令字的原生应用171和172。由原生应用171和172管理的候选指令字可以被发送到语音识别引擎181以用于语音识别。

主装置100可以被实现为如图2中的显示装置，比如电视（TV）。

图2是根据示例性实施例的语音识别系统的框图。

显示装置100处理来自外部图像供应源（未示出）的图像信号以基于经处理的图像信号显示图像。

在根据示例性实施例的语音识别系统中，显示装置100被实现为基于从广播站发射的广播信号/广播信息/广播数据来处理广播图像的TV或者机顶盒。然而，可以理解在一个或多个其它示例性实施例中，除了TV或者机顶盒之外，显示装置100可以适用于处理及显示图像的各种其它设备。例如，显示装置100可以包括个人计算机（PC）、便携式计算机等等。

此外，可以理解，可由显示装置100显示的图像的类型不局限于广播图像。例如，显示装置100可以基于由各种图像供应源（未示出）发送的信号/数据来显示例如，视频、静止图像、应用、屏上显示（OSD）、用于控制各种操作的图形用户接口（GUI）。

根据示例性实施例，显示装置100可以被实现为智能TV。智能TV可以实时接收并且显示广播信号，具有实时显示广播信号并通过互联网搜索各种内容的网络浏览器功能，并且提供用于做上述事项的便利的用户环境。智能TV可以包括给用户提供交互服务的开放的软件平台，并且可以通过该开放的软件平台给用户提供各种内容，例如，提供预定服务的应用。所述应用可以提供各种类型的服务，例如，SNS、金融、新闻、天气、地图、音乐、电影、游戏、电子书等等。

显示装置100包括用于识别用户语音的语音识别引擎181。与识别出的语音相对应的命令（例如控制命令）被发送到相应应用以执行操作。如果与控制命令相对应的应用是原生应用171和172中的一个，则显示装置100根据控制命令通过该应用来执行操作。如果与控制命令相对应的应用是开发应用，则控制命令被发送到包括开发应用的外部装置301、302和303。外部装置301、302和303可以根据控制命令通过该应用来执行操作。

参照图2，提供了多个语音获取装置，例如移动电话200及遥控器300。遥控器300可以充当语音获取装置和外部装置两者。移动电话200可以是具有语音获取功能的智能电话。

遥控器300可以通过用户操纵将预设命令（控制命令）发送给相应装置。遥控器300可以被设置为将命令发送给显示装置100或者外部装置，并且可以被实现为将命令发送给多个装置的综合遥控器(integrated remotecontroller)。遥控器300可以包括TV遥控器和/或空调遥控器。

语音获取装置可以被实现为接收用户语音的各种装置，例如，移动手机、麦克风发射器等等。

如图中所示2，提供了多个外部装置，例如遥控器300及空调400。如上所述，遥控器300可以充当语音获取装置和外部装置两者。

虽然图2图示了作为遥控器300和空调400的外部装置，但是示例性实施例不局限于此。例如，外部装置可以被实现为执行无线通信的其它各种电子设备，例如，被实现为家庭影院、无线电设备、VCR、DVD、洗衣机、电冰箱、机器人真空吸尘器等等。如果所述外部装置包括比如麦克风的语音获取单元，则外部装置也可以用作语音获取装置。

根据示例性实施例的外部装置包括分别执行功能的应用372和472。应用372和472预先存储候选指令字，并且管理所述候选指令字。所述候选指令字可以被发送到显示装置100以用于语音识别。

外部装置即遥控器300和空调400可以根据语音识别的结果执行与由显示装置100发送的控制命令相对应的操作。

下文中，参照图2，将详细描述语音识别系统的各个元件。

显示装置100可以包括：接收图像信号的图像接收器110；图像处理器120，其处理从图像接收器110接收到的图像信号；显示单元130，其基于由图像处理器120处理的图像信号显示图像；接收用户语音的第一语音获取单元140；第一语音转换器150，其将接收到的语音转换成电语音信号；与外部装置通信的第一通信单元160；存储各种数据的第一存储单元170；以及控制显示装置100的第一控制器180。

图像接收器110接收图像信号并将所述图像信号发送到图像处理器120。例如，图像接收器110可以从广播站（未示出）以无线的方式接收射频（RF）信号，或者根据比如合成视频、分量视频、超级视频、SCART（无线电与电视接收器制造商协会）、高清晰度多媒体接口（HDMI）等等的标准以有线的方式接收图像信号。如果所述图像信号包括广播信号，则图像接收器110包括通过信道调谐广播信号的调谐器。

可以从外部装置接收图像信号，所述外部装置例如，PC、AV设备、智能电话、智能平板等等。图像信号可以是通过比如互联网的网络发送的数据。在这种情况下，显示装置100可以通过第一通信单元160执行网络通信，并且可以包括附加的网络通信单元。可替换地，图像信号可以是被存储在第一存储单元170（例如，快闪存储器、硬盘驱动器（HDD）等等）中的数据。第一存储单元170可以在显示装置100的内部/外部提供。如果第一存储单元170在显示装置100的外部提供，则显示装置100可以包括第一存储单元170连接到其的连接器（未示出）。

图像处理器120对于所述图像信号执行各种图像处理操作，并且将经处理的图像信号输出到显示单元130。

图像处理器120的图像处理操作可以包括与各种图像格式相对应的解码操作、去隔行操作、帧刷新速率转换、缩放操作、用于提高图像质量的降噪操作、细节增强操作、行扫描操作等等，但是不局限于此。图像处理器120可以被实现为独立执行上述操作的单独的组，或者被实现为执行综合功能的片上系统（SoC）。

显示单元130基于由图像处理器120处理的图像信号来显示图像。显示单元130可以包括液晶显示器（LCD）、等离子体显示面板（PDP）、发光二极管（LED）、有机发光二极管（OLED）、表面传导电子发射器、碳纳米管、纳米晶体等等，但是不局限于此。

显示单元130可以根据其实施类型包括附加的元件。例如，作为LCD类型的显示单元130包括LCD面板（未示出）、将光发射到LCD面板的背光单元（未示出）以及驱动LCD面板的面板驱动基板（未示出）。

显示单元130可以显示语音识别结果作为关于识别出的语音的信息。语音识别结果可以以比如文本、图形、图标等等的各种形式来显示。文本包括字符和数字。显示单元130还可以根据语音识别结果及应用信息来显示候选指令字。稍后将参照图4更详细地对此进行描述。

用户可以基于在显示单元130上显示的语音识别结果检查是否已经正确识别出语音。用户可以操纵遥控器300中的用户输入单元330以从所显示的候选指令字选择与用户语音相对应的指令字，或者可以选择及检查与语音识别结果相关的信息。

第一语音获取单元140接收用户的语音，并且可以被实现为麦克风。

第一语音转换器150将由第一语音获取单元140输入的语音转换成电语音信号。经转换的语音信号可以采用脉冲编码调制（PCM）或者压缩的音频波形。第一语音转换器150可以被实现为将用户的语音转换成数字形式的A/D转换器。

如果第一语音获取单元140是数字麦克风，则它不需要附加的A/D转换。在这种情况下，第一语音获取单元140可以包括第一语音转换器150。

第一通信单元160与语音获取装置及外部装置通信，即，与移动电话200、遥控器300以及空调400通信。第一通信单元160可以执行包括红外通信、RF、紫蜂以及蓝牙中的至少一个的无线通信。

第一存储单元170通过第一控制器180的控制来存储数据。第一存储单元170被实现为非易失性存储介质，比如快闪存储器、硬盘驱动器（HDD）等等。第一存储单元170被读取/写入/更改/删除/更新数据的第一控制器180访问。

存储在第一存储单元170中的数据包括例如用于驱动显示装置100的操作系统（OS）、在OS上运行的各种应用、图像数据以及附加的数据等等。

第一存储单元170可以存储用于识别用户语音的各种数据。例如，第一存储单元170可以存储包括候选指令字的指令字表格171（下文中，也被称为候选指令字组），作为与接收到的语音信号相对应的识别出的语音信息。在指令字表格171中，候选指令字可以由相应应用来管理。

第一存储单元170还可以存储至少一个应用，例如第一应用172和第二应用173以执行显示装置100的功能。第一应用172和第二应用173通过第一控制器180（稍后将描述）的控制来驱动，并且执行显示装置100的各种功能。虽然图2图示了其中安装了两个应用172和173的显示装置100，但是示例性实施例不局限于此。即，可以在显示装置100中安装三个或更多个应用。

第一应用172和第二应用173可以管理与所执行的功能相对应的候选指令字。由第一应用172和第二应用173管理的候选指令字可以被注册到指令字表格171/从指令字表格171被删除。

如果候选指令字被注册到指令字表格171，则语音识别引擎181通过使用指令字表格171中的候选指令字来执行语音识别。

可以被注册到指令字表格171/从指令字表格171被删除的候选指令字可以包括由遥控器300（稍后将描述）的第三应用372管理的候选指令字以及由空调400的第四应用472管理的候选指令字。

第一控制器180控制显示装置100的各种元件。例如，第一控制器180控制图像处理器120处理图像信号，并且响应于来自遥控器300的命令执行控制操作以控制显示装置100的总体操作。

例如，第一控制器180可以被实现为与软件结合的中央处理单元（CPU）。

第一控制器180可以包括识别用户语音的语音识别引擎181。语音识别引擎181的语音识别功能可以通过使用已知的语音识别算法来执行。例如，语音识别引擎181提取所述语音信号的语音特征矢量，并且将所提取的语音特征矢量与存储在第一存储单元170的指令字表格171中的候选指令字进行比较以识别语音。如果没有与所述语音特征矢量相同的存储在指令字表格171中的候选指令字，则语音识别引擎181可以通过利用最相似的指令字调整语音识别结果来识别所述语音。如果存在多个相似的候选指令字，则第一控制器180可以在显示单元130上显示多个候选指令字，以供用户选择所述多个候选指令字中的一个。

根据示例性实施例的语音识别引擎181被实现为在CPU中提供的嵌入式语音识别引擎181，然而不限于此。例如，语音识别引擎181可以实现为与CPU分离地提供在显示装置100中的装置，即，被实现为比如微型计算机的附加芯片。

然而不限于此，示例性实施例包括在与显示装置100分离的服务器（下文中，将被称为云服务器（未示出））中提供的语音识别引擎181。云服务器通过比如互联网的网络与显示装置100通信。所述网络可以是有线网络或者无线网络。在这种情况下，语音识别引擎181可以被实现为在云服务器的CPU中提供的嵌入式语音识别引擎，或者被实现为与该CPU分离地提供在云服务器中的装置，即，比如微型计算机的附加芯片。

第一控制器180可以执行与语音识别引擎181的语音识别结果相对应的操作。例如，如果显示装置100是TV并且用户正在观看电影或者新闻，则语音识别引擎181可以识别比如“音量上升”、“音量下降”、“更大声”、“更小声”等等的语音，并且第一控制器180可以根据所述语音调整所述电影或者新闻的音量。

如果语音识别引擎181识别用于控制比如遥控器300或者空调400的外部装置的语音，则第一控制器180可以控制第一通信单元160将控制命令发送给与识别出的语音相对应的外部装置。例如，如果语音识别引擎181识别出“升高温度”的语音，则第一控制器180可以识别出该语音是用于控制空调400的，并且控制第一通信单元160将命令发送到空调400以升高空调400的温度。

下文中，将描述移动电话200的详细配置。

如图2中所示，移动电话200可以包括接收用户语音的第二语音获取单元240、将接收到的语音转换成电语音信号的第二语音转换器250、与外部通信的第二通信单元260、存储数据的第二存储单元270以及控制移动电话200的第二控制器280。

接收用户语音的第二语音获取单元240可以被实现为麦克风。第二语音转换器250将接收到的语音转换成电语音信号。经转换的语音信号可以采用脉冲编码调制（PCM）或者压缩的音频波形。第二语音转换器250可以被实现为将用户的输入语音转换成数字形式的A/D转换器。

如果第二语音获取单元240是数字麦克风，则它不需要附加的A/D转换。在这种情况下，第二语音获取单元240可以包括第二语音转换器250。

与显示装置100通信的第二通信单元260可以执行有线通信或者无线通信。所述无线通信可以包括RF、紫蜂以及蓝牙中的至少一个。

第二通信单元260可以将语音信号从第二语音转换器250发送到显示装置100。

第二存储单元270可以通过第二控制器280的控制来存储数据。第二存储单元270被实现为比如快闪存储器的非易失性存储介质。第二存储单元270被读取/写入/更改/删除/更新数据的第二控制器280访问。

存储在第二存储单元270中的数据可以包括例如用于驱动移动电话200的OS、在OS上运行的各种应用、图像数据以及附加的数据等等。

第二控制器280可以控制移动电话200的各种元件。例如，第二控制器280可以响应于用户操纵来生成命令，执行与生成的命令相对应的操作，并且在显示单元（未示出）上显示结果。

第二控制器280可以被实现为与软件结合的微控制器单元（MCU）。

如果通过第二语音获取单元240输入了用户语音，则第二控制器280控制第二语音转换器250将用户的语音转换成电语音信号并且控制第二通信单元260将经转换的语音信号发送到显示装置100。

下文中，将描述遥控器300的详细配置。

如图2中所示，作为语音获取装置以及外部装置的遥控器300可以包括：接收用户操纵的用户输入单元330；接收用户语音的第三语音获取单元340；第三语音转换器350，其将接收到的语音转换成电语音信号；与外部通信的第三通信单元360；存储数据的第三存储单元370；以及控制遥控器300的第三控制器380。

用户输入单元330可以通过用户的操纵和输入将各种控制命令或者信息发送到第三控制器380。用户输入单元330可以被实现为在遥控器300中提供的菜单键、数字键等等。如果遥控器300是TV遥控器，则用户输入单元330可以包括接收用户的触碰输入的触碰传感器(touch sensor)、和/或感测遥控器300的动作的动作传感器。

接收用户语音的第三语音获取单元340可以被实现为麦克风。

第三语音转换器350将由第三语音获取单元340输入的语音转换成电语音信号。经转换的语音信号可以采用脉冲编码调制（PCM）或者压缩的音频波形。第三语音转换器350可以被实现为将用户的输入语音转换成数字形式的A/D转换器。

如果第三语音获取单元340是数字麦克风，则它不需要附加的A/D转换。在这种情况下，第三语音获取单元340可以包括第三语音转换器350。

第三通信单元360与显示装置100通信。第三通信单元360执行无线通信。所述无线通信包括RF、紫蜂以及蓝牙中的至少一个。

第三通信单元360向显示装置100发送来自第三语音转换器350的语音信号以及由第三存储单元370（稍后将描述）的第三应用372管理的候选指令字。

通过第三控制器380的控制来存储数据的第三存储单元370可以被实现为比如快闪存储器等等的非易失性存储介质。第三存储单元370被读取/写入/更改/删除/更新数据的第三控制器380访问。

存储在第三存储单元370中的数据包括例如用于驱动遥控器300的OS、在OS上运行的各种应用、图像数据以及附加的数据等等。

第三存储单元370还可以存储至少一个应用，例如，用于执行遥控器300的功能的第三应用372。第三应用372通过第三控制器380（稍后将描述）的控制来驱动，并且执行遥控器300的各种功能。这里，第三应用372和第四应用472（稍后将描述）将被称为开发应用，以便与显示装置100的原生应用172和173区分开。

虽然图2图示了其中安装了一个应用372的遥控器300，但是示例性实施例不局限于此。即，可以在遥控器300中安装两个或更多个应用。

第三应用372可以管理与执行的功能相对应的候选指令字。由第三应用372管理的候选指令字可以被注册在显示装置100的指令字表格171中/从显示装置100的指令字表格171中删除。

第三控制器380可以控制遥控器300的各种元件。例如，第三控制器380可以响应于用户输入单元330的用户操纵生成命令，并且控制第三通信单元360将生成的命令发送给显示装置100。

第三控制器380可以被实现为与软件结合的MCU。

如果通过第三语音获取单元340输入了用户语音，则第三控制器380控制第三语音转换器350将用户的语音转换成电语音信号并且控制第三通信单元360将经转换的语音信号发送到显示装置100。

当与显示装置100通信时，第三控制器380可以向显示装置100发送由第三存储单元370的第三应用372管理的候选指令字。发送的候选指令字被注册在显示装置100的指令字表格171中并且被语音识别引擎181用来识别语音。

如果作为语音识别的结果，由显示装置100发送控制命令，则第三控制器380可以通过第三通信单元360接收所述控制命令并且执行与接收到的控制命令相对应的操作。

下文中，将描述空调400的详细配置。

如图2中所示，作为外部装置的空调400可以包括与外部通信的第四通信单元460、存储数据的第四存储单元470、以及控制空调400的第四控制器480。

与显示装置100通信的第四通信单元460可以执行包括RF、紫蜂以及蓝牙中的至少一个的无线通信。

第四通信单元460向显示装置100发送由第四存储单元470（稍后将描述）的第四应用472管理的候选指令字。

通过第四控制器480的控制存储数据的第四存储单元470可以被实现为比如快闪存储器的非易失性存储介质。第四存储单元470被读取/写入/更改/删除/更新数据的第四控制器480访问。

存储在第四存储单元470中的数据包括例如用于驱动空调400的OS、在OS上运行的各种应用、图像数据以及附加的数据等等。

第四存储单元470还可以存储至少一个应用（开发应用），例如，用于执行空调400的功能的第四应用472。第四应用472通过第四控制器480（稍后将描述）的控制来驱动，并且执行空调400的各种功能。

虽然图2图示了其中安装了一个应用472的空调400，但是示例性实施例不局限于此。即，可以在空调400中安装两个或更多个应用。

第四应用372可以管理与执行的功能相对应的候选指令字。由第四应用472管理的候选指令字可以被注册在显示装置100的指令字表格171中/从显示装置100的指令字表格171中删除。

第四控制器480控制空调400的各种元件。例如，第四控制器480可以响应于空调400的遥控器的用户操纵来接收控制命令，并且根据生成的控制命令执行控制操作，例如，调整温度。

第四控制器480可以被实现为与软件结合的MCU。

当与显示装置100通信时，第四控制器480可以向显示装置100发送由第四存储单元470的第四应用472管理的候选指令字。发送的候选指令字被注册在显示装置100的指令字表格171中并且被语音识别引擎181用来识别语音。

如果作为语音识别的结果，由显示装置100发送控制命令，则第四控制器480可以通过第四通信单元460接收所述控制命令并且执行与接收到的控制命令相对应的操作。

如果对多个语音获取单元140、240和340中的至少一个检测到语音输入，则作为根据示例性实施例的语音识别系统的主装置的显示装置100的第一控制器180控制第一通信单元140从对其已经检测到语音输入的语音获取单元接收语音信号。第一控制器180通过第一通信单元140从多个外部装置300和400的开发应用372和472中的至少一个或者从显示装置100的原生应用172和173接收候选指令字以识别接收到的语音信号，并将发送的候选指令字注册在第一存储单元170的指令字表格171中。语音识别引擎181将注册在指令字表格171中的候选指令字与所述语音信号进行比较并且识别所述语音。

显示装置100可以检测通过输入用户语音的各种装置输入的语音。显示装置100可以使用由应用提供的候选指令字来识别语音，并且可以动态地注册/删除用于语音识别的候选指令字。因此，可以防止不必要地增加显示装置100的候选指令字。

显示装置100可以从语音获取单元140接收语音识别，从原生应用172和173中的至少一个或者从开发应用372和472接收候选指令字，并且利用语音识别引擎181来执行语音识别。

下文中，将参照图3和图4更详细地描述根据示例性实施例的识别语音的语音识别系统。

图3图示了执行语音识别的示例，并且图4图示了显示图3中的语音识别结果的屏幕的示例。

如图3中所示，显示装置100可以具有注册的候选指令字，其由至少一个应用（包括原生应用和开发应用）提供并且存储在指令字表格171中。

例如，指令字A和B被第一应用172（即，原生应用）发送到指令字表格171（501），并且被存储在指令字表格171中（502）。语音识别引擎181将存储在指令字表格171中的指令字A和B注册为候选指令字（504）。

指令字C和D被第三应用372（即，开发应用）发送到指令字表格171（505），并且被存储在指令字表格171中（506）。语音识别引擎181将存储在指令字表格171中的指令字C和D注册为候选指令字（508）。

因此，语音识别引擎181将由第一应用172和第三应用372发送的指令字A、B、C以及D注册为候选指令字。

例如，当指令字A、B、C以及D被注册为候选指令字时，可以检测输入到与显示装置100分离的第二语音获取单元240的语音A。检测到的语音A被第二语音转换器250转换成语音信号，并且通过第二通信单元260和第一通信单元160被发送到语音识别引擎181（509）。

语音识别引擎181将语音A的语音信号与注册的候选指令字A、B、C以及D进行比较，决定相同的或者相似的命令，并且识别语音A（510）。

第一控制器180可以将识别结果发送到显示单元130（511），并且显示单元130可以如图4中那样显示语音识别结果。

如图4中所示，显示单元130可以显示示出语音识别结果“A”60的UI、以及根据语音识别结果的候选指令字A61、B62、C63以及D64。显示单元130还可以根据语音识别结果显示示出管理指令字A的应用信息（第一应用）65的UI。

通过在屏幕上显示的UI，用户可以检查语音识别结果以及候选指令字。如果语音识别结果不符合他的/她的说话意图，则用户可以选择所述候选指令字中的一个。用户可以通过应用信息获得与语音识别结果相关的装置的信息。

第一控制器180根据如图3中的语音识别结果将控制命令发送到第一应用172（512）。第一应用172通过第一控制器180的控制、根据识别出的语音A执行控制操作。例如，如果语音A是“音量降低”，则降低显示装置100的音量。

如图3和图4中所述，显示装置100可以预先注册一些应用的指令字（例如，A、B、C以及D），并且如果检测到用户的语音，则显示装置100可以识别所述语音，显示语音识别结果，并且基于注册的候选指令字执行相应控制操作。

虽然图3和图4图示了被注册为候选指令字的第一应用172和第三应用372的指令字，并且通过第二语音获取单元240输入用户的语音，但是示例性实施例不局限于此。例如，指令字可以由其它各种原生应用和开发应用发送以便注册/删除候选指令字，并且通过各种语音获取单元输入语音。

下文中，将参照图5详细描述根据另一个示例性实施例的执行语音识别的语音识别系统。

图5图示了根据另一个示例性实施例的执行语音识别的示例。

如图5中所示，可以检测输入到与显示装置100分离的第三语音获取单元340的语音E。检测到的语音E被第三语音转换器350转换成语音信号，并且通过第三通信单元360和第一通信单元160被发送到语音识别引擎181（701）。

显示装置100可以具有注册的候选指令字。例如，指令字E和F被第三应用372发送到指令字表格171（702），并且被存储在指令字表格171中（703）。语音识别引擎181将存储在指令字表格171中的指令字E和F注册为候选指令字（705）。

即，由第三应用372发送的指令字E和F被作为候选指令字注册到语音识别引擎181中。

当指令字E和F被注册为候选指令字时，语音识别引擎181将语音E的语音信号与注册的候选指令字E和F进行比较，决定相同的或者相似的指令字，并且识别语音E（706）。

第一控制器180可以将识别结果发送到显示单元130（707），并且显示单元130可以显示语音识别结果。

第一控制器180根据语音识别结果将控制命令发送到第三应用372（708）。第三应用372通过第三控制器380的控制、根据识别出的语音E执行控制操作。如果根据语音识别结果发送的控制命令是用于控制显示装置100的命令，则所述控制命令可以被发送到第一应用172或者第二应用173。

如图5中所示，如果检测到用户的语音，则显示装置100可以将与已经被输入了该语音的装置相对应的应用的指令字（例如E和F）注册为候选指令字，基于注册的候选指令字识别语音，显示语音识别结果，并且执行相应控制操作。

虽然图5图示了通过第三语音获取单元340输入用户语音，并且第三应用372的指令字被注册为候选指令字，但是示例性实施例不局限于此。例如，可以通过各种语音获取单元输入语音，并且指令字可以由各种原生应用和开发应用来发送以注册/删除候选指令字。

下文中，将参照附图描述根据示例性实施例的语音识别系统的语音识别方法。

图6是示出根据示例性实施例的语音识别系统的语音识别方法的流程图。

如图6中所示，语音识别系统可以检测输入到多个语音获取单元140、240和340中的至少一个的语音（操作S810）。检测到的语音通过语音转换器150、250和350被转换成电语音信号。

第一控制器180接收所述语音信号（操作S820）。如果检测到输入到外部语音获取单元240和340的语音，则可以通过第一通信单元160接收所述语音信号。

语音识别引擎181注册候选指令字以基于所述语音信号识别语音（操作S830）。注册的候选指令字可以是预先存储在指令字表格171中的字词，或者通过原生应用或者开发应用172、173、372和472接收，并且存储在指令字表格171中。

语音识别引擎181基于存储的候选指令字识别用户的语音（操作S840）。

第一控制器180在显示单元130上显示语音识别结果。显示单元130可以显示对于所述语音信号的语音识别结果、根据语音识别结果的候选指令字以及应用信息。

第一控制器180根据语音识别结果生成控制命令并将所述控制命令发送到应用（操作S860）。相应地，可以通过生成的控制命令执行操作。

图7是示出图6中检测语音输入的过程的细节的流程图。

如图7中所示，作为主装置的显示装置100可以以其中可以输入用户的语音的语音输入模式来操作（操作S811）。在所述语音输入模式中，可以通过各种语音获取单元140、240和340输入语音。

例如，第一控制器180可以从多个语音获取单元140、240和340中的一个检测关于唤醒关键字(wakeup keyword)的讲话(speaking)（操作S812）。所述唤醒关键字使得能够通过特定语音获取单元输入语音，并且可以被预先设置。例如，显示装置100的第一语音获取单元140可以将与比如频道和音量等等的TV控制相关的语音设置为唤醒关键字。移动电话200的第二语音获取单元240可以将与通话、联系信息等等相关的语音设置为唤醒关键字。

可替换地，如果作为操纵预定按钮（语音输入按钮）的结果，通过多个语音获取单元140、240和340中的一个输入了触发信号，则第一控制器180可以检测到通过语音获取单元输入的语音（操作S813）。例如，如果用户操纵在特定语音获取装置提供的语音输入按钮，则检测到输入到该特定语音获取装置的语音输入单元的语音。

根据所述检测，第一控制器180启用多个语音获取单元140、240和340当中该语音被输入到的一个语音获取单元（操作S814）。因为语音获取单元之一被启用，所以可以防止检测不必要的语音并且防止故障。

所述语音信号被启用的语音获取单元发送到语音识别引擎181以执行语音识别。

图8是示出图6中执行语音识别的过程的细节的流程图。

如图8中所示，语音识别引擎181可以从多个应用172、173、372和472中的至少一个接收候选指令字，并且注册所述候选指令字（操作S830）。

语音识别引擎181可以确定所注册的候选指令字是否与接收到的语音信号相同/相似（操作S841）。

如果确定存在相同的或者相似的候选指令字，则语音识别引擎181决定相同的/相似的指令字并且执行语音识别，并且第一控制器180在显示单元130上显示语音识别结果（操作S850）。

如果确定没有相同的或者相似的候选指令字，则语音识别引擎181可以决定是否接收和注册其它应用的候选指令字（操作S842）。第一控制器180可以根据用户的选择或者输入来接收和注册其它应用的候选指令字，并且可以以预设顺序接收和注册多个应用的候选指令字。考虑显示装置100的第一存储单元170的容量，可以选择性地删除先前注册的候选指令字。

即，如果没有候选指令字与所注册的候选指令字相同/相似，则可以顺序地执行操作S842和S841以执行语音识别。

如果在操作S842中决定不接收和注册其它应用的候选指令字，则语音识别引擎181中止语音识别，并且第一控制器180可以在显示单元130上显示语音识别失败。

因为根据示例性实施例的主装置检测通过接收用户语音的各种装置输入的语音，所以可以使用各种语音获取装置，并且可以通过所述语音获取装置提供关联的服务（linked services）。

用于语音识别的候选指令字由多个应用发送，并且被注册/删除。因此，不会不必要地增加主装置的候选指令字，可以防止处理速度变慢或者识别率下降，并且可以提高语音识别系统的总效率。

用户更容易地识别语音识别结果、候选指令字、应用信息和关于各种语音获取装置的信息、以及提供用于语音识别的候选指令字的装置，并且提高了用户的便利性。

然而不局限于此，示例性实施例能够被写为计算机程序并且能够在使用计算机可读记录介质运行所述程序的通用数字计算机中实现。计算机可读记录介质的示例包括磁存储介质（例如，ROM、软盘、硬盘等等）和光记录介质（例如，CD-ROM或者DVD）。同时，示例性实施例可以被写为通过比如载波的计算机可读传输介质发送的计算机程序，并且在运行所述程序的通用数字计算机中接收和实现。此外，尽管并非在所有方面都需要，但是装置的一个或多个单元能够包括运行存储在比如本地存储器的计算机可读介质中的计算机程序的处理器或者微处理器。

尽管已经示出和描述了几个示例性实施例，但本领域技术人员将会理解，可以改变这些示例性实施例而不偏离本发明构思的原理和精神，本发明构思的范围在权利要求及其等效物中限定。

Claims

1.一种显示装置，包括：

显示单元，其在其上显示图像；

通信单元，其与多个外部装置通信；以及

控制器，其包括识别用户语音的语音识别引擎，从语音获取单元接收语音信号，并且控制所述通信单元从所述多个外部装置中的至少一个接收候选指令字以识别接收到的语音信号。

2.根据权利要求1所述的显示装置，其中，提供了多个语音获取单元，并且如果检测到输入到所述多个语音获取单元中的至少一个的语音，则所述控制器从对其检测到语音输入的语音获取单元接收语音信号。

3.根据权利要求2所述的显示装置，其中，所述语音获取单元包括下列各项中的至少一个：在所述显示装置中提供的内置麦克风、在所述多个外部装置中的至少一个中提供的第一外部麦克风、以及在与所述显示装置和所述多个外部装置不同的装置中提供的第二外部麦克风。

4.根据权利要求1所述的显示装置，其中，所述外部装置包括至少一个应用，并且所述候选指令字由所述应用管理。

5.根据权利要求1所述的显示装置，还包括存储单元，其在其中存储接收到的候选指令字，其中，所述语音识别引擎通过使用所述接收到的候选指令字来识别语音。

6.根据权利要求2所述的显示装置，其中，如果检测到对多个语音获取单元中的一个说出了唤醒关键字，则所述控制器启用通过其检测到唤醒关键字的语音获取单元，并且从所启用的语音获取单元接收语音信号。

7.根据权利要求2所述的显示装置，其中，如果通过操纵在多个语音获取单元中的一个中提供的预定按钮输入了触发信号，则所述控制器启用通过其输入了触发信号的语音获取单元，并且从所启用的语音获取单元接收语音信号。

8.根据权利要求1到7中的一项所述的显示装置，其中，所述控制器控制所述显示单元在其上显示对于所述语音信号的语音识别结果以及根据语音识别结果的候选指令字。

9.一种语音获取装置，包括：

通信单元，其与具有语音识别功能的显示装置通信；

语音获取单元，其接收用户语音；

语音转换器，其将输入语音转换成电语音信号；以及

控制器，其控制所述通信单元向所述显示装置发送所转换的语音信号以及候选指令字以识别所述语音信号。

10.一种显示装置的语音识别方法，包括：

从语音获取单元接收语音信号；

从多个外部装置中的至少一个接收候选指令字以识别所接收到的语音信号；以及

根据所接收到的语音信号以及候选指令字识别用户的语音。

11.根据权利要求10所述的语音识别方法，还包括检测输入到多个语音获取单元中的至少一个的语音，其中，接收语音信号包括：从对其检测到语音输入的语音获取单元接收语音信号。

12.根据权利要求11所述的语音识别方法，其中，所述语音获取单元包括下列各项中的至少一个：在所述显示装置中提供的内置麦克风、在多个外部装置中的至少一个中提供的第一外部麦克风、以及在与所述显示装置和所述多个外部装置不同的装置中提供的第二外部麦克风。

13.根据权利要求10所述的语音识别方法，其中，所述外部装置包括至少一个应用，并且所述候选指令字由所述应用管理。

14.根据权利要求11到13中的任意一项所述的语音识别方法，其中，检测语音输入包括：检测对多个语音获取单元中的一个说出唤醒关键字，以及启用通过其检测到所述唤醒关键字的语音获取单元。

15.根据权利要求11到13中的任意一项所述的语音识别方法，其中，检测语音输入包括：根据在多个语音获取单元中的一个中提供的预定按钮的操纵检测触发信号的输入，以及启用通过其输入了所述触发信号的语音获取单元。