CN105847921B

CN105847921B - 图像显示设备及控制图像显示设备的方法

Info

Publication number: CN105847921B
Application number: CN201610191047.XA
Authority: CN
Inventors: 裴大奎; 车泰焕; 柳浩晶
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-01-09
Filing date: 2013-01-09
Publication date: 2018-04-24
Anticipated expiration: 2033-01-09
Also published as: US20180025728A1; US20170069323A1; EP2613313B1; JP6342118B2; US9786278B2; IN2013DE00063A; EP2894633A1; US9530418B2; US20210158821A1; US9401149B2; BR102013000553A2; US20130179168A1; WO2013105782A1; CN110265030A; KR20130083371A; CN105847921A; US12033635B2; US10957323B2; AU2013200132B2; BR102013000553B1

Abstract

提供了一种图像显示设备及控制图像显示设备的方法。所述图像显示设备能够在图像显示设备识别用户语音时，通过将从图像显示设备输出的音频信号的音量减小到预定级别或更低级别，来提高语音识别性能。能够进行语音识别的图像显示设备包括：第一语音输入单元，接收用户端音频信号；音频输出单元，输出由图像显示设备处理的音频信号；第一语音识别器，分析通过第一语音输入单元接收的用户端音频信号；控制器，如果接收到语音识别开始命令，则将通过音频输出单元输出的音频信号的音量减小到预定级别。

Description

图像显示设备及控制图像显示设备的方法

本申请是申请日为2013年1月9日，申请号为201310007787.X，发明名称为“图像显示设备及控制图像显示设备的方法”的发明专利申请的分案申请。

技术领域

本发明的实施例涉及一种能够通过语音识别执行命令的图像显示设备以及控制所述图像显示设备的方法。

背景技术

通常，图像显示设备处理视频信号并以各种格式输出视频信号，图像显示设备的代表示例包括电视(TV)。最近，随着具有比现有模拟TV更强的信号处理和存储容量的数字TV的发展和商业使用，可使用安装在每家每户中的互联网网络来向用户提供各种类型的内容服务，诸如实时广播、内容点播(COD)、游戏和视频通信。

此外，当图像显示设备从用户接收到命令以执行包括各种类型的服务的各种功能时，已应用了通过麦克风接收用户语音、识别接收的语音并执行与接收的语音相应的命令的语音识别方法。

然而，当通过麦克风接收用户语音时，背景声音也被接收，尤其是从图像显示设备输出的音频信号可被接收。如果背景声音或图像显示设备的音频信号输出的音量超过预定级别，则会减小图像显示设备的用户语音识别率。

发明内容

因此，本发明的一方面在于提供了一种图像显示设备以及控制所述图像显示设备的方法，所述图像显示设备能够在图像显示设备识别用户语音时，通过将从图像显示设备输出的音频信号的音量减小到预定级别或更低级别，来提高语音识别性能。

本发明的另外方面将在下面的描述中部分地阐明，并且从描述中部分是清楚的，或者通过本发明的实施可以被理解。

根据本发明的一方面，提供了一种能够进行语音识别的图像显示设备，包括：第一语音输入单元，接收用户端音频信号；音频输出单元，输出由图像显示设备处理的音频信号；第一语音识别器，分析通过第一语音输入单元接收的用户端音频信号；控制器，如果接收到语音识别开始命令，则将通过音频输出单元输出的音频信号的音量减小到预定级别。

可通过第一语音输入单元接收语音识别开始命令，作为用户的语音信号。

如果通过第一语音输入单元接收到语音识别开始命令词，则控制器可确定接收到语音识别开始命令。

如果通过第一语音输入单元接收到具有预定音量或更高音量的语音，则控制器可确定接收到语音识别开始命令。

所述图像显示设备还可包括：背景声音消除器，从用户端音频信号消除除了用户的语音信号之外的背景声音。

背景声音消除器可从通过第一语音输入单元接收的用户端音频信号消除通过音频输出单元输出的音频信号。

如果语音识别结束，则包括在所述图像显示设备中的控制器可将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。

如果在预定语音识别结束时间或更长时间内，没有通过第一语音输入单元接收到用户的控制命令，则控制器可确定语音识别结束。

如果在预定命令请求时间或更长时间内，没有通过第一语音输入单元接收到用户的控制命令，则控制器可请求用户输入控制命令。

如果通过第一语音输入单元接收到语音识别结束命令，则控制器可确定语音识别结束。

所述图像显示设备还可包括：命令词产生器，产生与语音识别开始命令相应的语音识别开始命令词。

命令词产生器可通过第一语音输入单元接收候选命令词，测试候选命令词是否适合作为语音识别开始命令词，如果候选命令词适合作为语音识别开始命令词，则将该候选命令词注册为语音识别开始命令。

命令词产生器可从用户接收选择命令，如果注册的语音识别命令词的数量为两个或更多，则根据接收到的选择命令选择并设置语音识别开始命令词。

所述图像显示设备还可包括遥控器，远程控制图像显示设备，遥控器可包括：输入按钮，接收用户的控制命令；第二语音输入单元，接收用户端音频信号；第二语音识别器，分析通过第二语音输入单元接收的用户端音频信号。

如果通过第二语音输入单元接收到具有预定音量或更高音量的语音，则控制器可确定接收到语音识别开始命令。

如果语音识别结束，则控制器可将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。

如果在预定语音识别结束时间或更长时间内，没有通过第二语音输入单元接收到用户的控制命令，则控制器可确定语音识别结束。

如果在预定命令请求时间或更长时间内，没有通过第二音频输入单元接收到用户的控制命令，则控制器可请求用户输入控制命令。

如果通过输入按钮或第二语音输入单元接收到语音识别结束命令，则控制器可确定语音识别结束。

根据本发明的另一方面，提供了一种能够进行语音识别的图像显示设备，包括：语音输入单元，从用户接收控制命令；显示器，显示与多个控制命令词相应的一个图标，如果通过语音输入单元从用户接收到控制命令词，则改变与接收到的控制命令词相应的图标。

根据本发明的另一方面，提供了一种控制包括语音输入单元和音频输出单元的图像显示设备的方法，包括：通过语音输入单元从用户接收用户端音频信号；确定接收到的用户端音频信号是否相应于语音识别开始命令词；如果接收到的用户端音频信号相应于语音识别开始命令词，则将通过音频输出单元输出的音频信号的音量减小到预定级别。

所述方法还可包括：如果通过语音输入单元接收到用户端音频信号，则从用户端音频信号消除除了用户的语音信号之外的背景声音信号。

背景声音信号可以是通过音频输出单元输出的音频信号。

所述方法还可包括：如果语音识别结束，则将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。

语音识别结束的步骤可包括：如果在预定语音识别结束时间或更长时间内，没有通过语音输入单元接收到用户的控制命令，则确定语音识别结束。

语音识别结束的步骤可包括：如果通过语音输入单元接收到语音识别结束命令，则确定语音识别结束。

根据本发明的另一方面，提供了一种控制能够进行语音识别的图像显示设备的方法，包括：通过语音输入单元从用户接收候选命令词；测试候选命令词是否适合作为将进行语音识别的控制命令词；如果作为测试结果，候选命令词适合作为控制命令词，则将该候选命令词注册为控制命令。

根据本发明的另一方面，提供了一种控制图像显示设备的方法，其中，所述图像显示设备包括用于从用户接收语音信号的语音输入单元和用于从用户远程接收控制命令的遥控器，所述方法包括：如果通过语音输入单元或遥控器从用户接收到语音识别开始命令，则将从图像显示设备输出的音频信号的音量减小到预定音量，如果从用户接收到语音识别结束命令，则将从图像显示设备输出的音频信号的音量返回到原始级别。

接收语音识别开始命令的步骤可包括：通过语音输入单元接收用户的语音识别开始命令。

接收语音识别开始命令的步骤可包括：通过语音输入单元接收具有预定音量或更大音量的语音。

接收语音识别结束命令的步骤可包括：通过语音输入单元接收用户的语音识别结束命令。

当在预定语音识别结束时间或更长时间内，没有通过语音输入单元接收到控制命令时，可接收语音识别结束命令。

根据本发明的实施例，可提高图像显示设备的用户语音识别性能，并防止由于语音识别错误而引起的图像显示设备的故障。

附图说明

从以下结合附图进行的对实施例的描述中，本发明的这些和/或其它方面将变得明显，并更易于理解，其中：

图1是示出根据本发明的实施例的图像显示设备的外观的示图；

图2是示出根据本发明的实施例的图像显示设备主体的控制流程的框图；

图3是示出根据本发明的实施例的图像显示设备的控制流程的框图，其中，所述图像显示设备还包括背景声音消除器；

图4是示出根据本发明的实施例的图像显示设备的控制流程的框图，其中，所述图像显示设备还包括命令词产生器；

图5是示出根据本发明的实施例的包括在图像显示设备中的遥控器的外观的示图；

图6是示出根据本发明的实施例的包括在图像显示设备中的遥控器的框图；

图7是示出根据本发明的实施例的图像显示设备的第一控制方法的流程图；

图8是更详细地示出图7的实施例的流程图；

图9是示出根据本发明的实施例的图像显示设备的第二控制方法的流程图；

图10是示出根据本发明的实施例的图像显示设备的第三控制方法的流程图；

图11是示出图9中的在预定时间内没有通过语音从用户接收到控制命令的情况下完成语音识别的方法的流程图；

图12A至图12C是示出在根据本发明的实施例的图像显示设备在语音识别模式下的情况下显示在视频输出单元上的屏幕的示图；

图13是示出用户在根据本发明的实施例的图像显示设备中产生命令词的方法的流程图；

图14A至图14D是示出在用户在根据本发明的实施例的图像显示设备中产生命令词的情况下显示在视频输出单元上的屏幕的示图。

具体实施方式

在本说明书中描述的实施例和在附图中示出的构造仅是示例性的，可对其进行各种修改。

现在将详细说明本发明的实施例，其示例在附图中示出。

图1是示出根据本发明的实施例的图像显示设备1的外观的示图。

参照图1，根据本发明的实施例的图像显示设备1包括：图像显示设备主体100，根据用户的控制命令输出视频或音频；遥控器300，远程控制图像显示设备主体100。

图像显示设备主体100可由数字TV实现，并包括：视频输出单元121，输出广播节目的视频信号和各种内容的视频信号；音频输出单元122，输出广播节目的音频信号和各种内容的音频信号；用户输入单元110，通过用户语音或操作获得控制命令。

根据本发明的实施例的图像显示设备1能够通过有线或无线网络进行视频通信。如果图像显示设备1提供视频通信服务，则可通过视频输出单元121输出另一方的视频信号，并通过音频输出单元122输出另一方的音频信号。在这种情况下，用户的视频信号和音频信号可通过用户输入单元110被获得，并且被发送到另一方。

音频输出单元122可由扬声器等实现，并可输出由图像显示设备1处理的音频信号。更具体地说，音频输出单元输出包括在广播节目信号中的音频信号或包括在由图像显示设备1执行的内容中的音频信号。此外，如上所述，如果图像显示设备1执行视频通信功能，则可输出另一方的音频信号。虽然本实施例的图像显示设备1包括位于该设备后方的音频输出单元122，但是本发明的实施例不限于此，音频输出单元122可安装在向用户提供音频的任何地方。

视频输出单元121输出在图像显示设备1中处理的视频信号。更具体地说，视频输出单元121输出包括在广播节目信号中的视频信号或包括在图像显示设备1中的内容中的视频信号。此外，如果图像显示设备1执行视频通信功能，则可输出另一方的视频信号。

用户输入单元110包括图像输入单元111，接收用户的图像；第一语音输入单元112，接收用户语音。

图像输入单元111包括镜头，接收用户的图像；成像装置(诸如电荷耦合器件(CCD)传感器或互补金属氧化物半导体(CMOS)传感器)，通过镜头捕捉用户的图像；图像信号处理器(ISP)，处理由成像装置捕捉的图像。

第一语音输入单元112可由麦克风等实现，并被用于接收用户语音的目的。然而，第一语音输入单元112除了可接收用户语音之外，还可接收背景声音，尤其是可接收从图像显示设备的音频输出单元122输出的音频信号。因此，在下面的实施例中，通过第一语音输入单元112接收的信号被称为“用户端音频信号”。用户端音频信号不仅可包括用户语音信号还可包括背景声音信号。

如图1所示，虽然图像显示设备包括多媒体互联网协议(MoIP)装置，其中，该装置包括了视频输入单元和语音输入单元两者，但本发明不限于此，图像显示设备可仅包括第一语音输入单元112。

用户可不按下包括在遥控器300或图像显示设备主体100中的输入按钮，但可通过第一语音输入单元112将作为语音信号的控制命令输入到根据本发明的实施例的图像显示设备1，从而控制图像显示设备的操作。例如，如图1所示，如果各种内容菜单被显示在视频输出单元121上，则用户可通过将与期望的菜单相应的命令词输入到第一语音输入单元112作为语音信号，来选择菜单。

用户输入单元110可如图1所示与图像显示设备主体100分离地实现，或可与图像显示设备主体100集成地实现。

图2是示出根据本发明的实施例的图像显示设备主体的控制流程的框图。

参照图2，根据本发明的实施例的图像显示设备主体100包括广播信号接收器230，接收广播信号；内容执行单元240，执行内容；视频处理器251，处理接收到的广播信号中的视频信号或包括在内容中的视频信号；音频处理器252，处理包括在接收到的广播信号中的音频信号或包括在内容中的音频信号；视频输出单元121，输出由视频处理器251处理的视频信号；音频输出单元122，输出由音频处理器252处理的音频信号；第一语音输入单元112，从用户接收语音信号；第一语音识别器210，基于从用户接收的语音信号识别控制命令；第一通信单元260，从遥控器300接收控制信号；第一控制器220，控制图像显示设备主体100的整体操作。

广播信号接收器230接收包括视频信号和音频信号的广播信号。广播信号接收器230包括天线和调谐器，通过视频输出单元121输出视频信号，通过音频输出单元122输出音频信号。

内容执行单元240执行多媒体内容。由内容执行单元240执行的多媒体内容可以是存储在图像显示设备中的游戏、运动图像文件、音乐文件等，或者如果图像显示设备1有线或无线连接到互联网，则所述多媒体内容可以是在互联网上提供的各种多媒体内容。此外，如果图像显示设备连接到另一外部装置(诸如移动通信设备或计算机)，则可由连接的外部设备提供多媒体内容，并且不限制由内容执行单元240执行的多媒体内容的类型。

音频处理器252处理从广播信号接收器230和内容执行单元240接收的音频信号，并通过音频输出单元122输出处理的音频信号。音频处理器252包括解码器，对以预定格式压缩的信号(诸如广播音频信号)进行解码；数字/模拟转换器，将数字信号转换为模拟信号，并将模拟信号发送到音频输出单元122。

视频处理器251处理从广播信号接收器230和内容执行单元240接收的视频信号，并通过视频输出单元121输出处理的视频信号。视频处理器251包括解码器，对以预定格式压缩的信号(诸如广播视频信号)进行解码；数字/模拟转换器，将数字信号转换为模拟信号，并将模拟信号发送到视频输出单元121。

第一语音输入单元112从用户接收与控制命令有关的语音信号。第一语音输入单元112可由麦克风实现，或可由与图1所示的实施例相同的包括了麦克风和摄像机两者的MoIP装置实现。此外，第一语音输入单元112可放大接收到的用户端音频信号，将放大的用户端音频信号从模拟信号转换为数字信号，并将数字信号发送到语音识别器。

虽然在附图中未显示，但第一语音输入单元112可包括语音编码器。如果第一语音输入单元112通过数据接口连接到图像显示设备主体100，则语音编码器可将用户端音频信号压缩为适合于数据接口的带宽的格式，或在执行视频通信的情况下，语音编码器可将用户端音频信号压缩为能够被发送到另一方的格式。在这种情况下，图像显示设备主体100包括语音解码器，在语音识别之前对压缩的用户端音频信号进行解码。

如上所述，当第一语音输入单元112接收用户语音时，背景声音也可被接收。因此，第一语音输入单元112接收包括用户语音信号的用户端语音信号。当用户通过第一音频输入单元112输入控制命令时，由于图像显示设备1正在操作，因此用户端音频信号可包括用户语音信号和通过音频输出单元122输出的音频信号。

第一语音识别器210分析通过第一语音输入单元112接收的用户语音信号，并识别由用户输入的控制命令。语音识别方法包括将接收到的语音信号与先前存储的标准模式进行比较并检测与接收到的语音信号最相似的语音模式的模式匹配方法、预先设置用于区分一个词与另一个词的功能，将设置的功能应用到用户语音信号并确定用户语音信号的识别功能方法等。此外，可以以词或音位为单位来执行语音识别。作为语音识别器的语音识别方法，可采用任何公知方法，本发明的实施例不限于上述方法。

第一通信单元260从遥控器300接收控制信号，并将控制信号提供给第一控制器220。第一通信单元260不仅可采用无线通信方案(诸如Wi-Fi通信方案、蓝牙通信方案或ZigBee通信方案)，还可采用具有相对简单的配置的红外通信方案。

第一控制器220从第一语音识别器210接收识别结果，并根据识别结果执行控制。例如，如果根据识别结果的控制命令是广播频道改变，则控制信号被发送到广播信号接收器230以根据控制命令改变频道，如果根据识别结果的控制命令是内容选择，则控制信号被发送到内容执行单元240以执行根据控制命令的内容。

如果由第一语音识别器210发送的控制命令是语音识别开始命令，则第一控制器220将从音频输出单元122输出的音频信号的音量减小到预定级别。如果通过第一语音输入单元112接收到预定语音识别开始命令词，或者如果接收到具有预定参考音量或更大音量的语音，则第一语音识别器210将接收到的命令或语音识别为语音识别开始命令，并将语音识别开始命令发送到第一控制器220。第一控制器220可接收语音识别开始命令，将图像显示设备1切换为语音识别模式，并将音频输出单元的音量减小到预定级别。

在通过语音识别开始命令词接收到语音识别开始命令时，语音识别开始命令词可被设置为能够容易地被识别的简单的词，并可包括例如“Hi TV”、“TV”等。如上所述，用户可通过包括在遥控器300或图像显示设备主体100中的输入按钮输入语音识别开始命令。

如上所述，用户端音频信号可包括用户语音信号和通过音频输出单元122输出的音频信号。如果用户端音频信号包括这样的背景声音，则第一语音识别器210的语音识别率会恶化。如果在语音识别被执行时第一控制器220将通过音频输出信号122输出的音频信号的音量减小到预定级别，则即使用户端音频信号包括背景声音，也仅提取用户语音信号，从而容易识别控制命令。

预定音量级别可指示即使包括了背景声音也能够保证预定语音识别率或更高的语音识别率的音量级别。例如，如果能够保证80％的语音识别率或更高的语音识别率的音量为5，则当语音识别开始命令被接收时，通过音频输出单元122输出的音频信号的音量可被设置为减小到5。预定音量可在生产处理中通过实验或统计分析被预先设置，或可由用户预先设置。

预定音量级别不为0。例如，用户可输入控制命令以通过语音识别选择内容，从而在通过图像显示设备听音乐的同时观看存储在图像显示设备中的相册。此时，如果从音频输出单元122输出的音频信号的音量被设置为0以执行静音功能，则无法实现操作连续性，并无法实现同时执行多个操作的用户意图。因此，考虑到操作连续性和语音识别率，可适当地选择预定音量。

此外，如果当前音量级别等于或小于预定音量级别，则第一控制器220可维持当前音量级别。

如果语音识别结束，则第一控制器220将从音频输出单元122输出的音频信号的音量级别返回到原始级别。如果通过第一语音输入单元112接收到语音识别结束命令，如果在预定参考时间内没有接收到将进行语音识别的控制命令，或如果通过包括在遥控器300或图像显示设备主体100中的输入按钮接收到语音识别结束命令，则可确定语音识别结束。

图3是示出根据本发明的实施例的图像显示设备1的控制流程的框图，其中，该设备还包括背景声音消除器270。

在图3的实施例中，将省略与图2相同的部分的描述，并将关注于背景声音消除器270。

如上所述，如果用户端音频信号包括背景声音，则第一语音识别器210的语音识别率恶化，并且在视频通信被执行的情况下，具有高质量的语音信号不会被发送到另一方。因此，根据本发明的实施例的图像显示设备1还可包括背景声音消除器270，从用户端音频信号消除背景声音。

背景声音消除器270可由声学回声消除器实现。声学回声消除器接收参考信号以及包括用户语音信号和背景声音的用户端音频信号，并基于参考信号从接收到的用户端音频信号消除背景声音。在根据本发明的实施例的图像显示设备1中，通过音频输出单元122输出的音频信号被设置为参考信号，从输入到背景声音消除器270的用户端音频信号消除通过音频输出单元122输出的音频信号。此外，如果用户观看广播节目，则由广播信号接收器230接收的音频信号可被设置为参考信号，如果执行内容，则由内容执行单元240产生的音频信号可被设置为参考信号。

由背景声音消除器270消除背景声音的用户端音频信号被发送到第一音频识别器210。如果用户输入语音识别开始命令作为语音信号，则在音频输出单元122的音量级别没有减小的状态下，用户端音频信号被发送到第一音频识别器210。因此，如果背景声音消除器消除背景声音，则语音识别器可容易地识别语音识别开始命令。

然而，即使背景声音消除器270消除背景声音，如果通过音频输出单元122输出的音频信号的音量等于或大于预定级别，则难以划分用户语音信号和背景声音信号并仅消除背景声音信号。即使背景声音消除器270在一定程度上消除了背景声音信号，但还存在背景声音的残余声音，从而第一语音识别器210的语音识别率可被减小。

此外，可通过将语音识别开始命令词设置为能够容易地被用于进行语音识别的简单的词，仅使用背景声音消除器270来减小语音识别误差。然而，由于其它控制命令词比语音识别开始命令词更长并更复杂，因此难以仅通过消除背景声音来获得期望的语音识别率。因此，在确定在第一语音识别器210中接收到语音识别开始命令之后，第一控制器220将音频输出单元122的音量减小到预定级别，从而进一步提高语音识别性能。

图4是示出根据本发明的实施例的图像显示设备1的控制流程的框图，其中，该设备还包括命令词产生器280。

如图4所示，图像显示设备1还可包括命令词产生器280，允许用户产生命令词。

命令词产生器280包括命令词接收器281，从用户接收候选命令词；测试单元282，测试接收到的候选命令词是否合适作为控制命令词；设置单元283，根据测试单元282的测试结果确定候选命令词是否被注册。

命令词产生器280可产生将由图像显示设备1识别的所有命令词，并专门用于产生语音识别开始命令词。

如上所述，如果用户端音频信号包括背景声音，则语音识别性能恶化。具体地说，如果背景声音的音量级别特别高，则即使背景声音消除器270消除背景声音，也可能产生语音识别误差。如果确定在第一语音识别器210中接收到语音识别开始命令，则音频输出单元122的音量被减小到预定级别。然而，由于在音频输出单元122的音量没被控制的状态下接收到语音识别开始命令，因此语音识别开始命令词可被设置为即使背景声音的音量高也能够容易地被语音识别器识别的词。

更具体地说，除了在图像显示设备中先前设置的命令词之外，用户还可注册和使用新的命令词。如果用户通过第一语音输入单元112输入新的命令词作为候选命令词，则命令词接收器281接收与候选命令词有关的语音信号。

测试单元282测试由命令词接收器281接收的候选命令词是否适合用作语音识别开始命令。换句话说，测试单元282确定候选命令词是否可容易地被语音识别器识别，或确定即使候选命令词和背景声音同时被接收时预定语音识别率是否维持。

设置单元283根据测试单元282的测试结果确定候选命令词是否被注册。例如，如果作为测试单元282的测试结果，候选命令词的语音识别率为80％或更高，则候选命令词被注册为语音识别开始命令词，并被发送到第一语音识别器210。以下，如果通过第一语音输入单元112接收注册的命令词，则第一语音识别器210将接收的命令词识别为语音识别开始命令词，并将信号发送到第一控制器220。

如果用户输入并注册多个候选命令词，则可从用户接收与命令词选择有关的命令，并可将根据用户的选择命令的命令词设置为语音识别开始命令词。如果多个命令词被注册为语音识别开始命令词，则在通过第一语音输入单元112接收到所述多个命令词中的任何一个的情况下，第一语音识别器210确定接收到语音识别开始命令。

图5是示出根据本发明的实施例的包括在图像显示设备1中的遥控器300的外观的示图。

参照图5，遥控器300包括输入按钮320，通过触摸或按钮操作接收用户的控制命令；第二语音输入单元312，通过语音接收用户的控制命令。

输入按钮320包括电源按钮321，使图像显示设备1打开电源或关闭电源；音量控制按钮323，控制从图像显示设备1输出的音频信号的音量；频道改变按钮325，改变通过图像显示设备1显示的广播的频道；语音识别按钮327，接收语音识别开始命令。

输入按钮320可包括诸如按钮型开关或薄膜开关的开关或者用于感测用户身体的一部分的触摸的触摸板。可交替地使用开关和触摸板。例如，用户经常使用的电源按钮321、音量控制按钮323和频道改变按钮325可采用触摸板，音量识别按钮327可采用薄膜开关。

第二语音输入单元312从用户接收与控制命令有关的语音信号。第二语音输入单元312可包括麦克风，将声波转换为电信号，并还可包括放大器，放大接收到的语音信号；模拟/数字(A/D)转换器，将语音信号转换为数字信号。

图6是示出根据本发明的实施例的包括在图像显示设备1中的遥控器300的控制流程的框图。

参照图6，遥控器300包括输入按钮320，通过触摸或按钮操作从用户接收控制命令；第二语音输入单元312，通过语音从用户接收控制命令；第二语音识别器410，从通过第二语音输入单元312接收的语音信号识别控制命令；第二通信单元460，将控制信号发送到图像显示设备主体110；第二控制器420，控制遥控器300的整体操作。

已参照图5描述了输入按钮320和第二语音输入单元312，因此将省略对其的描述。

第二通信单元460将控制信号发送到图像显示设备主体100。第二通信单元460可采用无线通信方案(诸如Wi-Fi通信方案、蓝牙通信方案或ZigBee通信方案)或可采用相对简单的红外通信方案。

第二控制器420根据通过输入按钮320或第二语音识别器410接收的控制命令控制第二通信单元460，将控制信号发送到图像显示设备主体100。更具体地说，如果通过输入按钮320接收到音频增大/减小命令或频道改变命令，则音频增大/减小命令或频道改变命令通过第二通信单元460被发送到图像显示设备主体100。

如果通过设置在输入按钮320中的语音识别按钮327接收到语音识别开始命令，则语音识别开始命令通过第二通信单元460被发送到图像显示设备主体100，由第二语音识别器410识别的控制命令通过第二通信单元460被发送到图像显示设备主体100。用于从用户接收语音识别开始命令的语音识别按钮可设置在图像显示设备主体100中。另外，可通过由图像显示设备主体100提供的菜单来接收语音识别开始命令。

如果从遥控器300接收到语音识别开始命令，则设置在图像显示设备主体100中的第一控制器20可将通过音频输出单元122输出的音频信号的音量减小到预定级别，或如果从遥控器300通过语音接收到控制命令，则第一控制器20可将通过音频输出单元122输出的音频信号的音量减小到预定级别。

另外，如果语音识别结束，则第二控制器420通过第二通信单元460将语音识别结束命令发送到图像显示设备主体100，图像显示设备主体100将通过音频输出单元输出的音频信号的音量返回到原始级别。当用户通过语音识别按钮327输入语音识别结束命令时，或当在预定参考时间内没有接收到将进行语音识别的命令时，语音识别结束。

与图像显示设备主体100不同，由于遥控器300在相对近的距离接收用户的语音命令，因此遥控器300不包括用于消除背景声音的背景声音消除器。然而，本发明的实施例不限于此，遥控器300可包括背景声音消除器。

以下，将描述控制根据本发明的实施例的图像显示设备的方法。

图7是示出根据本发明的实施例的图像显示设备1的第一控制方法的流程图。

参照图7，首先，通过第一语音输入单元112从用户接收用户端音频信号(511)。用户端音频信号不仅可包括用户语音信号，还可包括通过图像显示设备的音频输出单元122输出的音频信号。

确定接收到的用户端音频信号是否表示语音识别开始命令(513)。也就是说，确定是否已接收到语音识别开始命令。更具体地说，语音识别器确定接收到的用户端音频信号是否与先前存储的语音识别开始命令词匹配，以确定是否已接收到语音识别开始命令。

如果确定接收到的用户端音频信号表示语音识别开始命令(513的是)，则音频输出单元122的音量被减小到预定级别(515)。可考虑语音识别率来实验性或统计性地设置预定音量级别，或可由用户设置或改变预定音量级别。

确定语音识别是否已结束(517)，如果确定语音识别已结束(517的是)，则音频输出单元122的音量被返回到原始级别(519)。

图8是更详细地示出图7的实施例的流程图。

参照图8，首先，通过第一语音输入单元112从用户接收用户端音频信号(521)，从接收到的用户端音频信号消除背景声音信号(523)。背景声音信号可以是通过音频输出单元输出的音频信号。声学回声消除器(ACE)可被用于消除背景声音，接收用户端音频信号作为输入信号，接收通过音频输出单元122输出的音频信号作为参考信号。

确定是否已接收到语音识别开始命令(525)与图7的确定相同。

如果确定已接收到语音识别开始命令(525的是)，也就是说，如果确定接收到的用户端音频信号表示语音识别开始命令，则确定音频输出单元122的当前音量级别是否超过预定级别(527)。

如果确定音频输出单元122的当前音量级别超过预定级别(527的是)，则音频输出单元122的音量被减小到预定级别(529)，如果不是，则维持音频输出单元122的当前音量。

确定语音识别是否已结束(531)。通过确定用户是否输入语音识别结束命令或是否在预定时间内没有接收到用户的控制命令，来确定语音识别是否已结束。可通过语音、包括在遥控器300或图像显示设备主体100中的输入按钮的操作或动作识别来接收语音识别结束命令。

如果确定语音识别已结束(531的是)，则音频输出单元122的音量被返回到原始级别(533)。如果音频输出单元122的音量级别等于或小于预定级别并因此当开始语音识别时维持该音量级别，则即使语音识别结束时也维持音频输出单元122的所述音量级别。

图9是示出根据本发明的实施例的图像显示设备1的第二控制方法的流程图。

参照图9，图像显示设备1确定是否已接收到语音识别开始命令(611)。更具体地说，如果通过设置在图像显示设备主体100中的第一语音输入单元112接收到预定义的语音识别开始命令词(例如，“Hi TV”，“TV”)，或如果通过设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出)接收到语音识别开始命令，则图像显示设备1确定已接收到语音识别开始命令，并进入语音识别模式。另外，如果通过设置在遥控器300中的第二语音输入单元312或设置在图像显示设备主体100中的第一语音输入单元112接收到具有预定音量或更高音量的语音，则图像显示设备1确定已接收到语音识别开始命令，并进入语音识别模式。

如果通过设置在图像显示设备主体100中的语音输入单元112接收到语音识别开始命令词，则图像显示设备1通过背景声音消除器270来消除除了语音识别开始命令词之外的背景声音信号，从而更精确地识别通过语音输入单元112接收的语音识别开始命令词。

如果接收到语音识别开始命令，则图像显示设备1将音频输出单元122的音量减小到预定音量级别(613)。此时，如果音频输出单元122的音量级别等于或小于预定音量级别，则可不执行用于减小图像显示设备1的音频输出单元122的音量的操作。

接下来，图像显示设备1根据通过语音输入单元121接收的用户的语音控制命令，控制广播信号接收器230、内容执行单元240和音频输出单元122(615)。将参照图12详细描述根据用户的语音控制命令对图像显示设备的控制。

接下来，图像显示设备1确定语音识别是否结束(617)。更具体地说，如果通过设置在图像显示设备主体100中的第一语音输入单元112再次接收到预定语音识别开始命令词(例如，“Hi TV”，“TV”)，或如果在语音识别模式下选择设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出)，则图像显示设备1确定已接收到语音识别结束命令。另外，如果在预定时间内没有通过语音从用户接收到控制命令，则语音识别结束。将参照图10详细描述由于在预定时间内没有通过语音从用户接收到控制命令而导致的语音识别的结束。

如果确定语音识别结束，则图像显示设备1的语音识别模式被释放，音频输出单元122的音量返回到原始级别(619)。

图10是示出根据本发明的实施例的图像显示设备1的第三控制方法的流程图。

参照图10，图像显示设备1确定是否已接收到语音识别开始命令词(711)。更具体地说，如果通过设置在图像显示设备主体100中的第一语音输入单元112接收到预定的语音识别开始命令词(例如，“Hi TV”，“TV”)，如果通过设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出)接收到语音识别开始命令，或如果通过设置在遥控器300中的第二语音输入单元312或设置在图像显示设备主体100中的第一语音输入单元112接收到具有预定音量或更高音量的语音，则图像显示设备1确定已接收到语音识别开始命令。

如果已接收到语音识别开始命令，则图像显示设备1确定是否通过第一语音输入单元112或第二语音输入单元312已接收到具有预定音量或更高音量的语音(713)。

如果已接收到具有预定音量或更高音量的语音，则图像显示设备1将音频输出单元122的音量减小到预定音量级别(715)。也就是说，在图9的第二控制方法中，当语音识别开始时，音频输出单元122的音量立即减小，而在第三控制方法中，在语音识别开始之后，当用户通过语音输入控制命令时，音频输出单元122的音量减小。通过这样的控制，可保证由用户正在执行的操作的连续性。

接下来，图像显示设备1根据通过语音的用户的控制命令来控制包括在图像显示设备1中的组件。

接下来，图像显示设备1确定是否通过第一语音输入单元112或第二语音输入单元312再次接收到具有预定音量或更高音量的语音(719)。

如果已接收到具有预定音量或更高音量的语音，则图像显示设备1根据通过语音的用户的控制命令来控制包括在图像显示设备1中的组件(717)。然而，如果在预定参考音量减小时间或更长的时间内，没有接收到具有预定音量或更高音量的语音(721)，则图像显示设备1将音频输出单元122的音量返回到原始级别。

也就是说，如果在进入语音识别模式之后接收到具有预定音量或更高音量的语音，则图像显示设备1减小音频输入单元122的音量，如果在预定参考音量减小时间内没有通过语音接收到控制命令，则图像显示设备1将音频输出单元122的音量返回到原始级别。

接下来，图像显示设备1确定语音识别是否结束(725)。

图11是示出在预定时间内没有通过语音从用户接收到控制命令的情况下结束语音识别的方法的流程图。

如图11所示，当图像显示设备1进入语音识别模式时，待机时间被初始化(621)，语音识别结束时间被设置为第一参考时间(623)。待机时间表示在语音识别模式下在用户通过语音输入控制命令之前图像显示设备1等待的时间。另外，第一参考时间表示在进入语音识别模式之后当用户没有输入控制命令时图像显示设备1等待的时间。

以下，图像显示设备1确定是否通过语音已接收到用户的控制命令(625)。

如果通过语音已接收到用户的控制命令，则图像显示设备1根据用户的控制命令控制广播信号接收器230、内容执行单元240和音频输出单元122(627)。

以下，图像显示设备1初始化待机时间(631)，将语音识别结束时间设置为第二参考时间(633)。第二参考时间表示在图像显示设备1进入语音识别模式并且用户通过语音输入控制命令之后，在下一次通过语音接收到用户的控制命令之前图像显示设备1等待的时间。由于当用户输入控制命令并检查图像显示设备1的操作时消耗了时间，因此第二参考时间可大于第一参考时间。例如，如果第一参考时间被设置为30秒，则考虑用户根据控制命令检查图像显示设备1的操作所需要的时间，第二参考时间可被设置为60秒。

以下，图像显示设备1确定是否通过语音再次接收到用户的控制命令(625)。

如果没有通过语音接收到用户的控制命令，则图像显示设备1确定待机时间是否超过命令请求时间(635)。命令请求时间表示在用户没有通过语音输入控制命令的情况下向用户请求控制命令的预定时间间隔。命令请求时间可短于语音识别结束时间，从而在语音识别结束之前向用户请求控制命令至少一次。

如果在命令请求时间期间用户没有通过语音输入控制命令，则图像显示设备1通过视频输出单元121或音频输出单元122输出消息“请说功能”、“您想改变频道吗？”或“您想控制音量吗？”，并请求用户输入控制命令(637)。

以下，图像显示设备1确定待机时间是否超过语音识别结束时间(639)。

如果图像显示设备1的待机时间(即，用户没有通过语音输入控制命令的时间)等于或大于语音识别结束时间，则图像显示设备1结束语音识别(641)。

图12A至图12C是示出在根据本发明的实施例的图像显示设备1处于语音识别模式下的情况下显示在视频输出单元121上的屏幕的示图。

参照图12A，在视频输出单元121的较下方显示控制相关图标，在其余区域显示主屏幕。在视频输出单元121的较下方显示的图标中，“电源打开/关闭”图标121a相应于控制命令“电源打开”和“电源关闭”，“音量增大/减小”图标121b相应于控制命令“音量增大”和“音量减小”，“频道向上/向下”图标121c相应于控制命令“频道向上”和“频道向下”。

虽然在现有技术中显示与控制命令相应的六个图标，但根据本发明的实施例的图像显示设备1可仅显示三个图标以执行六个控制命令。

如果用户输入与电源打开或电源关闭相应的控制命令，则显示在视频输出单元121上的光标移动到“电源打开/关闭”图标121a上，根据控制命令电源被打开或关闭。可使用类似方法来操纵其余图标121b和121c。

虽然在图12A至图12C中显示了一个图像的所有内容，但针对音量控制图标可仅显示“音量”，针对频道控制图标可仅显示“频道”，针对电源控制图标可仅显示“电源”。只要用户可使用图标识别执行哪个控制，图标的内容不限于此。

可以以切换形式执行电源打开和电源关闭、音量增大和音量减小、以及频道向上和频道向下。例如，如图12B所示，如果用户通过第一语音输入单元112输入与“频道向上”相应的控制命令词，则光标121d移动到“频道向上/向下”图标121c，并且“频道向上/向下”图标121c的颜色可被改变为红色以在频道向上命令和频道向下命令之间进行区分。如图12C所示，如果用户输入与“频道向下”相应的控制命令词，则光标121d移动到“频道向上/向下”图标121c，并且“频道向上/向下”图标121c的颜色可被改变为蓝色。

作为另一示例，如果接收到控制命令词，则与控制命令词相应的图标可闪烁，或者如果接收到与“频道向上/向下”相应的控制命令词或与“音量增大/减小”相应的控制命令词，则可在该图标中产生垂直条以显示频道控制量或音量控制量。

虽然在图12A至图12C中在视频输出单元121上显示光标121d，但本发明的实施例不限于此，可在不显示光标的情况下仅改变图标。

根据本发明的实施例的图像显示设备1可使用各种方法改变图标以表示接收到与图标相应的控制命令词。图标改变包括在图标中显示光标。本发明的实施例不限于上述示例。

虽然在图12A至图12C中仅显示了与电源、频道和音量控制有关的图标，但是可显示与各种控制命令(诸如web浏览器打开/关闭或静音打开/关闭)相应的图标。

图13是示出由用户在根据本发明的实施例的图像显示设备1中产生命令词的方法的流程图，图14A至图14D是示出在用户在根据本发明的实施例的图像显示设备1中产生命令词的情况下显示在视频输出单元121上的屏幕的示图。在本实施例中，产生语音识别开始命令词。

参照图13，首先，从用户接收命令词产生请求(811)。可通过语音识别，或通过包括在遥控器300或图像显示设备主体100中的输入按钮的操作，或通过动作识别，来接收命令词产生请求。输入命令词产生请求的方法不受限。

更具体地说，如图14A所示，首先，用户在与环境设置有关的菜单项中选择“命令词产生”项。还可通过语音识别，或通过包括在遥控器300或图像显示设备主体100中的输入按钮的操作，或通过动作识别，来选择“命令词产生”项。

随后，从用户接收候选命令词(813)。可通过第一语音输入单元112接收候选命令词作为语音信号。

更具体地说，如图14B所示，如果在图像显示设备的视频输出单元121上显示消息“输入候选命令词”，则用户通过第一语音输入单112输入将被注册为命令词的候选命令词。例如，用户可输入短词“mic”作为候选命令词。

如果接收到候选命令词，则测试接收到的候选命令词是否适合作为语音识别开始命令词(815)。能够被容易地语音识别的短词适合作为语音识别开始命令词。因此，可使用各种标准测试候选命令词是否适合，并且可测量候选命令词的语音识别率。

更具体地说，如图14C所示，在视频输出单元121上显示消息“测试正在执行”。

如果作为测试结果，候选命令词适合作为语音识别开始命令词(817的是)，候选命令词被注册为语音识别开始命令词(819)并被发送到语音识别器。在一个实施例中，如果候选命令词的语音识别率等于或大于预定参考值(例如，80％)，则可确定候选命令词候选命令词适合作为语音识别开始命令词。

如果作为测试结果，候选命令词不适合作为语音识别开始命令词(817的否)，则如图9所示，可从用户接收另一候选命令词，或可根据用户选择结束命令词产生。

更具体地说，如果测试结束，则如图14D所示，显示测试结果。例如，如果候选命令词适合于注册为语音识别开始命令，则在视频输出单元121上显示消息“可注册”。如果候选命令词不适合作为语音识别开始命令词并因此在视频输出单元121上显示消息“不可注册”，则用户可再次输入新的候选命令词。

虽然参照图13和图14A至图14D描述了语音识别开始命令词的产生，但是本发明的实施例不限于此，并可应用到其它控制命令的产生。图像显示设备1的视频输出单元121可显示与命令词产生有关的各种消息。

在本发明的实施例中，如果通过语音识别接收到用户的控制命令，则用户在不做动作(诸如按下输入按钮)的情况下说出控制命令，从而方便地执行期望的操作。

另外，与控制命令相应的图标显示在视频输出单元121上。例如，可显示“频道向上”图标、“频道向下”图标、“音量增大”图标和“音量减小”图标。具体地，由于对于图像显示设备的操作来说图标是必需的，因此当在视频输出单元121上显示主屏幕时，在视频输出单元121的一部分中显示图标。

由于视频输出单元121的尺寸受限，因此可显示的图标的数量也受限。根据本发明的另一实施例的图像显示设备可显示与多个控制命令词相应的一个图标以有效地管理由图标所占据的区域。

虽然已显示和描述了本发明的一些实施例，但本领域的技术人员将理解，在不脱离本发明的原理和精神的情况下可在这些实施例中进行改变，本发明的范围在权利要求及其等同物中限定。

Claims

1.一种能够进行语音识别的图像显示设备，所述图像显示设备包括：

显示器，被配置为显示内容；

通信单元，被配置为与遥控器进行通信；

音频输出单元，被配置为输出音频信号；

控制器，被配置为响应于从遥控器接收到控制信号，激活语音识别，并将通过音频输出单元输出的音频信号的输出音量减小到低于预定级别的级别，

其中，当在激活语音识别之后的第一预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时，控制器输出请求针对语音识别的音频输入的消息，其中，当在激活语音识别之后的第二预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时，控制器对语音识别进行去激活，并将通过音频输出单元输出的音频信号的输出音量恢复到语音识别激活之前的输出音量，其中，第一预定时间短于第二预定时间，

其中，当从控制器接收到作为语音控制命令的音频输入，并在激活语音识别之后经过第三预定时间时，控制器对语音识别进行去激活，并将通过音频输出单元输出的音频信号的输出音量恢复到语音识别激活之前的输出音量，其中，第三预定时间长于第二预定时间。

2.如权利要求1所述的图像显示设备，其中，由控制器输出的消息包括显示器上显示的消息图像或通过音频输出单元输出的音频消息。

3.如权利要求1所述的图像显示设备，其中，响应于从遥控器接收到控制信号，控制器控制显示器在所述内容上显示至少一个图标，其中，所述至少一个图标中的每个图标能够与一个或更多个语音控制命令相应。

4.如权利要求3所述的图像显示设备，其中，响应于从遥控器接收到作为语音控制命令的音频输入，控制器基于接收到的语音控制命令控制显示器改变所述至少一个图标之中的与接收到的语音控制命令相应的图标。

5.如权利要求1所述的图像显示设备，其中，响应于在语音识别激活之后再次从遥控器接收到控制信号或从遥控器接收到另一控制信号，控制器对语音识别进行去激活。

6.如权利要求1所述的图像显示设备，其中，响应于具有预定音量或更大音量的语音被遥控器接收到，控制器确定控制信号被接收到。

7.如权利要求1所述的图像显示设备，其中，响应于从遥控器接收到候选语音控制命令词，控制器测试候选语音控制命令词，

其中，控制器根据测试结果将该候选语音控制命令词注册为语音控制命令。

8.一种控制能够进行语音识别的图像显示设备的方法，所述方法包括：

响应于从与图像显示设备通信的遥控器接收到控制信号，激活语音识别，并将图像显示设备的音频信号的输出音量减小到低于预定级别的级别；

当在激活语音识别之后的第一预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时，输出请求针对语音识别的音频输入的消息；

当在激活语音识别之后的第二预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时，对语音识别进行去激活，并将音频信号的输出音量恢复到语音识别激活之前的输出音量，其中，第一预定时间短于第二预定时间；

当从遥控器接收到作为语音控制命令的音频输入，并在激活语音识别之后经过第三预定时间时，对语音识别进行去激活，并将音频信号的输出音量恢复到语音识别激活之前的输出音量，其中，第三预定时间长于第二预定时间。

9.如权利要求8所述的方法，其中，所述消息包括图像显示设备上显示的消息图像或通过音频输出单元输出的音频消息。

10.如权利要求8所述的方法，还包括：响应于从遥控器接收到控制信号，在正被显示在图像显示设备上的内容上显示至少一个图标，

其中，所述至少一个图标中的每个图标能够与一个或更多个语音控制命令相应。

11.如权利要求10所述的方法，还包括：响应于从遥控器接收到作为语音控制命令的音频输入，基于接收到的语音控制命令改变所述至少一个图标之中的与接收到的语音控制命令相应的图标。

12.如权利要求8所述的方法，还包括：响应于在语音识别激活之后再次从遥控器接收到控制信号或从遥控器接收到另一控制信号，对语音识别进行去激活。

13.如权利要求8所述的方法，其中，接收控制信号的步骤包括：响应于具有预定音量或更大音量的语音被遥控器接收到，确定接收到控制信号。

14.如权利要求8所述的方法，还包括：

响应于从遥控器接收到候选语音控制命令词，测试候选语音控制命令词，

根据测试结果将该候选语音控制命令词注册为语音控制命令。