CN113709535B

CN113709535B - 一种显示设备、及基于声道使用的远场语音识别方法

Info

Publication number: CN113709535B
Application number: CN202111009959.8A
Authority: CN
Inventors: 李现旗; 于皓丞
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-08-29
Anticipated expiration: 2041-08-31
Also published as: CN113709535A

Abstract

本申请涉及显示设备技术领域，特别地，涉及一种显示设备、及基于声道使用的远场语音识别方法，一定程度上可以解决麦克风采集声音在回声消除处理中涉及到未使用声道的回声消除计算、无效回声采集，而造成系统算力浪费的问题。所述显示设备包括：显示器；扬声器；麦克风，用于采集声音可包含唤醒关键词；第一控制器，被配置为：在来自麦克风的第一声音中检测到唤醒关键词时，显示语音识别界面；根据声道配置信息获取第一音频对应的回采信号去除第一声音中来自扬声器发出的回音，以获取用户的第一语音指令，所述回采信号包含第一音频在其实际使用声道所输出的信号，实际使用声道由声道配置信息确定。

Description

一种显示设备、及基于声道使用的远场语音识别方法

技术领域

本申请涉及显示设备技术领域，特别地，涉及一种显示设备、及基于声道使用的远场语音识别方法。

背景技术

远场语音识别是指智能电视、音箱通过其配置的麦克风实现3-5米内远距离识别用户语音指令。其技术难点在于麦克风在远距离采集用户语音指令的同时，还将不可避免的同时采集到显示设备扬声器、或音箱引发的回声。

在一些远场语音识别的实现中，通常显示设备单独外挂一颗麦克风专用低功耗芯片，通过麦克风阵列获取用户语音指令、及扬声器产生的回声，然后再通过回声消除技术确定用户的语音指令；或将上述功能集成于系统芯片，由系统芯片关闭一些占用算力较多的电视应用以提供足够算力一直对麦克风的收音做信号处理进行语音识别。

然而，在显示设备仅通过扬声器的部分声道播放音频时，由于声音在空间环境中的反射，显示设备将误认为麦克风采集的回声来自全部声道，并在之后的回声消除处理中对未使用声道进行回声消除计算，造成系统算力的浪费。

发明内容

为了解决麦克风采集声音在回声消除处理中涉及到未使用声道的回声消除计算、无效回声采集，而造成系统算力浪费的问题，本申请提供了一种显示设备、及基于声道使用的远场语音识别方法。

本申请的实施例是这样实现的：

本申请实施例的第一方面提供一种显示设备，包括：显示器；扬声器，用于播放媒体文件对应的第一音频，所述第一音频由第一控制器根据所述媒体文件、及其包含的声道信息生成；麦克风，用于采集声音，所述声音可包含用户发出的唤醒关键词，所述唤醒关键词可包含于语音指令；第一控制器，被配置为：在来自麦克风的第一声音中检测到唤醒关键词时，控制用户界面显示语音识别界面；根据所述第一音频对应的声道配置信息获取第一音频对应的回采信号，以去除第一声音中来自扬声器发出的回音而获取来自用户的第一语音指令，其中，所述回采信号包含第一音频在其实际使用声道所输出的信号，所述实际使用声道由所述声道配置信息确定，所述第一控制器在语音应用启动时获取第一音频的所述声道配置信息；控制所述语音识别界面显示所述第一语音指令。

本申请实施例的第二方面提供一种基于声道使用的远场语音识别方法，所述方法包括：在来自麦克风的第一声音中检测到唤醒关键词时，显示语音识别界面；根据所述第一音频对应的声道配置信息获取第一音频对应的回采信号去除第一声音中来自扬声器发出的回音，以获取来自用户的第一语音指令，其中，所述回采信号包含第一音频在其实际使用声道所输出的信号，所述实际使用声道由所述声道配置信息确定，所述第一控制器在语音应用启动时获取第一音频的所述声道配置信息；控制所述语音识别界面显示所述第一语音指令。

本申请的有益效果：通过语音应用启动时获取声道配置信息，可实现远场语音识别的即时启动；进一步通过获取声道配置信息，可确定不同的回采信号采集策略；进一步通过获取当前使用声道对应的回采信号，可实现回音数据的准确获取；进一步根据回采信号去除麦克风采集的回音，可实现语音指令的滤取，实现根据声道配置确定回采信号采集策略、避免系统对未使用的声道做冗余回采及避免对应的冗余计算、保证语音识别率的前提下节约系统算力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的显示设备的使用场景；

图2示出了根据一些实施例的控制装置100的硬件配置框图；

图3示出了根据一些实施例的显示设备200的硬件配置框图；

图4示出了根据一些实施例的显示设备200中软件配置图；

图5A示出了本申请一实施例智能电视接收远程语音的用户界面示意图；

图5B示出了本申请另一实施例智能电视接收远程语音的用户界面示意图；

图5C示出了本申请另一实施例智能电视执行语音指令后的用户界面示意图；

图6示出了本申请另一实施例智能电视远场语音识别的原理示意图；

图7示出了本申请另一实施例智能电视远场语音识别的工作流程示意图；

图8示出了本申请另一实施例智能电视回采信号的采集策略示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在-些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用

户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，″用户界面″，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称″应用层″)，应用程序框架(Application Framework)层(简称″框架层″)，安卓运行时(Android runtime)和系统库层(简称″系统运行库层″)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

本申请实施例可以应用于各种类型的显示设备(包括但不限于：智能电视、液晶电视、音箱等设备)。下文将以智能电视实现基于声道使用的远场语音识别控制方案、及用户界面为例，对显示设备及基于声道使用的远场语音识别方法进行阐述。

图5A示出了本申请一实施例智能电视接收远程语音的用户界面示意图。

在一些实施例中，本申请提供的智能电视包括显示器，用于显示用户界面，所述用户界面可包括语音识别界面，即在用户使用语音指令控制电视时，电视用户界面所显示的用户实现交互的用户界面。

智能电视通常配置的麦克风，可以用于采集用户发出的语音指令。用户通过遥控器案件启动语音应用时，智能电视第一控制器将启动远场语音识别。

在一些实施例中，在智能电视被配置为通过唤醒关键词在用户界面调用语音识别界面进行显示。在监测到唤醒关键词后，智能电视的第一控制器通过远程语音识别技术识别麦克风所采集的用户用于指令。

例如，智能电视将唤醒关键词配置为″我想看″，则用户在电视机前说″我想看″，第一控制器将控制用户界面显示如图5A所示的语音识别界面，在用户界面的右下角可显示″您可以试着说：我想看电视剧″，用户界面中部靠下位置可显示等待用户语音输入的提示画面。通过实例性的说明，用户可以在唤醒关键词后继续发出相应的语音指令，如可包括推荐电视剧、推荐电影、启动某个应用、启动用户设置等。

对于用户在发出唤醒关键词后所发出的语音指令，在语音指令被麦克风采集的同时，麦克风还同时采集到了电视扬声器、或者与电视连接的有线、无线音箱所发出的声音，第一控制器将通过本申请提供的远场语音识别方案将混合声音数据中的用户语音指令进行提取，以准确识别用户发出的语音指令。

需要说明的是，唤醒关键词还可以配置为其他常用词语，例如″小聚小聚″、″语音命令″等。

在一些实施例中，智能电视还可以被配置为通过唤醒关键词激活识别语音指令时，智能电视会通过麦克风监测用户发出的唤醒关键词，在监测到唤醒关键词后，智能电视的第一控制器通过远程语音识别技术识别麦克风所采集的用户用于指令。需要说明的是，智能电视可通过配置优化算法，对特定的少数唤醒关键词识别进行优化，以实现在通常电视使用环境中快速、准确的识别唤醒关键词。其中，所述唤醒关键词还可以配置为其他常用词语，例如″小聚小聚″、″语音命令″等。

在一些实施例中，唤醒关键词还可包含于语音指令，智能电视在用户发出的语音指令中监测发现唤醒关键词，并随即识别关键词所在的语音指令。

在一些实施例中，随着多声道音频编解码技术的成熟，越来越多的媒体文件使用多声道的音频，智能电视为了更好的适应媒体文件资源的变化，可支持各种多声道配置的播放。麦克风通常配置在智能电视、或外接音响设备上；智能电视扬声器可内置在电视设备上，多声道音响设备分布于智能电视周围。

例如，智能电视通过其配置于本体的扬声器、或外接音响设备进行发声。外接音响设备可包括多个音箱，分别用于输出来自智能电视不同声道的音频数据。

智能电视播放媒体文件，第一控制器将对媒体文件进行处理以输出对应的第一音频，第一控制器根据媒体文件包含的声道信息，生成对应的第一音频，所述第一音频可以通过不同的声道组合输出，包括通过左右声道输出、或通过全部声道输出等。需要说明的是，第一音频所使用的声道由媒体文件的声道信息进行确定。

可以理解，第一音频的声道配置信息不同时，智能电视对应的不同声道将传输音频数据，在音响发声的角度观察，既只有声道配置信息中涉及声道对应的音箱才会发音，而对应声道没有输出音频数据的对应音箱则不发声。

在一些实施例中，5.1声道的音响设备，其中的声道可包括中央声道，前置左右声道，后置左右环绕声道，及重低音声道，系统总计可连接6个喇叭。5.1声道可运用于家庭影院，一些比较知名的声音录制压缩格式，譬如杜比AC-3(Dolby Digital)、DTS等都是以5.1声音系统为技术蓝本的。

重低音声道是一个专门设计的超低音声道，这一声道可以产生频响范围20～120Hz的超低音；中央声道喇叭，负责再生配合屏幕上的动作，大部分时间它是负责人物对白的部分；前置左右声道喇叭，则是用来弥补在屏幕中央以外或不能从屏幕看到的动作及其他声音；后置环绕音效喇叭负责外围及整个背景音乐，让人感觉置身于整个场景的正中央；例如万马奔腾的震撼、飞机从头顶呼啸而过的效果；而马达声、轰炸机等声音、或大鼓等震人心弦的重低音，则是由重低音喇叭产生。

这套系统的优点在于可获得更优质的前面声音、极好的音场形象和更宽阔的音场以及真实的立体环声，从而可以聆听到前所未有的背景中的细微声音移动。

在一些实施例中，5.1声音系统来源于4.1环绕，不同之处在于它增加了一个中置单元。这个中置单元负责传送低于80Hz的声音信号，在欣赏影片时有利于加强人声，把对话集中在整个声场的中部，以增加整体效果。

5.1声音系统可理解为使用5个喇叭、及1个超低音扬声器来实现一种身临其境的音乐播放方式，采用左(L)、中(C)、右(R)、左后(LS)、右后(RS)五个方向输出声音，使人产生犹如身临音乐厅的感觉。

图5B示出了本申请另一实施例智能电视接收远程语音的用户界面示意图。

在一些实施例中，在智能电视的语音应用启动后，第一控制器将及时启动语音识别，并获取智能电视当前播放的第一音频的声道配置信息，即第一音频是通过哪些声道输出声音。第一控制器对于麦克风采集的第一声音中包含的唤醒关键词进行监测，通过本申请提供的远程语音识别技术，当麦克风采集的第一声音中包含唤醒关键词时，第一控制器控制用户界面显示语音识别界面，以实现和用户的语音交互。

例如，智能电视播放A电影，其当前播放的音频通过左声道、右声道进行播放；当用户通过遥控器、或其它常规技术手段启动电视的语音应用时，第一控制器将获取A电影当前播放音频的声道配置信息，即音频实际使用、占用的左声道、以及右声道；当检测到用户在电视周边发出″我想看一些好看的电影″时，智能电视第一控制器可即时的检测到唤醒关键词″我想看″，第一控制器控制用户界面显示语音识别界面以提示用户继续说出唤醒关键词后的具体语音指令内容。

在一些实施例中，智能电视在播放媒体文件过程中输出第一音频，第一控制器根据声道配置信息获取第一音频对应的回采信号，所述回采信号可包含第一音频在其实际使用声道所输出的信号，其中实际使用声道可由声道配置信息确定。

例如，智能电视通过多媒体应用播放电影、或视频资源，在用户发出唤醒关键词、以及语音指令后，智能电视将基于对第一音频回采信号、以及麦克风采集的第一声音，将用户语音指令、及唤醒关键词过滤获取。

多媒体应用播放媒体文件，通过智能电视的音频框架层将媒体文件的音频写入音频驱动组件；如果音频文件为PCM(Pulse Code Modulation：脉冲编码调制)音频流，第一控制器控制音频驱动组件接音频文件合成处理为两声道的第一音频；如果音频文件为多声道的非PCM音频流，第一控制器将控制音频驱动组件、根据音频文件的配置信息将音频流通过硬件解码为特定声道的音频，即根据外设配置合成适合目标声道数的音频；然后第一控制器对经过处理的音频再次重采样，以将所有音频调整到适合扬声器、外接音响设备输出的采样率，以获取到第一音频。

第一音频在智能电视输出前，第一控制器通过音频框架层的Recoder(录音组件)获取回踩信号，即第一控制器对于智能电视音频播放的回音采集在音频处理过程中进行采集，可不再使用来自物理空间的音频数据；第一控制器在获取第一音频的回采信号过程中，同时还通过音频框架层的录音组件获取麦克风采集的第一声音，然后第一控制器将给予第一声音以及回采信号提取、确定用户的语音指令、或唤醒关键词，其逻辑流程如图6所示。

在一些实施例中，第一控制器第一声音去除其中来自扬声器、或音响设备发出的回音，从而获取来自用户的第一语音指令。可以发现，麦克风采集的第一声音中，不仅包含了用户的语音指令、还包括智能电视通过扬声器、或者外接音响设备发出的第一音频回音。在一些实施例中，第一控制器对于第一声音中包含的第一音频回音去除，不再使用来自电视所在房间的声音反射采集，第一控制器直接采集第一音频在系统中的音频信号作为回采信号，从而可以实现只采集使用声道的音频信号；

例如，第一音频仅使用3个声道时，第一控制器采集对应3个声道的音频信号作为回采信号；第一音频使用4个声道时，第一控制器仅采集对应4个声道的音频信号作为回采信号，即通过对麦克风第一声音去除第一音频回音获取语音指令的的计算过程，不会做无效的冗余计算。

在一些实施例中，远场语音实现需要将外部环境的声音通过麦克风收集上来，将设备播放的音频回采上来，这样通过回声消除技术将用户发出的语音真实的过滤出来，实现语音识别。

可以发现，不同的多声道配置音响放置的位置也不同，对麦克风采集有效音频也有一定的影响。如果基于来自空间反射、散射的第一音频回音对麦克风采集的第一声音处理以确定语音指令时，第一控制器将无法确定回音来自的具体音响设备。例如，对于实际使用2个声道的第一音频、智能电视连接有4个声道对应的音响设备，第一控制器如果根据房间回音作为依据处理第一声音时，第一控制器将认为4个声道对应的音响设备都在发声，进而在对第一声音进行音频处理去除回音时，计算量将会涉及实际上并不存在的声道，会导致系统计算量变大、语音指令获取变慢。

在一些实施例中，播放节目的智能电视启动语音应用，然后创建关于麦克风的Audio Recoder(音频录音)以及回踩信号的Audio Recoder；在两路Audio Recoder创建完毕后，第一控制器将持续监测、分析所述麦克风的音频录音信号是否包含预设的唤醒词关键词；如果监测的音频录音不包含唤醒关键词，则第一控制器继续分析麦克风后续采集的音频数据；反之，第一控制器将启动语音识别界面并将其显示于用户界面，通过上述实施例中的回音消除技术处理回采信号数据和麦克风采集音频数据，以实现将用户语音指令识别出来，并且在语音识别界面显示对应的语音指令和执行该语音指令；在语音指令执行完毕后，第一控制器将关闭语音识别界面，继续分析麦克风采集的声音数据，等待下一次的唤醒关键词，其业务流程如图7所示。

在一些实施例中，第一控制器通过语音识别技术获取第一语音指令后，将控制已经显示的语音识别界面显示已获取的第一语音指令。例如，语音识别界面显示内容可包括唤醒关键词、以及第一语音指令，如显示为″我想看一些好看的电影″，如图5B所示。

第一控制器在第一语音指令″我想看一些好看的电影″执行完毕后，将控制用户界面取消显示语音识别界面，并控制用户界面显示语音指令的执行结果，如图5C所示。之后，第一控制器将继续监测麦克风所采集的声音，以即时的获取唤醒关键词再次执行语音指令。

在一些实施例中，第一控制器在对第一音频进行音效处理后、输出至扬声器、音响设备前获取第一音频的回采信号，以使得回采信号匹配扬声器发出的第一音频回音。

如图6所示，对于已经重采样到固定采样率的第一音频，第一控制器对已获取的第一音频进行音量增益、以及声音平衡处理，然后对第一音频获取回采信号，这样可以使得回采信号与扬声器、或音响设备发出的音频保持匹配；第一音频经过回采信号采集后，可以进一步进行声音后处理以输出至对应的扬声器、或者音响设备。

在一些实施例中，本申请提供的显示设备根据不同的多声道配置情况，制定不同的回采信号采集策略，可实现在保证语音识别率较高的前提下避免智能电视系统做冗余的回采，提高远程语音识别的整体运行性能。

例如，通过各种方式将智能电视的语音应用启动后，第一控制器将获取智能电视当前播放媒体文件的输出音频声道配置信息及状态；

对于2.0、或2.1声道配置的音频系统，第一控制器获取的回采信号包含左、右声道的音频数据信息；对于2.1.2音频系统，第一控制器获取的回采信号包含左、右声道，以及低音声道的音频数据信息。

对于3.1.2、或5.1、或5.1.2、或7.1、或7.1.4音频系统，第一控制器创建的回采信号包含左声道、右声道、低音声道、以及中置音声道信息，这些声道配置信息由音频硬件接口层传递到音频驱动层，音频驱动层根据信息执行音频声道的回采。

也可以理解为第一控制器控制第一音频由音频硬件接口层发送至音频驱动层，根据所音频文件的声道配置信息在音频驱动层获取第一音频对应的回采信号，以实现在麦克风第一声音中滤除回音而获取语音指令。

基于上文中显示设备实现基于声道使用的远场语音识别控制方案及相关附图的介绍，本申请还提供了一种基于声道使用的远场语音识别方法，所述方法包括：在来自麦克风的第一声音中检测到唤醒关键词时，显示语音识别界面；根据所述第一音频对应的声道配置信息获取第一音频对应的回采信号去除第一声音中来自扬声器发出的回音，以获取来自用户的第一语音指令，其中，所述回采信号包含第一音频在其实际使用声道所输出的信号，所述实际使用声道由所述声道配置信息确定，所述第一控制器在语音应用启动时获取第一音频的所述声道配置信息；控制所述语音识别界面显示所述第一语音指令。所述方法实现基于声道使用识别远场语音指令的显示及切换具体步骤已在上文提供的显示设备技术方案中进行详细阐述，在此不再赘述。

在一些实施例中，获取第一音频对应的回采信号，具体包括：在对第一音频进行音效处理后、输出至扬声器前，获取第一音频的回采信号，以使得所述回采信号匹配扬声器发出的所述回音。所述方法实现基于声道使用识别远场语音指令的显示及切换具体步骤已在上文提供的显示设备技术方案中进行详细阐述，在此不再赘述。

在一些实施例中，获取第一音频对应的回采信号，具体包括：在声道配置信息为2.0或2.1声道系统时，获取来自左声道、右声道、及低音声道的回采信号；在声道配置信息2.1.2声道系统时，获取来自左声道、及右声道的回采信号；在声道配置信息为3.1.2、或5.1、或5.1.2、或7.1、或7.1.4声道系统时，获取来自左声道、右声道、低音声道、以中置音声道的回采信号；其中，对于第一音频未使用的声道不获取其对应的冗余回采信号。所述方法实现基于声道使用识别远场语音指令的显示及切换具体步骤已在上文提供的显示设备技术方案中进行详细阐述，在此不再赘述。

在一些实施例中，获取第一音频对应的回采信号，具体包括：控制第一音频由音频硬件接口层发送至音频驱动层，根据所述声道配置信息在音频驱动层获取第一音频对应的回采信号。所述方法实现基于声道使用识别远场语音指令的显示及切换具体步骤已在上文提供的显示设备技术方案中进行详细阐述，在此不再赘述。

在一些实施例中，控制所述语音识别界面显示所述第一语音指令后，所述方法还包括：在所述第一语音指令执行完毕后，取消显示所述语音识别界面；继续监测麦克风所采集的声音以获取唤醒关键词。所述方法实现基于声道使用识别远场语音指令的显示及切换具体步骤已在上文提供的显示设备技术方案中进行详细阐述，在此不再赘述。

本申请实施例的有益效果在于，通过语音应用启动时获取声道配置信息，可实现远场语音识别的即时启动；进一步通过获取声道配置信息，可确定不同的回采信号采集策略；进一步通过获取当前使用声道对应的回采信号，可实现回音数据的准确获取；进一步根据回采信号去除麦克风采集的回音，可实现语音指令的滤取，实现根据声道配置确定回采信号采集策略、避免系统对未使用的声道做冗余回采及避免对应的冗余计算、保证语音识别率的前提下节约系统算力。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为″数据块″、″控制器″、″引擎″、″单元″、″组件″或″系统″。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)、或连接至外部计算机(例如通过因特网)、或在云计算环境中、或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

扬声器，用于播放媒体文件对应的第一音频，所述第一音频由第一控制器根据所述媒体文件、及其包含的声道信息生成；

麦克风，用于采集声音，所述声音可包含用户发出的唤醒关键词，所述唤醒关键词可包含于语音指令；

第一控制器，被配置为：

在来自麦克风的第一声音中检测到唤醒关键词时，控制用户界面显示语音识别界面；

在对第一音频进行音效处理后、输出至扬声器前，根据所述第一音频对应的声道配置信息获取第一音频对应的回采信号，以去除第一声音中来自扬声器发出的回音而获取来自用户的第一语音指令，其中，所述回采信号包含第一音频在其实际使用声道所输出的信号，所述实际使用声道由所述声道配置信息确定，所述第一控制器在语音应用启动时获取第一音频的所述声道配置信息；所述根据所述第一音频对应的声道配置信息获取第一音频对应的回采信号的内容包括在声道配置信息为2.0或2.1声道系统时，获取来自左声道、右声道、及低音声道的回采信号；

在声道配置信息2.1.2声道系统时，获取来自左声道、及右声道的回采信号；

在声道配置信息为3.1.2、或5.1、或5.1.2、或7.1、或7.1.4声道系统时，获取来自左声道、右声道、低音声道、以及中置音声道的回采信号；

其中，对于第一音频未使用的声道不获取其对应的冗余回采信号；

控制所述语音识别界面显示所述第一语音指令。

2.如权利要求1所述显示设备，其特征在于，第一控制器获取第一音频对应的回采信号，具体包括所述第一控制器：

控制第一音频由音频硬件接口层发送至音频驱动层，根据所述声道配置信息在音频驱动层获取第一音频对应的回采信号。

3.如权利要求1所述显示设备，其特征在于，第一控制器控制所述语音识别界面显示所述第一语音指令后，所述第一控制器还被配置为：

在所述第一语音指令执行完毕后，控制用户界面取消显示所述语音识别界面；

继续监测麦克风所采集的声音以获取唤醒关键词。

4.一种基于声道使用的远场语音识别方法，其特征在于，所述方法包括：

在来自麦克风的第一声音中检测到唤醒关键词时，显示语音识别界面；

在对第一音频进行音效处理后、输出至扬声器前，根据所述第一音频对应的声道配置信息获取第一音频对应的回采信号去除第一声音中来自扬声器发出的回音，以获取来自用户的第一语音指令，其中，所述回采信号包含第一音频在其实际使用声道所输出的信号，所述实际使用声道由所述声道配置信息确定，第一控制器在语音应用启动时获取第一音频的所述声道配置信息；所述根据所述第一音频对应的声道配置信息获取第一音频对应的回采信号的内容包括在声道配置信息为2.0或2.1声道系统时，获取来自左声道、右声道、及低音声道的回采信号；

控制所述语音识别界面显示所述第一语音指令。

5.如权利要求4所述基于声道使用的远场语音识别方法，其特征在于，获取第一音频对应的回采信号，具体包括：

6.如权利要求4所述基于声道使用的远场语音识别方法，其特征在于，控制所述语音识别界面显示所述第一语音指令后，所述方法还包括：

在所述第一语音指令执行完毕后，取消显示所述语音识别界面；

继续监测麦克风所采集的声音以获取唤醒关键词。