CN114302248A

CN114302248A - 一种显示设备及多窗口语音播报方法

Info

Publication number: CN114302248A
Application number: CN202110481495.4A
Authority: CN
Inventors: 张永芳; 陈俊宁; 齐消消; 贾亚洲; 李斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-04-08
Anticipated expiration: 2041-04-30
Also published as: CN114302248B

Abstract

本申请提供一种显示设备及多窗口语音播报方法，所述方法在接收到用户输入的控制指令后，检测通过本地接口输出音频的响应窗口，并对其信号源执行静音处理，以便用户在静音期间输入语音交互指令。在显示设备针对语音交互指令形成反馈语音后，再通过响应窗口的音频输出路径播报反馈语音。所述方法可以在显示设备进入多窗口模式后，检测通过本地接口输出音频的响应窗口，从而静音本机扬声器，缓解所播放声音对语音控制造成影响，提高智能语音控制的准确率。

Description

一种显示设备及多窗口语音播报方法

技术领域

本申请涉及智能电视技术领域，尤其涉及一种显示设备及多窗口语音播报方法。

背景技术

智能电视是基于Internet应用技术，具备开放式操作系统与芯片，拥有开放式应用平台，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体的电视产品，用于满足用户多样化和个性化需求。智能电视可以通过多个窗口呈现UI界面、播放界面等用户界面，以展示具体的画面内容。例如，在使用智能电视的过程中，用户可以选择播放本地或网络中的多媒体资源，智能电视则响应于用户操作通过播放窗口展示用户选择播放的媒资画面。

对于部分智能电视，还可以开启用于同时显示两个或两个以上窗口的多窗口模式。在多窗口模式下，可以通过不同的窗口展示不同的画面内容。例如，在进入多窗口模式后，智能电视可以在屏幕中同时显示两个窗口，即窗口1和窗口2。其中，窗口1显示视频1的画面内容，窗口2显示视频2的画面内容。两个窗口同时播放视频画面，以便用户可以共同观看或者预览观看多个视频内容。

智能电视还支持智能语音操作，即可以在智能电视中内置智能语音系统，使用户可以执行语音控制。在执行语音控制的过程中，智能电视在检测到用户唤醒智能语音系统后，需要对智能电视播放的声音进行静音处理，以减少播放声音对用户的语音指令造成干扰。但是在智能电视处于多窗口模式时，由于每个窗口都可以对应输出音频，因此在执行静音处理时容易出现错误，降低智能语音控制的准确性。

发明内容

本申请提供了一种显示设备及多窗口语音播报方法，以解决传统显示设备在多窗口模式下使用智能语音系统时智能语音控制准确率低的问题。

一方面，本申请提供一种显示设备，包括：显示器、音频输出接口和控制器。其中，所述显示器用于显示用户界面，所述用户界面中包括多个窗口；所述音频输出接口可连接本机扬声器和/或外接音频设备等音频设备，用于输出音频，以形成音量输出通路。其中，连接本机扬声器的音频输出接口为本地接口，连接外接音频设备的音频输出接口为外接接口。所述控制器被配置为执行以下程序步骤：

获取用户输入的用于唤醒语音播报的控制指令；

响应于所述控制指令，检测当前响应窗口，所述响应窗口为所述用户界面的多个窗口中通过本地接口输出音频的窗口；

对所述响应窗口的信号源执行静音处理；

通过所述响应窗口的音频输出路径播报反馈语音，所述反馈语音为根据用户在静音期间输入的语音指令所反馈的语音信息。

另一方面，本申请还提供一种多窗口语音播报方法，应用于上述显示设备，所述多窗口语音播报方法包括以下步骤：

获取用户输入的用于唤醒语音播报的控制指令；

对所述响应窗口的信号源执行静音处理；

由以上技术方案可知，本申请提供的显示设备及多窗口语音播报方法可以在接收到用户输入的控制指令后，检测通过本地接口输出音频的响应窗口，并对其信号源执行静音处理，以便用户在静音期间输入语音交互指令。在显示设备针对语音交互指令形成反馈语音后，再通过响应窗口的音频输出路径播报反馈语音。所述方法可以在显示设备进入多窗口模式后，检测通过本地接口输出音频的响应窗口，从而静音本地接口对应的音频设备，缓解所播放声音对语音控制造成影响，提高智能语音控制的准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中显示设备的使用场景；

图2为本申请实施例中控制装置的硬件配置框图；

图3为本申请实施例中显示设备的硬件配置图；

图4为本申请实施例中显示设备的软件配置图；

图5a为本申请实施例中多窗口模式显示效果示意图；

图5b为本申请实施例中通过按键切换多窗口模式的显示效果示意图；

图5c为本申请实施例中通过切换选项切换多窗口模式的显示效果示意图；

图5d为本申请实施例中一种自动切换多窗口模式的显示效果示意图；

图5e为本申请实施例中另一种自动切换多窗口模式的显示效果示意图；

图6a为本申请实施例中一种多窗口模式音频输出方式示意图；

图6b为本申请实施例中多窗口模式音频输出数据流向示意图；

图6c为本申请实施例中另一种多窗口模式音频输出方式示意图；

图7为本申请实施例中语音交互场景示意图；

图8为本申请实施例中多窗口语音播报方法流程示意图；

图9为本申请实施例中检测响应窗口的流程示意图；

图10为本申请实施例中获取反馈语音的流程示意图；

图11为本申请实施例中根据数据库检测响应窗口的流程示意图；

图12为本申请实施例中在焦点窗口中显示语音交互控件的流程示意图；

图13为本申请实施例中语音交互控件显示文字内容变化示意图；

图14为本申请实施例中第二提示文字显示效果示意图；

图15为本申请实施例中执行语音播报的流程示意图；

图16为本申请实施例中同步播报反馈语音的流程示意图；

图17为本申请实施例中检测多窗口模式的流程示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Appl icat ion Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

基于上述显示设备200，用户在使用显示设备200的过程中可以控制显示设备200进入多窗口模式。在多窗口模式下，显示设备200的显示器260可以在用户界面中同时显示两个或两个以上的窗口，每个窗口可以独立的显示不同内容。例如，如图5a所述，在显示设备200进入到多窗口模式后，显示器260可同时显示第一窗口和第二窗口，其中第一窗口可以用于显示媒资A的播放画面，第二窗口可以用于显示媒资B的播放画面。

在不同的使用场景中，多窗口显示的画面内容不同，相应的画面类型也可以不同。例如，在第一窗口中显示媒资A的播放画面，在第二窗口中显示设置菜单画面。即不同窗口同时显示不同类型的界面，第一窗口显示播放界面，第二窗口显示主页界面。

用户可以通过特定的交互动作控制显示设备200进入多窗口模式。例如，如图5b所示，可以在显示设备200配套的控制装置100上设置多窗口模式切换按键，当用户按下该多窗口模式切换按键时，可以控制显示设备200进入多窗口模式，即控制显示设备200的显示器260显示多个窗口。如图5c所示，还可以在显示设备200的UI界面中设置多窗口模式切换选项，当用户点击该切换选项时，可以控制显示设备200进入或退出多窗口模式。

在一些实施例中，还可以显示设备200还可以对用户的使用状态实时检测，并判断用户是否具有多窗口显示的需求，从而根据用户需求智能切换多窗口模式或提供多窗口模式切换选项。例如，如图5d所示，在显示设备200播放媒资画面的过程中，如果有视频聊天请求，则可以自动切换至多窗口模式，使得显示设备200可以通过第一窗口显示媒资画面；同时通过第二窗口显示视频聊天画面。又例如，如图5e所示，在显示设备200播放媒资画面的过程中，还可以在用户界面的右侧显示多个推荐节目选项，当用户选中任一推荐节目选项并确认后，可以控制显示设备200进入多窗口模式，即原媒资播放画面通过第一窗口显示，推荐节目对应的播放画面通过第二窗口显示。

显示设备200处于多窗口模式时，不但可以通过多窗口同时显示不同的画面内容，还可以在显示画面内容的同时，输出画面对应的音频内容。例如，如图6a所示，显示设备200上同时播放节目1和节目2，节目1的画面在第一窗口中展示，节目2的画面在第二窗口中进行展示。同时，节目1的声音通过本机扬声器进行播放，节目2的声音可通过外接usb音响或者连接蓝牙音箱等音频输出设备进行播放。此时，如图6b所示，SOC系统端从双窗口模式数据库中获取第一窗口的输出设备Out1和窗口的对应音量Vol1，切换第一窗口输出设备为Out1，并刷新音量值为Vol1；从双窗口模式数据库中获取第二窗口的输出设备Out2和对应音量Vol2，切换第二窗口输出设备为Out2，并刷新音量值为Vol2。以此，在同步显示多个画面时，还通过不同的音频输出装置播放声音，达到互不干扰的目的。

上述示例中，显示设备200可以通过音频输出接口输出音频信号，并通过音频输出接口连接不同的音频输出设备输出声音。具体可以包括：通过显示设备200本机自带的音频输出设备输出声音，例如，显示设备200的扬声器等；以及通过外接至显示设备200的音频输出设备输出声音，例如，通过有线或无线方式连接至显示设备200的音响设备、耳机等。为了便于描述，本申请将本机音频输出设备连接的音频输出接口称为本地接口；将外接音频输出设备连接的音频输出接口称为外接接口。

需要说明的是，为了获得更好的交互体验，通过本地接口输出音频的窗口一般只有一个，而其他窗口可以根据外接音频设备的数量，分别通过外接接口输出音频，如图6c所示，显示设备200还可以同时展示三个窗口，用于分别显示不同的节目，并且第一窗口和第三窗口通过外接接口连接音频设备输出声音，第二窗口使用本地接口连接本机扬声器输出声音。

在使用智能语音系统时，显示设备200与用户之间的交互过程也依赖于音频实施交互，即用户通过输入语音指令输入控制命令，智能语音系统通过语音播报反馈交互结果。例如，如图7所示，用户通过输入语音“今天天气怎么样”，智能语音系统通过解析、判断可以确定用户的控制命令为查询天气，因此可以控制显示设备200通过访问天气类应用或者从云端服务器中获取天气信息。在获取天气信息后，还可以通过语音播报的形式，将天气信息以音频的形式进行输出，如“今天天气晴，气温10-20℃，西南风3-4级”。

用户输入的语音指令还可以包括具体的控制功能。例如，用户输入语音“把亮度调到50％”，则智能语音系统可以根据该语音内容生成用于调节屏幕亮度至50％的控制命令，并通过运行该命令实现亮度调节。在实施亮度调节后，还可以通过语音播报，向用户反馈命令执行结果，例如播报语音“已将亮度调整至50”。

可见，在使用智能语音系统的过程中，显示设备200可以处理两类语音信息，即用户输入的语音和反馈给用户的语音。这些语音在输入输出的过程中，很容易受到环境因素影响。例如环境中的杂音影响智能语音系统对用户所输入的语音的识别，也影响反馈的语音播报。其中，对于一般家庭场景，能够影响语音交互过程的环境因素主要是显示设备200所产生的声音。例如，在用户输入语音交互指令时，显示设备200中播放的媒资声音也会被显示设备200的麦克风采集到，影响对语音识别的准确率。同时，在播报反馈语音的过程中，显示设备200播放的媒资声音也会影响输出效果，造成用户无法听清播报的语音内容。

为此，在一些实施例中，显示设备200可以在用户输入语音交互指令时，对显示设备200所播放的音频进行消音处理，以减少播放音频对输入语音的影响。同时，在播报反馈语音时，可以对播报期间内的媒资声音进行消音或减音处理，以便于用户听清播报的语音。

然而，在显示设备200处于多窗口模式时，显示设备200可以通过方式的设备输出音频，而不同的输出方式会对语音的输入和播报产生不同的影响。例如，在显示设备200处于多窗口模式时，第一窗口通过本机扬声器播放音频；第二窗口通过外接音频设备播放音频。其中，本机扬声器由于与显示设备200以及用户的距离较近，输出的声音容易影响到语音交互过程，需要在语音交互的过程中执行上述静音和/或减音处理。而外接音频设备播放的音频通常不会影响到交互过程，因此可以保持原本音频输出方式，以减小语音交互过程对正常观影的影响。

因此，为了提高语音交互过程的准确率，同时减小对用户正常观影过程的影响，本申请的部分实施例中还提供一种显示设备200。包括：显示器260、音频输出接口270和控制器250。其中，显示器260用于显示用户界面，所显示的用户界面在显示设备200处于多窗口模式时，可以包括多个窗口。音频输出接口270可连接本机扬声器和/或外接音频设备，用于输出音频以形成音量输出通路。控制器250则被配置为运行一种多窗口语音播报方法，用于在多窗口模式下实现精确的语音控制，如图8所示，所述多窗口语音播报方法具体包括以下内容：

获取用户输入的用于唤醒语音播报的控制指令。显示设备200的控制器250可以在用户使用过程中接收用户输入的各种控制指令，不同的控制指令对应具有不同的功能。其中，部分控制指令可以用于唤醒语音播报。例如，显示设备200可以针对智能语音系统设置特定的唤醒词，如“嗨！××”。显示设备200在获取到用户输入唤醒词后，可以启动智能语音系统，接收用户输入的具体语音内容。

用于唤醒语音播报的控制指令还可以通过借助硬件设备完成输入。例如，显示设备200配套使用的控制装置100上可以设有语音输入按键，用户可以在按下该语音输入按键期间，输入具体的语音内容。因此，当显示设备200检测到语音输入按键被按下时，确定用户输入了用于唤醒语音播报的控制指令。

用于唤醒语音播报的控制指令还可以通过对显示设备200的操作UI界面执行操作完成输入。例如，用户可以点击UI界面中语音助手图标启动智能语音系统应用程序，即用于唤醒语音播报的控制指令为上述点击操作。

另外，在运行部分应用的过程中，也可以通过特定的交互动作唤醒语音播报功能。例如，天气应用界面上可以包括语音播报选项，当用户点击语音播报选项时，可以启动智能语音系统播报当前天气信息，此时针对语音播报选项的点击指令也是用于唤醒语音播报的控制指令。

用户通过上述方式中的任一种输入语音播报控制指令后，显示设备200的控制器250可以在接收到该控制指令后，响应于该控制指令，检测当前响应窗口。其中，响应窗口是用户界面的多个窗口中通过本地接口输出音频的窗口。即在接收到用户输入的控制指令后，处于多窗口模式的现实设备200可以检测多个窗口中使用本地接口进行音频输出的窗口。

例如，如图9所示，在用户输入唤醒词“嗨！××”后，控制器250可以先检测当前用户界面中所包含的窗口，分别为第一窗口和第二窗口，再对每个窗口的音频输出路径进行检测。当检测到第一窗口的音频输出设备为本机扬声器、第二窗口的音频输出设备为外接音频设备时，可以确定第一窗口为响应窗口。

在检测确定响应窗口后，控制器250可以对响应窗口的信号源执行静音处理，以便用户输入具体的语音指令。例如，在确定第一窗口为响应窗口后，显示设备200可以对第一窗口中播放的媒资声音进行静音处理，以使显示设备200的本机扬声器不再输出声音，便于用户输入具体的语音指令。

其中，对响应窗口的信号源执行的静音处理可以通过多种不同的方式实现。例如，可以在确定响应窗口后，暂时关闭本机扬声器，以使本机扬声器在用户输入具体语音指令过程中不输出任何声音。也可以直接控制音频数据流的传输过程，使待播放的媒资数据中的视频部分正常播放，而音频部分不进行解析或者不将解析后的音频数据流发送给本机扬声器。还可以通过设置响应窗口的音量输出通路的增益，使响应窗口对应的输出增益为0％，从而实现静音效果。

在静音期间，显示设备200还可以接收用户输入的语音控制指令，并针对用户输入的语音控制指令生成反馈语音。例如，用户输入语音“把亮度调到50％”，则经过语音控制系统输出的识别结果为“控制/亮度/50％”，因此可以生成用于调整亮度的控制指令，调整目标值为50％。

在生成响应指令后，如图10所示，可以在对应的语音播报模板中匹配反馈语音。其中，语音播报模板中可以存储有不同响应指令对应的反馈语音内容。反馈语音可以由固定句式和参数词组成。例如，针对调整亮度的控制指令，反馈语音中固定句式为“已将亮度调整至”，而参数词为调整目标值，即“50％”，因此可以匹配到反馈语音内容为“已将亮度调整至50％”。再通过响应窗口的音频输出路径播报反馈语音，即通过显示设备200的本机扬声器将反馈语音进行播报。

可见，上述实施例中提供显示设备200可以针对多窗口中使用本地接口进行音频输出的响应窗口进行静音处理，并通过本机扬声器播报反馈语音，使语音的输入和播报都处于最容易识别的状态，便于智能语音系统实现准确的控制，并能够引导用户输入正确的语音交互指令。

在一些实施例中，如图11所示，为了检测当前响应窗口，显示设备200的控制器250可以在接收到用户输入的控制指令后，调用数据库。其中，所述数据库中记载有用户界面中每个窗口的音频输出路径。例如，可以为每个窗口设置一个识别ID，并在显示设备200处于多窗口模式时，按照各个窗口的识别ID在数据库中创建存储表项。存储表项中可以包括与当前窗口相关的设置参数，例如，音频输出路径、输出音量、输出音效等等。每个存储表项可以根据用户的设置参数或者硬件连接状态的改变进行不断进行更新，从而维持参数的时效性。

基于上述数据库，在调用数据库后，控制器250可以遍历数据库中各窗口的音频输出路径，以获得通过本地接口输出音频的响应窗口。例如，通过遍历数据库中各表项的音频数据路径项，确定第一窗口的对应音频输出路径为本地接口时，则确定第一窗口为响应窗口。

在一些实施例中，显示设备200还可以在用户进行语音交互的过程中，通过显示提示内容，引导用户输入以及供用户对输入的语音信息进行校验。例如，可以在用户输入语音指令后，通过语音交互控件显示针对语音指令的识别结果，即显示语音指令对应的文字内容。

在多窗口模式下，显示设备200可以在全局界面中显示语音交互控件，也可以在指定的一个窗口中显示语音交互控件。对于在指定的一个窗口中显示语音交互控件的情形，所指定的窗口可以是确定的响应窗口，即在对所述响应窗口的信号源执行静音处理期间，在响应窗口中显示语音交互控件。例如，在确定第一窗口为响应窗口后，可以在第一窗口中显示语音交互控件。

所指定的窗口也可以是其他窗口，例如焦点窗口。其中，焦点窗口是用户界面的多个窗口中带有焦点标记的窗口。而焦点标记是指用于辅助用户执行交互，标记交互对象的图形。例如，焦点标记可以为选择框，用户可以通过遥控器上的“上、下、左、右”方向键控制选择框在不同选项之间切换。

通常，焦点窗口可以便于用户执行交互操作，以辅助语音交互过程。为了确定焦点窗口，控制器250可以通过检测焦点光标的位置，以根据所述焦点标记位置识别焦点窗口。例如，当焦点光标位于第一窗口时，可以确定当前焦点窗口为第一窗口；而当焦点光标位于第二窗口时，可以确定当前焦点窗口为第二窗口。

显然，由于在每个窗口中都可以显示UI布局界面，即如图12所示，在部分实施例中，焦点标志不在窗口上而在窗口内的任一选项上。因此在检测焦点窗口时，还可以进一步对窗口范围内是否存在焦点标志进行检测。当焦点标志在第一窗口范围内，则确定焦点窗口为第一窗口；当焦点标志在第二窗口范围内，则确定焦点窗口为第二窗口。

在检测到焦点窗口后，控制器250可以在对静音处理期间，在焦点窗口中显示语音交互控件。例如，如果焦点标志在第一窗口，即使当前使用本地接口输出音频的窗口是第二窗口，依然在第一窗口左下方显示语音交互控件，即显示语音助手提示信息，以便用户可以执行交互动作。

对于显示的语音交互控件，所呈现的具体显示内容可以包括文字内容和图形形状。例如，语音交互控件可以包括圆角矩形的外框，以及外框内的文字组成。在不同的交互阶段，外框的形状和文字内容不同。即在一些实施例中，控制器250可以在接收到用户输入的语音交互指令前，向语音交互控件中添加第一提示文字，用于提示用户输入语音。例如，如图13所示，在刚刚唤醒智能语音系统，未输入具体语音内容时，可以在语音交互控件中显示文字“请输入语音”、“倾听中……”等内容，以引导用户输入语音指令。而在用户输入语音指令后，随着用户的输入，可以将文字内容修改为针对用户的输入所识别出的文字内容，如“今天天气……”。

为了实现上述显示效果，显示设备200可以在显示语音交互控件后，接收用户输入的语音交互指令，并将语音交互指令中的语音转化为文字信息。将语音转化为文字信息可以通过智能语音助手中内置的识别引擎完成，即识别引擎可以通过分析语音波形在词库中匹配，确定语音中包含的文字，再结合中文句法规则，对识别出的文字信息进行修正，以获得与输入语音相匹配的文字信息。识别引擎可以采用开源引擎、自研引擎以及第三方引擎等。

在获得转化的文字信息后，显示设备200可以使用文字信息替换语音交互控件中的文字内容。例如，在识别出用户输入语音对应的文字信息为“打开‘×××’应用”，则可以将语音交互控件上初始显示的“倾听中……”替换为“打开‘×××’应用”。

当用户输入的语音对应句子较长时，识别引擎还可以根据用户输入时的停顿，对语音进行拆分，并依次对每个片段进行文字信息转化，并且将转化获得的文字片段依次实时显示在语音交互指令中。例如，用户输入“我想看看，明天晚上6点的机票，我要去北京”，则在用户输入语音的整个过程中，可以先识别“我想看看”并将识别出的文字信息显示在语音交互控件上，再识别“明天晚上6点的机票”并在将识别出的文字信息显示在语音交互控件上时，接着在“我想看看”的后方进行显示，从而获得实时显示效果。便于用户校验。

在实时显示语音对应的文字内容时，显示设备200还可以根据所显示的文字内容实时调整语音交互控件的图形形状。即控制器250可以检测文字信息所包含的字符数，再根据字符数修改语音交互控件的图形形状。例如，当用户输入的语音内容较少时，可以通过长度较短的图形形状进行显示，而当用户输入的语音内容较多时，则可以通过长度较长的图形形状进行显示。形状可变化的语音交互控件，不仅具有一定的美观度，以适应不同的输入内容，也可以通过语音交互控件的图形形状变化便于用户辨识语音交互控件的位置，引导用户完成对识别结果的校验。

在一些实施例中，如图14所示，为了提示用户完成语音交互，显示设备200还可以在通过语音交互控件显示第一提示文字的过程中，实时检测是否接收到用户输入的语音交互指令。如果在预设时间内未接收到用户输入的语音交互指令，将语音交互控件中的第一提示文字替换为第二提示文字。例如，当用户唤醒智能语音系统后，显示设备200所显示的第一提示文字为“倾听中……”，在此期间，控制器250可以检测用户是否输入语音交互指令。如果在5s内用户未输出语音交互指令，则可以将第一提示文字替换为第二提示文字，即不再显示“倾听中……”而显示“您可以对我说‘今天天气怎么样’、‘打开××应用’等内容”，以提示用户输入语音交互指令。

上述语音交互控件的显示过程还可以应用在对反馈语音进行播报的过程中。即在一些实施例中，当显示设备200获得反馈语音内容后，可以获取反馈语音对应的文字，再通过语音交互控件显示反馈语音对应的文字。同理，根据反馈语音对应文字的字符数，也可以实时对语音交互控件的形状进行修改，即反馈语音内容篇幅较长时，通过较大的语音交互控件完成文字的显示。

在播报反馈语音期间，显示设备200可以一直显示语音交互控件，即控制器250可以控制显示器260显示语音交互控件，直到在反馈语音播报结束后，不再显示语音交互控件。

显示设备200在播报反馈语音的过程中，可以对响应窗口的音频输出通道进行静音或减音处理，以便于用户听清语音播报内容。而为了减少语音播报对正常观影过程的影响，在一些实施例中，可以对应音频输出通道进行减音处理，即在播报反馈语音时，减小对应输出通道中的媒资播放音量。对此，显示设备200的控制器250可以在通过响应窗口的音频输出路径播报反馈语音的步骤中，先获取响应窗口的第一信号源数据。再对第一信号源数据与反馈语音数据执行混音处理，以生成第一混音结果数据。最后再通过响应窗口的音频输出路径播放第一混音结果数据。

例如，如图15所示，控制器250可以从双窗口模式数据库中获取第一窗口对应的信号源和输出设备，如果第一窗口输出设备为本机扬声器，则静音当前信号源，智能语音系统收音解析结束后，解除静音。再将智能语音系统反馈的音频与当前信号源数据进行混音，混音后数据通过第一窗口对应的输出设备进行播报，即通过显示设备200的本机扬声器进行播报。如果第一窗口输出设备为蓝牙音箱，则从第二窗口数据库获取第二窗口的音频输出设备，如果第二窗口的音频输出设备为本机扬声器，则从第二窗口数据库获取第二窗口信号源，并静音第二窗口信号源输出。智能语音系统收音解析结束后，解除静音。再将智能语音系统反馈的音频与第二窗口的信号源数据混音，混音后数据通过第二窗口的输出设备进行播报。

可见，通过响应窗口的音频输出路径播报反馈语音和媒资声音的混音结果，不仅可以保持使用本机扬声器播报反馈语音，更便于用户听取，而且可以获得更协调的播报效果，减少语音播报过程对原媒资声音播放过程造成影响，提高用户体验。

在一些实施例中，还可以通过多个音频设备同步输出反馈语音。即如图16所述，通过响应窗口的音频输出路径播报反馈语音的步骤中，显示设备200的控制器250可以检测同步窗口。其中，所述同步窗口为用户界面的多个窗口中通过外接音频设备输出音频的窗口，当每个窗口对应一个单独的音频输出设备时，同步窗口则是响应窗口以外的其他窗口。再获取同步窗口的第二信号源数据，并对第二信号源数据与反馈语音数据执行混音，以生成第二混音结果数据，最后通过响应窗口的音频输出路径播放第二混音结果数据。

例如，如果第一窗口输出设备为本机扬声器，第二窗口输出设备为外接音频设备，则可以确定第一窗口为响应窗口，第二窗口为同步窗口。因此，在对第一窗口对应的音频输出路径进行静音、收音、解除静音后，经智能语音系统获得反馈语音。再将反馈语音与第一窗口和/或第二窗口的信号源进行混音，以获得混音结果并分别按照对应的音频输出路径完成播报。

可见，通过采用不同的音频输出路径完成反馈语音的播报，可以在不影响不同用户观看过程的前提下，让关注不同窗口的用户连接语音交互结果，提高用户体验。

在一些实施例中，显示设备200还可以在执行语音交互前，对当前是否处于多窗口模式进行判断。即如图17所示，在一些实施例中，控制器250可以响应于控制指令，遍历当前播放进程数量。通常一个窗口可以对应一个播放进程，而不存在播放进程的窗口通常不输出音频信号，因此，通过遍历当前播放进程数量，可以确定当前显示设备200是否需要针对每个窗口单独的进行音量调整。

根据播放进程的遍历结果，如果播放进程数量大于或等于2，则确定显示设备200当前处于多窗口模式，且多窗口都能够对应输出音频信号，因此可以执行检测当前响应窗口的步骤。如果播放进程数量小于或等于1，即确定显示设备200不处于多窗口模式或者多个窗口中仅一个窗口对应输出音频信号。此时，对当前显示设备200的系统音执行静音，以及通过本机扬声器播报反馈语音，即按照常规语音交互模式完成交互即可。

基于上述显示设备200，本申请的部分实施例还提供一种多窗口语音播报方法，所述方法先获取用户输入的用于唤醒语音播报的控制指令；再响应于控制指令，检测当前响应窗口并对响应窗口的信号源执行静音处理；最后通过响应窗口的音频输出路径播报反馈语音。

可见，所述实施例提供的多窗口语音播报方法可以在接收到用户输入的控制指令后，检测通过本地接口输出音频的响应窗口，并对其信号源执行静音处理，以便用户在静音期间输入语音交互指令。在显示设备针对语音交互指令形成反馈语音后，再通过响应窗口的音频输出路径播报反馈语音。所述方法可以在显示设备进入多窗口模式后，检测通过本地接口输出音频的响应窗口，从而静音本机扬声器，缓解所播放声音对语音控制造成影响，提高智能语音控制的准确率。

需要说明的是，上述实施例基于两个窗口为例对多窗口语音播报方法进行描述，应当理解的是，所述方法还可以应用于两个以上窗口的使用模式。例如，在用户界面中可以包括三个窗口、四个窗口……在多个窗口模式下，显示设备200依然可以采用上述多窗口语音播报方法，实现静音本机扬声器，缓解所播放声音对语音控制造成影响，提高智能语音控制的准确率。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种显示设备，其特征在于，包括：

显示器，被配置为显示用户界面，所述用户界面中包括多个窗口；

音频输出接口，被配置为输出音频，以形成音频输出路径，所述音频输出接口包括本地接口和外接接口；

控制器，被配置为：

获取用户输入的用于唤醒语音播报的控制指令；

对所述响应窗口的信号源执行静音处理；

2.根据权利要求1所述的显示设备，其特征在于，检测当前响应窗口的步骤中，所述控制器被进一步配置为：

调用数据库，所述数据库中记载有所述用户界面中各窗口的音频输出路径；

遍历所述数据库中各窗口的音频输出路径，以获得通过本地接口输出音频的响应窗口。

3.根据权利要求1所述的显示设备，其特征在于，对所述响应窗口的信号源执行静音处理的步骤中，所述控制器被进一步配置为：

检测焦点标记在所述用户界面中的位置，以根据所述焦点标记位置识别焦点窗口，所述焦点窗口为所述用户界面的多个窗口中带有焦点标记的窗口；

在对所述响应窗口的信号源执行静音处理期间，在所述焦点窗口中显示语音交互控件。

4.根据权利要求1所述的显示设备，其特征在于，对所述响应窗口的信号源执行静音处理的步骤中，所述控制器被进一步配置为：

在对所述响应窗口的信号源执行静音处理期间，在所述响应窗口中显示语音交互控件。

5.根据权利要求3或4所述的显示设备，其特征在于，所述语音交互控件的显示内容包括文字内容和/或图形形状，显示语音交互控件后，所述控制器被进一步配置为：

接收用户输入的语音交互指令；

将所述语音交互指令中的语音转化为文字信息；

使用所述文字信息替换所述语音交互控件中的文字内容；

检测所述文字信息所包含的字符数；

根据所述字符数修改所述语音交互控件的图形形状。

6.根据权利要求5所述的显示设备，其特征在于，所述控制器被进一步配置为：

在接收到用户输入的语音交互指令前，向所述语音交互控件中添加第一提示文字；

检测是否接收到用户输入的语音交互指令；

如果在预设时间内未接收到用户输入的语音交互指令，将所述语音交互控件中的第一提示文字替换为第二提示文字。

7.根据权利要求1所述的显示设备，其特征在于，通过所述响应窗口的音频输出路径播报反馈语音的步骤中，所述控制器被进一步配置为：

获取所述反馈语音对应的文字；

在语音交互控件中添加所述反馈语音对应的文字；

在播报反馈语音期间，控制所述显示器显示所述语音交互控件；

在播报反馈语音结束后，控制所述显示器不再显示所述语音交互控件。

8.根据权利要求1所述的显示设备，其特征在于，通过所述响应窗口的音频输出路径播报反馈语音的步骤中，所述控制器被进一步配置为：

获取所述响应窗口的第一信号源数据；

对所述第一信号源数据与反馈语音数据执行混音处理，以生成第一混音结果数据；

通过所述响应窗口的音频输出路径播放所述第一混音结果数据。

9.根据权利要求8所述的显示设备，其特征在于，通过所述响应窗口的音频输出路径播报反馈语音的步骤中，所述控制器被进一步配置为：

检测同步窗口，所述同步窗口为所述用户界面的多个窗口中通过外接音频设备输出音频的窗口；

获取所述同步窗口的第二信号源数据；

对所述第二信号源数据与反馈语音数据执行混音，以生成第二混音结果数据；

通过所述响应窗口的音频输出路径播放所述第二混音结果数据。

10.一种多窗口语音播报方法，其特征在于，应用于显示设备，所述显示设备包括显示器、音频输出接口以及控制器，其中所述显示器被配置为显示用户界面，所述用户界面中包括多个窗口，所述多窗口语音播报方法包括：

获取用户输入的用于唤醒语音播报的控制指令；

对所述响应窗口的信号源执行静音处理；