CN112492390A

CN112492390A - 一种显示设备及内容推荐方法

Info

Publication number: CN112492390A
Application number: CN202011305640.5A
Authority: CN
Inventors: 宁静; 王旭升; 丁佳一
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-03-12

Abstract

本申请提供一种显示设备及内容推荐方法，所述方法可以综合声音信息和图像信息对用户的动作意图和当前用户状态进行精确识别，从而向用户推送更精准的推荐内容。由于在内容推荐过程中，声音信息和图像信息均来源于实时采集的用户相关数据，因此所述内容推荐方法可以克服基于历史记录或频繁操作动作推荐内容时，容易受多用户影响的问题，缓解推荐内容不准确的问题。

Description

一种显示设备及内容推荐方法

技术领域

本申请涉及智能电视技术领域，尤其涉及一种显示设备及内容推荐方法。

背景技术

智能电视是基于Internet应用技术，具备开放式操作系统与芯片，拥有开放式应用平台，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体的电视产品，用于满足用户多样化和个性化需求。智能电视可以内置内容推荐系统，用于根据用户喜好向用户推荐媒体资源或引导用户使用特定功能。

以家庭用户场景为例，内容推荐系统可以收集用户的使用数据，如观看历史数据、经常启动的应用程序等，并通过统计分析使用数据，确定用户喜好标签，从而根据用户喜好标签，向用户推送相类似的媒体资源，以供用户选择观看。

但是，基于观看历史等使用数据的内容推荐方法仅适用于单用户的使用场景。由于不同用户的喜好并不相同，相应选择使用的推荐内容也不同，这将造成不同用户使用同一个智能电视时，产生的使用数据包含多个用户的喜好。在统计分析时将多个用户的使用数据统计至一个用户的喜好标签中，从而造成推荐的内容与实际使用用户的喜好偏差较大。因此，上述内容推荐方法无法针对多个用户的使用喜好以及习惯做精准推荐，具有很大的局限性，同时降低用户的使用体验。

发明内容

本申请提供了一种显示设备及内容推荐方法，以解决传统内容推荐方法推荐的内容不准确的问题。

一方面，本申请提供一种显示设备，包括：显示器、检测器以及控制器；其中，检测器包括声音采集器和图像采集器，分别用于采集用户声音数据和图像数据；所述控制器被配置为执行以下程序步骤：

接收通过声音采集器获取的用于唤醒内容推荐功能的声音信息；

接收通过图像采集器获取的用户图像信息；

根据所述声音信息和所述图像信息获取推荐数据，所述推荐数据由根据所述声音信息识别的动作意图以及根据所述图像信息识别的用户状态匹配获得。

另一方面，本申请还提供一种内容推荐方法，应用于显示设备，所述显示设备包括显示器、检测器以及控制器，所述检测器包括声音采集器和图像采集器，分别被配置为采集用户的声音信息和图像信息；所述方法包括：

接收通过图像采集器获取的用户图像信息；

由以上技术方案可知，本申请提供的显示设备及内容推荐方法可以综合声音信息和图像信息对用户的动作意图和当前用户状态进行精确识别，从而向用户推送更精准的推荐内容。由于在内容推荐过程中，声音信息和图像信息均来源于实时采集的用户相关数据，因此所述内容推荐方法可以克服基于历史记录或频繁操作动作推荐内容时，容易受多用户影响的问题，缓解推荐内容不准确的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中显示设备与控制装置之间操作场景的示意图；

图2为本申请实施例中显示设备的硬件配置框图；

图3为本申请实施例中控制装置的硬件配置框图；

图4为本申请实施例中显示设备软件配置示意图；

图5为本申请实施例中显示设备应用程序的图标控件界面显示示意图；

图6为本申请实施例中显示设备在语音交互场景的一种应用示意图；

图7为本申请实施例中显示设备应用在语音交互场景的流程示意图；

图8为本申请实施例中显示设备在语音交互场景的另一种应用示意图；

图9为本申请实施例中显示设备应用在语音交互场景的另一流程示意图；

图10为本申请实施例中识别模型的供应商下发识别模型的示意图；

图11为本申请实施例中服务器得到识别模型的一种流程示意图；

图12为本申请实施例中服务器对识别模型进行更新的一种流程示意图；

图13为本申请实施例中内容推荐流程示意图；

图14a为本申请实施例中精准推荐模式界面示意图；

图14b为本申请实施例中用户输入语音时界面示意图；

图14c为本申请实施例中识别用户状态为高兴时的界面示意图；

图14d为本申请实施例中识别用户状态为困惑时的界面示意图；

图15为本申请实施例中根据声纹数据匹配账号信息的流程示意图；

图16为本申请实施例中为待识别图像添加识别标签的流程示意图；

图17为本申请实施例中多次数据确认的流程示意图；

图18为本申请实施例中根据人像图案匹配账号信息的流程示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端1002和控制装置1001操作显示设备200。

在一些实施例中，控制装置1001可以是遥控器，遥控器和显示设备200的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端1002可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端1002与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端1002上，通过控制移动终端1002上用户界面，实现控制显示设备200的功能。也可以将移动终端1002上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。

在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。

在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

在一些实施例中，显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。

在一些实施例中，根据显示器275类型不同，还包括用于驱动显示的驱动组件。

在一些实施例中，显示器275为一种投影显示器，还可以包括一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器可以包括Wifi芯片，蓝牙通信协议芯片，有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。

在一些实施例中，显示设备200可以通过通信器220与外部控制设备1001或内容提供设备之间建立控制信号和数据信号发送和接收。

在一些实施例中，用户接口265，可用于接收控制装置1001(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器230是显示设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

在一些实施例中，检测器230中的图像采集器232，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。

在一些实施例中，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在一些实施例中，检测器230还可以包括声音采集器231等，如麦克风，可以用于采集语音数据，当用户通过语音方式说出指令时，麦克风能够采集到包括用户说出的指令的语音数据。示例性的，声音采集器231可以采集包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得显示设备200可以自适应适应环境噪声。

在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，外部装置接口240可以包括，但不限于如下：可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。

在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

在一些实施例中，调谐解调器210解调的频点受到控制器250的控制，控制器250可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。

在一些实施例中，广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号，模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

如图2所示，控制器250包括随机存取存储器251(Random Access Memory，RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如：图形处理器(Graphics Processing Unit，GPU)、中央处理器254(CentralProcessing Unit，CPU)、通信接口(Communication Interface)，以及通信总线256(Bus)中的至少一种。其中，通信总线连接各个部件。

在一些实施例中，RAM 251用于存储操作系统或其他正在运行中的程序的临时数据在一些实施例中，ROM 252用于存储各种系统启动的指令。

在一些实施例中，ROM 252用于存储一个基本输入输出系统，称为基本输入输出系统(Basic Input Output System，BIOS)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。

在一些实施例中，在收到开机信号时，显示设备200电源开始启动，CPU运行ROM252中系统启动指令，将存储在存储器的操作系统的临时数据拷贝至RAM 251中，以便于启动或运行操作系统。当操作系统启动完成后，CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后，以便于启动或运行各种应用程序。

在一些实施例中，CPU处理器254，用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，CPU处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。

在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如GPU+FRC(Frame Rate Conversion))架构。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。

在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。

在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了显示设备200自身携带的扬声器之外，可以输出至外接设备的发生装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。

供电电源290，在控制器250控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

在一些实施例中，用户通过控制装置1001或移动终端1002输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器250响应用户的输入。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

存储器260，包括存储用于驱动显示设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。

基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

图3示例性示出了根据示例性实施例中控制设备1001的配置框图。如图3所示，控制设备1001包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。

控制设备1001被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制设备1001上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制设备1001可是一种智能设备。如：控制设备1001可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端1002或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制设备1001类似功能。如：用户可以通过安装应用，在移动终端1002或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制设备1001实体按键的功能。

控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制设备1001的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制设备1001包括通信接口130和输入输出接口140中至少一者。控制设备1001中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200.

存储器190，用于在控制器的控制下存储驱动和控制控制设备1001的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器的控制下为控制设备1001各元件提供运行电力支持。可以电池及相关控制电路。

在一些实施例中，系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

图4为本申请提供的显示设备的软件系统示意图，参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、K歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本申请实施例对此不做限制。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。

在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。

在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。

在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。

在一些实施例中，以魔镜应用(拍照应用)为例，当遥控接收装置接收到遥控器输入操作，相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值，输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作，该确认操作所对应的控件为魔镜应用图标的控件，魔镜应用调用应用框架层的接口，启动魔镜应用，进而通过调用内核层启动摄像头驱动，实现通过摄像头捕获静态图像或视频。

在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。

在一些实施例中，图5为本申请提供的显示设备能够提供的应用程序的示意图，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。

在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

更为具体地，在一些实施例中，本申请前述的任一显示设备200，均可具有语音交互的功能，来提高显示设备200的智能化程度，并提高显示设备200的用户体验。

在一些实施例中，图6为本申请实施例中显示设备在语音交互场景的一种应用示意图，其中，用户1可以通过声音说出希望显示设备200执行的指令，则对于显示设备200可以实时采集语音数据，并对语音数据中包括的用户1的指令进行识别，并在识别出用户1的指令后，直接执行该指令，在整个过程中，用户1没有实际对显示设备200或者其他设备进行操作，只是简单地说出了指令。

在一些实施例中，当如图2所示的显示设备200应用在如图6所示的场景中，显示设备200可以通过其声音采集器231实时采集语音数据，随后，声音采集器231将采集得到的语音数据发送给控制器250，由控制器250对语音数据中包括的指令进行识别。

在一些实施例中，图7为本申请实施例中显示设备应用在语音交互场景的流程示意图，可以由如图6所示场景中的设备执行，具体地，在S11中，显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据，并将所采集到的语音数据发送给控制器250进行识别。

在一些实施例中，在如图7所示的S12中，控制器250在接收到语音数据后，对语音数据中包括的指令进行识别。例如，语音数据中包括用户1说出的“增大亮度”的指令，则控制器250并在识别到语音数据中包括的指令后，可以由该控制器250执行所识别出的指令，控制显示器275增加亮度。可以理解的是，这种情况下控制器250对每个接收到的语音数据进行识别，可能出现识别语音数据中没有指令的情况。

而在另一些实施例中，基于指令识别的模型较大、运算效率较低，还可以规定用户1在说出指令前加入唤醒词，例如“ABCD”，则用户需要说出“ABCD，增大亮度”的指令，使得在如图7所示的S12中，控制器250在接收到语音数据后，首先对每个语音数据中是否有“ABCD”的唤醒词进行识别，在识别到有唤醒词之后，再使用指令识别模型对语音数据中的“增大亮度”对应的具体指令进行识别。

在一些实施例中，控制器250在接收到语音数据后，还可以对语音数据进行去噪，包括去除回声和环境噪声，处理为干净的语音数据，并将处理后的语音数据进行识别。

在一些实施例中，图8为本申请实施例中显示设备在语音交互场景的另一种应用示意图，其中，显示设备200可以通过互联网与服务器400连接，则当显示设备200采集到语音数据后，可以将语音数据通过互联网发送给服务器400，由服务器400对语音数据中包括的指令进行识别，并将识别后的指令发送回显示设备200，使得显示设备200可以直接执行所接收到的指令。这种场景与如图6所示的场景相比，减少了对显示设备200运算能力的要求，能够在服务器400上设置更大的识别模型，来进一步提高对语音数据中指令识别的准确率。

在一些实施例中，当如图2所示的显示设备200应用在如图6所示的场景中，显示设备200可以通过其声音采集器231实时采集语音数据，随后，声音采集器231将采集得到的语音数据发送给控制器250，控制器250通过通信器220将语音数据发送给服务器400，由服务器400对语音数据中包括的指令进行识别后，显示设备200再通过通信器220接收服务器400发送的指令，并最终由控制器250执行所接收到的指令。

在一些实施例中，图9为本申请实施例中显示设备应用在语音交互场景的另一流程示意图，可以由如图8所示的场景中的设备执行，其中，在S21中，显示显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据，并将所采集到的语音数据发送给控制器250，控制器250在S22中将语音数据进一步通过通信器220发送给服务器400，由服务器在S23中识别语音数据中包括的指令，随后，服务器400将识别得到的指令在S24中发送回显示设备200，对应地，显示设备200通过通信器220接收指令后发送给控制器250，最终控制器250可以直接执行所接收到的指令。

在一些实施例中，如图7所示的S23中，服务器400在接收到语音数据后，对语音数据中包括的指令进行识别。例如，语音数据中包括用户1说出的“增大亮度”的指令。而由于指令识别的模型较大，且服务器400对每个接收到的语音数据进行识别，可能出现识别语音数据中没有指令情况，因此为了降低服务器400进行无效的识别、以及减少显示设备200和服务器400之间的通信交互数据量，在具体实现时，还可以规定用户1在说出指令前加入唤醒词，例如“ABCD”，则用户需要说出“ABCD，增大亮度”的指令。

随后，由显示设备200的控制器250在S22中，首先通过模型较小、运算量较低的唤醒词识别模型，对语音数据中是否存在唤醒词“ABCD”进行识别，若当前控制器250正在处理的语音数据中没有识别出唤醒词，则控制器250不会将该语音数据发送给服务器400；若当前控制器250正在处理的语音数据中识别出唤醒词，则控制器250再将该语音数据全部，或者语音数据中唤醒词之后的部分发送给服务器400，由服务器400对所接收到的语音数据进行识别。由于此时控制器250所接收到的语音数据中包括唤醒词，发送给服务器400所识别的语音数据中也更有可能包括用户的指令，因此能够减少服务器400的无效识别计算，也能够减少显示设备200和服务器400之间的无效通信。

在一些实施例中，为了让显示设备200能够具有如图6所示的一种具体场景中，对语音数据中指令的识别功能，或者，让显示设备200能够具有如图6或图8所示的一种具体场景中，对语音数据中唤醒词的识别功能，作为显示设备200的语音交互功能的供应商，还需要制作可用于识别指令或者识别唤醒词的机器学习模型，例如textcnn、transform等深度学习模型。并将这些模型存储在显示设备200中，由显示设备200在进行识别时使用。

在一些实施例中，图10为本申请实施例中识别模型的供应商下发识别模型的示意图，其中，供应商所设置的服务器400得到识别模型(可以是指令识别模型，也可以是唤醒词识别模型)后，可以将识别模型发送给各个显示设备200。其中，如图10所示的过程可以是显示设备200在生产时进行，由服务器400将识别模型发送给每个显示设备200；或者，还可以在显示设备200开始使用后，服务器400通过互联网将识别模型发送给显示设备200。

在一些实施例中，服务器400可以具体通过采集语音数据，并基于机器学习模型进行学习的方式，得到识别模型。例如，图11为本申请实施例中服务器400得到识别模型的一种流程示意图，其中，在S31中，各显示设备(以显示设备1-显示设备N，共N个为例)采集语音数据1-N，并在S32中将采集到的语音数据1-N发送给服务器400。随后，在S33中，供应商的工作人员可以通过人工标注的方式，将每个语音数据以及语音数据中包括的指令或者唤醒词进行标注后，将语音数据本身，以及语音数据对应的标注信息作为数据送入机器学习模型中，由服务器400进行学习，学习得到的识别模型在后续使用时，当输入一个待识别的语音数据后，识别模型将该语音数据与已经学习的语音数据进行比对，并输出每个标注信息的概率，最终最大概率对应的标注信息可以作为待识别的语音数据的识别结果。在S34中，服务器400可以将计算得到的识别模型发送各显示设备。

在一些实施例中，服务器400也可以不使用如图11所示实施例中由显示设备1-N实际采集的语音数据计算识别模型，而是可以直接由工作人员输入不同的语音数据，以及每个语音数据的标注信息，并在计算得到识别模型后发送给各显示设备。

在一些实施例中，如图11所示的采集语音数据并发送给服务器的显示设备1-N，与服务器400计算得到识别模型后，发送给显示设备1-N中可以是两个独立的过程，也就是说，S32中服务器接收到N个显示设备采集的语音数据，S34中服务器可以向另外N个显示设备发送所训练得到的识别模型。这两个过程中N个显示设备可以相同或不同，或者也可以部分相同。

在一些实施例中，由于在得到识别模型时，所使用的样本数量有限，使得显示设备200所设置的识别模型不可能做到完全百分百准确的识别，因此供应商还可以通过服务器400随时收集各显示设备200在实际使用过程中所采集的语音数据，并根据所采集的语音数据对已经识别得到的识别模型进行更新，来进一步提高识别模型的识别准确性。

例如，图12为本申请实施例中服务器对识别模型进行更新的一种流程示意图，可以理解的是，在执行如图12所示的实施例之前，每个显示设备中按照如图10所示的方式，设置了识别模型。则在如图12所示S31中，各显示设备(以显示设备1-显示设备N，共N个为例)采集语音数据1-N，并在S32中将采集到的语音数据1-N发送给服务器400。随后，在S33中，供应商的工作人员可以通过人工标注的方式，将每个语音数据以及语音数据中包括的指令或者唤醒词进行标注后，将语音数据本身，以及语音数据对应的标注信息作为数据送入机器学习模型中，由服务器根据接收到的新的语音数据，对已经计算得到的识别模型进行更新，并在S34中，服务器400可以将更新后的识别模型重新发送各显示设备200，使得每个显示设备200可以使用更新后的识别模型进行更新。其中，对于这N个显示设备中的任一个，由于新的学习模型采用了这个显示设备200所采集的语音数据，因此可以有效地提高后续对这个显示设备200对所采集的语音数据进行识别的准确性。

在一些实施例中，如图12所示的每个显示设备，可以在接收到语音数据后就发送给服务器，或者，在固定的时间段结束后将在这个时间段内采集到的语音数据发送给服务器，又或者，当采集到的一定数量的语音数据后统一发送给服务器，又或者，可以根据显示设备的用户的指示、或者根据服务器的工作人员的指示将已经接收到的语音发送给服务器。

在一些实施例中，如图12所示的N个显示设备可以在同一个约定的时刻同时将语音数据发送给服务器，由服务器根据接收到的N个语音数据对识别模型进行更新；或者，N个显示设备还可以分别将语音数据发送给服务器，服务器在接收到语音数据的数量大于N个之后，即可开始根据接收到的语音数据对识别模型进行更新。

本申请实施例中，内容推荐是指用户麦克风等声音采集器231输入语音后，智能语音系统根据输入的语音向用户展示推荐内容的过程。例如，用户输入的语音为“我想看电影”，则在接收到该语音后，智能语音系统可以通过推荐程序从服务器400获得电影资源，再将电影资源进行展示，以供用户进行选择。在展示推荐内容的同时，显示设备200还可以进行语音播报，引导用户查看推荐内容。例如，显示设备200可以在显示推荐的电影的同时，播报“已向您推荐以下”、“这些电影都很不错”等语音内容。

由于用户输入的语音内容具有多样性，因此在用户输入的语音内容并非全部用于内容推荐。例如，当用户输入“我想看××”、“我想听××”等语音信息时，其语音数据中包含明确的推荐目的，因此这类语音称为用于唤醒内容推荐功能的声音信息。而部分语音没有包括明确的推荐目的，例如，用户输入“我今天状态怎么样”、“调低亮度”等语音信息时，其语音数据中没有明确的推荐目的，因此对于这类语音，可以按照智能语音系统中配置程序执行相应的配置功能即可。

显示设备200在接收到用户输入的语音信息后，还可以通过显示器275将语音信息中的文字内容进行呈现。例如，用户输入“我想看电影”时，显示设备200可以在显示界面的最上层左下角区域显示“我想看电影”的文字内容，以便用户可以了解输入的语音是否被正确识别。在显示文字内容的同时，显示设备200还可以展示推荐的电影媒资项目，其具体展示的电影媒资项目，可以从服务器400中获得，即用户输入语音信息以后，显示设备200可以根据输入的语音信息向服务器400发送推荐请求，其推荐请求中包括用户输入的语音中所指示的推荐类型，例如“电影”。服务器400在接收到推荐请求后，可以向显示设备200反馈推荐资源项目数据，从而在显示设备200中进行显示。

为了实现更具个性化的推荐功能，在显示设备200向服务器400发送的推荐请求中还可以包括其他信息，例如当前用户的观看历史、用户的频繁操作项目等数据。服务器400可以根据这些信息对推荐数据进行筛选，从而使返回给显示设备200的推荐数据与用户的观看历史和操作喜好相适应，便于用户获取感兴趣的推荐内容。

但是，在实际应用中，由于使用显示设备200的用户数量并不局限于一个，但登录到显示设备200系统中的账户通常只有一个，使得不同的用户在使用同一个显示设备200时，会在同一个账户中产生多个历史记录，则在服务器400根据历史记录筛选推荐内容时，使推荐内容是多个用户所感兴趣的内容，不能实现个性化推荐。

例如，登录到显示设备200系统中的账户为用户A，用户A喜欢喜剧类电影。而同时还有用户B和用户C也使用该显示设备200，并且用户B喜欢动作类电影，用户C喜欢惊悚类电影。则由于三个用户都使用同一个账户，形成的历史记录中既包括喜剧类电影，又包括动作类和惊悚类电影。因此在用户A输入语音“我想看电影”后，根据历史记录所推荐的内容中，包括喜剧类、动作类和惊悚类电影，而这些动作类和惊悚类电影并不是用户A喜欢的资源，即推荐的内容与用户意愿相差较大。

为了进一步实现精准推荐，在本申请的部分实施例中提供一种内容推荐方法，所述内容推荐方法可以应用于显示设备200，通过语音与图像相结合的方式精准识别动作意图和用户状态，以推荐合适的内容。为了能够实施内容推荐，显示设备200可以包括显示器275、检测器230以及控制器250。其中，控制器250可以通过运行所述内容推荐方法对应的控制程序，实施所述内容推荐方法。如图13所示，所述内容推荐方法包括以下步骤：

接收通过声音采集器获取的用于唤醒内容推荐功能的声音信息。

显示设备200可以内置或外接检测器230检测用户输入的各种类型控制信号。其中，为了检测声音信号，检测器230可以包括声音采集器231，例如可以在显示设备200中集成麦克风设备，麦克风设备在启用后可以检测环境中的声音信号，并将检测到的语音转化为声音信息。

由于智能电视等显示设备200的应用场景中经常有用户说话，因此为了排除用户交谈的影响，显示设备200还可以在智能语音系统中配置唤醒词，只有当用户输入唤醒词对应的语音信息时，才启用智能语音系统。例如，唤醒词为“海信小聚”或者“小聚小聚”，则在用户输入上述语音信息时，启动声音采集器231实时检测用户声音。

随着用户输入语音，显示设备200可以根据检测的语音信息执行相应的语音动作。为了能够识别输入的语音，在采集到声音信号后，显示设备200可以对声音信号执行识别分析，将声音信号转化为文字信息。例如，具体的转化方法可以通过隐马尔可夫模型(HiddenMarkov Model，HMM)对声音信号进行处理，输出对应的文字内容。

显示设备200还可以针对转化得到的文字信息进行自然语言处理，以提取文字信息中包含的关键词，并根据关键词的内容确定用户是否输入用于唤醒内容推荐功能的声音信息。具体应用中，可以在显示设备200中配置的智能语音系统内，设置一个语音识别单元，语音识别单元主要用于收集用户前端声音信号，声音信号经语音识别系统处理转换为语音识别结果，此识别结果标为用户的动作意图。

需要说明的是，用户可以通过不同方式输入语音。例如，用户在使用显示设备200时，可以通过按下控制装置1001上的语音输入按键，同时说出“我想看电影”的语音内容，输入用于唤醒内容推荐功能的声音信息。用户还可以通过显示设备200的远场麦克风输入“小聚小聚”启动智能语音系统，并在一定时间内输入“我想看电影”的语音内容，输入用于唤醒内容推荐功能的声音信息。

为了提高语音交互效率，还可以在显示设备200的语音交互系统中内置模式选择功能，模式选择功能可以集成两种模式，即常规模式和精准推荐模式，不同模式下可以在用户输入语音内容后，呈现不同的提示画面。例如，如图14a所示，在精准推荐模式下，可以在用户输入唤醒内容后，显示“当前处于AI精准推荐模式，可尝试对我说‘我今天的状态怎么样？’”的提示内容。而在常规模式下，可以在用户输入唤醒内容后，显示“当前处于常规模式，可尝试对我说‘今天天气怎么样’”的提示内容。显然，在显示提示内容的同时，还可以显示一些常用操作按钮和模式切换按钮控件等。

接收通过图像采集器获取的用户图像信息。

在输入用于唤醒内容推荐功能的声音信息后，显示设备200判断用户需要推荐内容。为了实现精准判断，在获取声音信息后，显示设备200可以通过图像采集器232获取用户图像。其中，图像采集器232可以是内置或外接显示设备200的摄像头设备。摄像头设备可以在启动后，实时对场景中人物进行图像拍摄，以获得多张用户图像，即获取用户图像信息。

显然，能够用于精准判断的图像中需要包含人像或人脸内容，因此可以需要将图像采集器232设置在便于对人物进行拍摄的位置。例如，图像采集器232为设置在显示器275顶部的摄像头组件，且摄像头组件的拍摄方向正对显示器275的前方区域，以便能够拍摄到正在观看显示设备200的用户。

用户图像信息可以用于确定当前的用户状态，用户状态可以包括用户的年龄、表情等信息。并且，为了能够获得更加准确的当前用户状态，用户图像信息中可以包括多帧图像数据，每一帧图像数据中可以包括不同的画面内容。通过多帧图像数据，可以对当前的用户状态进行综合分析，并最终获得识别结果。具体应用中，可以在显示设备200中配置的智能语音系统内，设置一个图像识别单元，图像识别单元可以用于采集camera帧图像，获得用户图像信息。再对采集到的图像经算法处理识别后转换为用户的年龄，表情信息，并提供独立的数据交互结果。

根据所述声音信息和所述图像信息获取推荐数据。

在获取声音信息和图像信息后，显示设备200还可以分别从声音信息和图像信息进行识别分析，确定声音信息以及图像信息中所包含的能够反映用户特征的内容。再根据所识别出的多种内容进行综合判断，以获取推荐数据。

其中，所述推荐数据由根据所述声音信息识别的动作意图以及根据所述图像信息识别的用户状态匹配获得，即显示设备200可以通过对声音信息转化的文字内容进行语言处理，确定用户的动作意图数据；同时对图像信息进行图像识别获取当前用户的年龄、表情等用户状态数据。再将动作意图数据和用户状态数据封装在资源推荐请求中，发送给服务器400。服务器400可以根据推荐请求，向显示设备200返回推荐数据。在具体应用中，可以在智能语音系统中设置内容推荐单元，内容推荐单元可以对语音识别单元以及图像识别单元的识别结果进行统计分类，对用户输入的业务需求进行拆分定位，从而根据动作意图和用户状态提供最终的推荐结果。

所述动作意图可以是用户在语音中所指定的动作类型，因此可以通过对声音信息的识别处理，获得动作意图数据。在一些实施例中，可以在所述声音信息中提取动作数据；再根据所述动作数据在配置库中匹配语音动作，以获得动作意图。例如，用户输入的声音信息为“我想看电影”时，指示该语音所对应的后续语音动作为推荐电影资源，则可以从声音信息中提取“电影”作为动作意图数据。显然，根据用户输入的语音内容不同，动作意图也不同，相应后续所推荐的内容也不同。

所述用户状态是指当前使用显示设备200的用户所处的状态。用户状态可以包括人物状态和面部状态等内容。人物状态可以反映当前用户的基本信息，例如年龄、性别、体型、衣着等信息；面部状态则可以反映当前用户的情绪信息，例如高兴、悲伤等。用户状态可以通过对拍摄的图像信息进行图像处理获得。具体的图像处理方式可以根据实际应用时具体推荐策略设定。例如，对于表情分析，可以通过分析图像中人脸图案与标准模型图案进行对比，获得相似度以确定当前用户情绪。

由于向服务器400发送的推荐请求中带有动作意图数据和用户状态数据，因此在服务器400获取到推荐请求后，可以对推荐请求中的动作意图数据和用户状态数据进行提取，并根据动作意图数据和用户状态数据对推荐内容进行筛选，以推送符合动作意图和当前用户状态的内容。

例如，显示设备200向服务器400发送的推荐请求中，包括“动作意图：视频；年龄：20-30岁；表情：快乐”，则服务器400可以对视频资源进行筛选，提取视频资源库中标签为“喜剧、综艺、搞笑”的视频资源，并将提取的视频资源作为推荐内容项发送给显示设备200。

显示设备200在获取到推荐数据后，可以控制显示器275显示推荐数据。在实际应用中，可以在显示设备200的操作系统中设置一个资源呈现界面，专门用于展示推荐内容。当显示设备200接收到推荐数据后，可以调用该资源呈现界面，并将推荐数据中各推荐内容项目添加至该资源呈现界面中，经UI布局渲染后最终显示在显示器275中。

由于用户可在多种不同的界面基础上使用语音交互功能，因此在获取推荐数据并渲染成资源呈现界面以后，还可以对显示的界面进行跳转，即从当前显示的界面跳转至资源呈现界面。显然，为了显示推荐内容，还可以在当前显示的界面中划定一个推荐内容展示区域，在该展示区域中，同样可以将推荐数据中的各推荐内容项目进行展示，以供用户进行选择。

由以上技术方案可知，上述实施例提供的内容推荐方法，可以综合声音信息和图像信息对用户的动作意图和当前用户状态进行精确识别，从而向用户推送更精准的推荐内容。由于在内容推荐过程中，声音信息和图像信息均来源于实时采集的用户相关数据，因此所述内容推荐方法可以克服基于历史记录或频繁操作动作推荐内容时，容易受多用户影响的问题，缓解推荐内容不准确的问题。

需要说明的是，由于对声音信息和图像信息的识别过程需要消耗一定的运行时间，因此可以在用户输入语音后，通过提示信息提示用户。例如，如图14b所示，用户输入“我要看电影”语音后，可以在显示“我要看电影”对应的文字内容后，显示包含“正在识别中，请稍候片刻”等内容的提示画面。并在显示该提示画面的同时，执行对声音信息和图像信息的识别处理。

在获得识别结果后，还可以对识别结果进行显示，包括识别出的年龄、性别、表情等。显然，根据识别结果的不同，所显示的内容也不同，例如，当识别出性别为女性时，可以显示女性图案的内容，当识别出年龄为老年人时，可以显示老人图案的内容。在显示识别结果的同时，还可以配合显示一些用于表征识别结果的文字内容。例如，如图14c、图14d所示，在上述显示“正在识别中，请稍候片刻”的位置替换显示为“看你今天心情不错，希望这些内容能让你的快乐翻倍”，或者“你看起来有点困惑，希望这些内容，能够带给你更多的正能量”。

在一些实施例中，接收通过声音采集器获取的用于唤醒内容推荐功能的声音信息的步骤还包括：

对所述声音信息执行语音识别，生成语音识别结果；

如果所述语音识别结果中包括内容推荐关键词，生成用于启动所述图像采集器的控制指令；

发送所述控制指令，以通过所述图像采集器获取用户图像信息。

在获取声音信息后，显示设备200可以对声音信息执行语音识别，将波形电信号转化为具体的文字数据，以生成语音识别结果。语音识别结果由文字组成，可以被显示设备200的控制器250直接读取，并按照预设语言处理模型对识别结果进行进一步处理。即可以对语音识别结果的进行分词、标记、分类处理，以获取语音识别结果所包含的内容。

再通过对语音识别结果中是否包括内容推荐关键词进行判断。其中，内容推荐关键词是指能够表征推荐动作或推荐类型的词语。例如，对语音识别结果“我要看电影”进行分词后，获得“我/要看/电影”，则可以确定当前语音识别结果中包含三个关键词，即“我”、“要看”、“电影”。而“要看”表示推荐动作，“电影”表示推荐类型，因此确定当前语音识别结果中包括内容推荐关键词，可以控制启动图像采集器232获取用户图像信息。

而当语音识别结果中没有内容推荐关键词时，则可以不启动图像采集器232。例如，语音识别结果为“打开聚好看”，则确定的关键词中，“打开”不表示推荐动作，“聚好看”也不表示推荐类型，即当前语音识别结果中不包括内容推荐关键词，因此可以不启动运行图像采集器232，直接运行名称为“聚好看”的应用程序。

可见，本实施例中，在未使用语音交互功能时，图像采集器可以处于关闭状态。当用户通过唤醒词启用智能语音系统后，并且判断语音识别结果中包括内容推荐关键词，即用户输入的语音内容中指示进行内容推荐后，再启动运行图像采集器以获取图像信息进行识别处理，这种启动方式可以减少显示设备200中的数据处理量，同时减少内容推荐功能的语音交互过程对其他功能的语音交互过程产生影响。

为了实现更加个性化的内容推荐过程，在获取推荐数据的过程中除动作意图和用户状态外，还可以参考其他相关信息，例如历史记录等信息。因此，如图15所示，在一些实施例中，根据所述声音信息和所述图像信息获取推荐数据的步骤还包括：

从所述声音信息中提取声纹数据；

以所述声纹数据为索引，在用户账号信息库中匹配账号信息；

如果所述用户账号信息库中未匹配到与所述声纹数据相匹配的账号信息，根据所述声纹数据创建账号。

在显示设备200中，可以为每个用户创建单独的账号信息，用于记录用户的观看历史数据以及操作数据等内容，并分别存储在显示设备200的存储器260中。为了区别各账号信息，还可以为每个账号信息存储其声纹数据，以通过声纹数据对使用的用户进行区分。

当用户输入声音信息后，可以在声音信息中提取声纹数据，并以提取的声纹数据为索引，在用户账号信息信息库中匹配账号信息。如果在用户账号信息库中匹配到声纹数据相匹配的账号信息，则可以提取该账号信息下相关记录数据，并与上述实施例中识别的动作意图数据和用户状态数据一同封装在推荐指令中，以便发送给服务器400。

如果用户账号信息库中未匹配到与声纹数据相匹配的账号信息，即代表当前输入语音的用户是新用户，因此可以根据声纹数据创建一个账号，并在该账号信息中记录用户的操作数据。

可见，本实施例可以通过声纹数据对使用语音交互功能的用户进行区分，并且在每个账号信息中分别记录不同用户的操作数据，避免不同用户在使用同一个显示设备200时所产生操作数据之间的干扰，有利于实现精准推荐。

需要说明的是，对于不同用户，除声纹数据以外，还可以通过面部数据进行区分，因此创建的账号信息中还可以包括面部数据。即通过图像采集器232获取用户图像信息后，还可以从图像信息中提取面部数据，并以面部数据为索引在用户账号信息库中匹配账号信息，并根据不同的匹配结果，提取对应账号信息下的操作数据或者创建新的账号。

由于图像信息处理过程涉及图像转化、图形提取、图形匹配等过程，并且为了能够准确的识别当前用户状态，在图像信息识别过程中，还可以对多帧图像数据执行识别分析过程。因此，图像信息处理过程会消耗一定的时间，可能降低内容推荐结果的响应效率。为此，在一些实施例中，如图16所示，接收通过声音采集器获取的用于唤醒内容推荐功能的声音信息的步骤还包括：

从所述图像采集器获取视频流；

按照预设间隔帧数，从所述视频流中提取多帧待识别图像；

为每一帧所述待识别图像添加识别标签。

所述图像采集器232可以是一种能够持续采集图像数据的摄像头，例如，摄像头每秒可以采集24帧以上的图像数据，并将采集到的图像数据实时传递给控制器250进行图像处理，即形成视频流。

在所形成的视频流中，可以包括多个连续帧图像，通常相邻两帧图像之间的显示内容相差较小，导致图像识别的识别结果也趋于一致，不利于实现综合判断。因此在本实施例中，可以按照预设间隔帧数对视频流中的图像进行间帧提取，以获得多帧待识别图像。通过间帧提取，不仅可以大大减少图像的处理量，而且可以从多帧图像中分别提取出表示用户状态的特征数据，有利于准确识别当前用户状态。例如，当多帧图像中均提取到表示“高兴”状态的面部特征时，则确定当前用户状态为“高兴”。

显然，为了减少数据处理量，同时保留用户在多帧图像中的特征信息，设置的间隔帧数不宜过大，因为过大的间隔帧数会造成图像特征的丢失，无法准确识别当前的用户状态；设置的间隔帧数也不宜过小。因为过小的间隔帧数会造成图像过载，增加数据处理负荷延长系统响应时间。因此间隔帧数可以兼顾显示设备200硬件配置和应用场景综合设置，例如，可以每隔5帧提取一帧图像，从而在减少数据处理量的同时能够尽可能满足对用户图像特征信息的保留。

在提取多帧待识别图像后，还可以为每一帧待识别图像添加识别标签。识别标签可以按照待识别图像的提取顺序进行设置，也可以按照待识别图像在原视频流中的顺序进行设置。例如，每隔5帧提取一帧待识别图像，则可以为第一帧待识别图像设置识别标签为“001”、隔5帧提取第二帧待识别图像设置识别标签为“002”、直至将所有提取的待识别图像均添加识别标签。

在对待识别图像添加识别标签后，可以将待识别图像分别输入识别模型进行图像识别。其中，所述识别模型为根据样本数据训练获得的模型，该识别模型可以待识别图像为输入数据，以待识别图形中的人脸图案对各标准情绪图案的分类概率为输出，生成图像识别结果。因此，在一些实施例中，根据所述声音信息和所述图像信息获取推荐数据的步骤还包括：

在所述待识别图像中识别人脸图案；

从所述人脸图案区域内提取面部特征信息；

计算所述面部特征信息与预设标准状态的相似度，以获得图像识别结果。

将待识别图像输入到识别模型后，识别模型可以先对待识别图像进行拆分，提取待识别图像中的人脸图案区域。显然，当用户处于不同姿态或位置时，在待识别图像中提取的人脸图案区域的大小、位置也不同。因此，为了识别人脸图案，可以在待识别图像中匹配与人脸特征相似的形状、颜色等信息，并根据人脸图案中的五官图案位置，确定人脸图案的整体位置。

在识别出人脸图案后，识别模型可以在人脸图案区域内再进行特征识别，以提取面部特征信息。其中，面部特征可以包括眼睛、嘴等形状、方向和开合程度等信息，以及面部器官的相对位置、比例等信息。

再将提取的面部特征信息与预设标准状态进行对比，从而确定面部特征信息与预设标准状态之间的相似度，从而获得图像识别结果。例如，可以在识别模型中内置标准情绪状态的样本数据，即设置高兴状态下的面部特征数据、悲伤状态下的面部特征数据等。

当从人脸图案区域中提取面部特征数据以后，可以通过计算提取的面部特征数据与预设标准状态数据之间的相似度，并且当计算获得的相似度大于或等于设定的阈值时，则确定当前图像中用户状态与对应的标准状态相同，从而输出图像识别结果。例如，经计算后确定提取的面部特征数据与“高兴”状态下标准状态数据的相似度为98％，大于预设阈值70％，则输入图像识别结果当前用户状态为“高兴”。

在获得一帧待识别图像的图像识别结果后，还可以按照识别标签标记的顺序，对其余待识别图像进行识别处理，从而获取多帧待识别图像的识别结果。最后，再将多帧识别图像的识别结果进行综合分析计算，以确定最终的用户状态识别结果。例如，在10帧待识别图像的识别结果中有8个识别结果为“高兴”，2个识别结果为中性表情，则确定当前用户状态为“高兴”。

可见，通过上述识别过程，可以从图像采集器232采集的视频流中识别用户状态，并通过多帧待识别图像的识别结果进行综合判断，以确定最终的用户状态。通过上述识别过程，可以准确的判断出当前用户状态，缓解在采集用户图像过程中，因用户动作造成的用户状态识别结果，便于实现精准推荐。

由于在上述图像识别过程中，待识别图像的内容不同，因此不同内容的待识别图像可以识别出不同的结果，并且在部分待识别图像中可能无法识别出用户状态。如果在一帧待识别图像中未识别出人脸图案，可以跳过当前帧对下一帧待识别图像进行识别。这样的识别方式会造成部分待识别图像没有识别结果。为此，在一些实施例中，根据所述声音信息和所述图像信息获取推荐数据的步骤还包括：

根据所述图像识别结果的识别标签，匹配待识别图像；

如果所述图像识别结果与所述待识别图像的识别标签相同，输出所述识别结果；

如果所述图像识别结果与所述待识别图像的识别标签不相同，执行多次数据确认；

在多次数据确认无相匹配的待识别图像后，丢弃所述图像识别结果。

本实施例中，可以在识别模型输出图像识别结果后，提取图像识别结果的识别标签，从而根据该识别标签，匹配待识别图像。如果图像识别结果与待识别图像的识别标签相同，即该待识别图像能够输出识别结果，可将识别结果进行输出，以便进行综合判断。

如果图像识别结果与待识别图像的识别标签不相同，则表示输入识别模型中的待识别图像中，有一部分待识别图像中没有获得识别结果，因此为了保证输出结果的同步性，可以通过执行多次数据确认，以确定当前识别结果所对应的待识别图像。并且，如果多次数据确认后，仍无法确定与识别结果相匹配的待识别图像，则可以将该图像识别结果丢弃，以避免该识别结果对用户状态判断过程造成影响。

为了保证识别结果与待识别图像之间的同步性，在另一个实施例中，还可以直接通过识别标签序号的连续性进行判断，从而在识别结果不连续时执行数据确认。即根据所述声音信息和所述图像信息获取推荐数据的步骤还包括：

遍历多个所述图像识别结果的识别标签；

如果多个所述识别标签不连续，针对不连续的识别标签对应的图像识别结果执行多次数据确认；

如果多个所述识别标签连续，根据多个所述图像识别结果生成用户状态。

在针对多帧待识别图像数据得到多个图像识别结果后，控制器250还可以通过遍历多个图像识别结果的识别标签，获取每个识别结果的标签顺序。再对标签顺序的连续性进行判断，如果多个识别标签不连续，则需要对不连续的识别标签对应的图像识别结果执行数据确认，以确定与之对应待识别图像。如果全部识别结果的识别标签顺序为连续的，则可以根据多个图像识别结果生成用户状态，以便用于精确推荐资源内容。

例如，图像采集器232在获取图像信息后，不断输入图像数据，其中部分帧可以作为进行图形识别的待识别图像，如10-19帧是送图像识别的数据。识别模型可以处理待识别图像，并输出接收的图像结果数据，如10-19帧。如果在输出图像识别结果时15,16帧图像的数据丢失，或者因系统卡顿导致结果传送超时，则造成识别结果就不连续。

因此可以通过识别标签，在输出识别结果时每一帧都会同输入的待识别数据进行数据确认，若当前帧的处理结果与输入帧的结果对应，则输出识别结果；若图像数据处理接收方与前一帧结果不连续，则保存当前识别结果，并向发送方发送数据确认，可最多进行两次识别结果的确认，若两次确认结果均为无数据，则丢弃当前识别结果，下一次连续识别输出以最新的识别结果为准。

可见，在上述实施例中，可以通过识别标签对图像识别结果与输入图像之间的同步性进行判断，使识别分析过程能够获得更多有价值的识别结果，便于准确判断当前用户状态，实现精准推荐。

在进行图像识别的过程中，由于图像采集器232可以对使用场景进行拍摄，因此在获得的图像数据中可能包括一名用户，也可能包括多名用户。而在多名用户情况下，将会在图像中识别出多个人脸图案，相应会输出多个识别结果，而多个识别结果不利于确定用户状态，因此，如图18所示，在一些实施例中，如果在所述待识别图像中识别出多个人脸图案，所述内容推荐方法还包括：

以每个人脸图案为索引，在用户账号信息库中匹配账号信息；

如果所述用户账号信息库中匹配到与所述人脸图案相匹配的账号信息，按照每个所述账号信息分别生成识别结果；

根据所述识别结果和所述声音信息生成推荐请求。

由于用户在语音输入命令词条后，会拉起摄像头进行图像识别，此时会采用间帧取图的方法将图像送到识别模型，等待图像识别结果。经过图像识别处理，获取图像的识别结果，可以包括年龄，性别，表情等。而一次识别过程有可能会得到多个识别结果，此时，图像识别系统会对结果进行区分，可以包括以下三种方式：无结果输出、单人脸识别结果、多人脸识别结果。

对于多人脸识别结果，可以根据每个人脸图案，分别匹配账号信息，如果在账号信息库中匹配到账号信息，即表示一同观看的用户为经常使用显示设备200的用户，因此可以在推荐内容时，综合考虑多用户的当前状态，按照每个账号信息分别生成识别结果，从而根据每个识别结果和声音信息生成推荐请求。

例如，用户A、用户B以及用户C同时使用显示设备200时，在语音输入命令词条后，图像采集器232拍摄到的一帧待识别图像数据中，可以包含三个人脸图案。此时可以对三个人脸图案分别进行匹配，确定对应的账号信息。如果匹配到三个人脸图案对应的账号信息分别为：账号A、账号B、账号C，即用户A、用户B和用户C均为常用用户，则可以分别从三个人脸图案提取面部特征信息，并与标准状态计算相似度，以分别确定用户A、用户B以及用户C的当前用户状态。如，用户A为“高兴”、用户B为“中性表情”、用户C为“高兴”。最后，根据识别结果和声音信息生成推荐请求，以发送给服务器400获取推荐内容。显然，获取的推荐内容应符合多个用户的当前用户状态，实现个性化推荐。

需要说明的是，在图像中识别多个人脸图案以后，还可以通过人脸图案的位置，或结合声音信息，确定多个人脸图案对应的用户中哪一个是主用户，从而按照主用户的用户状态生成推荐请求。

即可以在图像中识别出多个人脸图案时，可以再从声音信息中提取声纹数据，并根据声纹数据匹配账号信息。再根据匹配获得的账号信息与人脸图案进行匹配，以将当前账号信息对应的人脸图案作为主用户。最后对主用户的人脸图案进行面部特征提取，并与标准状态模板进行相似度计算，从而获得主用户的当前用户状态，从而按照主用户的用户状态进行内容推荐。

例如，在语音输入命令词条后，图像采集器232拍摄到的一帧待识别图像数据中，包含三个人脸图案，此时则可以对命令词条对应声音信息的声纹数据进行提取，并在用户账号信息库中进行匹配。如果匹配确定声纹数据对应的账号信息为账号B，即用户B为主用户。再根据账号B中记录的人脸图案与待识别图像中的人脸图案进行对比，确定三个人脸图案中哪个来自于用户B，从而在用户B对应的人脸图案中提取面部特征，以确定用户B的当前用户状态，推送用户B感兴趣的内容。

在一些实施例中，在所述图像信息中识别用户状态后，可以生成推荐请求，即根据所述声音信息和所述图像信息获取推荐数据的步骤还包括：

根据所述动作意图和所述用户状态生成推荐请求指令；

向服务器发送所述推荐请求指令，以使所述服务器根据所述推荐请求指令返回与所述动作意图和所述用户状态相匹配的推荐数据；

接收所述推荐数据。

为了获得推荐数据，显示设备200可以根据从声音信息中提取的动作意图以及从图像信息中提取的用户状态生成推荐请求指令，并通过通信器220将推荐请求指令发送给服务器400。服务器400可以在接收到推荐请求指令后，对该指令进行解析，以获得动作意图和用户状态，从而根据动作意图和用户状态对资源进行筛选，以确定相匹配的推荐数据。

基于上述内容推荐方法，本申请的部分实施例中还提供一种显示设备200，包括显示器275、检测器230以及控制器250，其中显示器275被配置为显示用户界面及语音交互实时内容，检测器230包括声音采集器231和图像采集器232，声音采集器231被配置为获取用户输入的声音信号，图像采集器232被配置为获取用户的图像信息，声音采集器231和图像采集器232还将采集的数据发送给控制器250。控制器250可以对采集的数据进行识别分析，以获取推荐内容。所述控制器250被进一步配置为执行以下程序步骤：

接收通过图像采集器获取的用户图像信息；

由以上技术方案可知，本申请提供的显示设备200，可以用于实现上述实施例中的内容推荐方法。所述显示设备200可以内置语音交互功能，并综合声音信息和图像信息对用户的动作意图和当前用户状态进行精确识别，从而向用户推送更精准的推荐内容，实现精准推荐。

其中，显示设备200可以在不同的动作意图和用户状态下推荐不同的内容，并按照特定的方式推送资源内容，同时进行语音播报。例如，用户状态可以包括情绪属性和年龄、性别属性，当情绪属性和年龄、性别属性同时存在时，优先推荐情绪属性对应的媒资内容。不同情绪对应推荐内容如下：

快乐：推荐【喜剧/综艺/搞笑视频】。播报“看你今天心情不错，希望这些内容能让你的快乐翻倍”；

愤怒：推荐【温馨、温暖/电影/视频】播报“你看起有点不开心，希望这些内容，能给你带来快乐”；

悲哀：推荐【喜剧/综艺/搞笑视频】播报“你看起有点淡淡忧伤，希望这些内容，能带给你快乐”；

困惑：推荐【哲学、剧情电影】播报“你看起有点困惑，希望这些内容，能带给你更多的正能量”；

中性表情：执行基于性别、年龄的推荐。

当识别到的情绪属性为中性时，可以在显示设备200的UI上展示识别到的年龄性别属性：

语音播报：“女士(40以上)/小姐姐(12-40)/小帅哥/小妹妹(6-12)/小朋友(6岁以下)，先生(35以上)/小哥哥(12-35)推荐以下内容给你”。

对于影视资源内容推荐可以为：

先生：显示【动作、战争、科幻、史诗、警匪、武侠、传记、超级英雄类电影/电视剧】搜索结果列表；

小哥哥：显示【科幻、超级英雄、动作、悬疑、动漫】搜索结果列表；

女士：显示【爱情、韩剧、家庭类电影/电视剧】搜索结果列表；

小姐姐：显示【韩剧、综艺、奇幻、爱情、文艺、古装、动漫、偶像】搜索结果列表；

儿童：显示【少儿、动画电影/电视剧】搜索结果列表；

老人(男)(55以上)：显示【怀旧、经典、家庭剧、年代剧、警匪、武侠、记录片、抗日剧/抗战片】搜索结果；

老人(女)(55以上)：显示【怀旧、经典、家庭剧、年代剧、抗日剧】搜索结果。

基于上述内容推荐方法，在部分不包含推荐动作的语音内容处理时，也可以执行内容推荐方法，以展示更多的内容，例如，用户输入语音：“我今天状态怎么样？”则可以根据用户表情和性别确定回应结果。

男+高兴：“你的脸色就像春风拂面，状态非常不错，一定是有经常运动吧，小聚为您推荐独家健身课程(AI健身课程推荐)，欢迎体验啊”，执行搜索“AI健身”应用

女+高兴：“看你面色红润，爱笑的女孩是幸运的。给您推荐如下水果，美容养颜，还能保持好身材哦”，执行搜索购物应用的水果；或者，推荐您使用魔镜功能，美颜变妆，大屏美拍，美好的瞬间值得被记录哦。

男/女+悲伤：“您的状态看起来有点疲惫，如果感到不开心，那让小聚给您推荐一些舒缓的音乐，放松一下”；可以体验下K歌功能，听说放声歌唱有助于放松心情；执行搜索“K歌应用”。

男+平静：“您的状态看起来还不错，据说适当的运动会让身体更有活力，小聚为您推荐AI体感游戏，快来体验下吧”，执行搜索“AI体感游戏”应用；

女+平静：您的状态看起来还不错，适当的运动有助于保持年轻，小聚为您推荐AI健身，让身体的细胞运动起来吧～执行搜索“AI健身”应用。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

控制器，被配置为：

接收通过图像采集器获取的用户图像信息；

2.根据权利要求1所述的显示设备，其特征在于，接收通过声音采集器获取的用于唤醒内容推荐功能的声音信息的步骤中，所述控制器被进一步配置为：

对所述声音信息执行语音识别，生成语音识别结果；

3.根据权利要求1所述的显示设备，其特征在于，根据所述声音信息和所述图像信息获取推荐数据的步骤中，所述控制器被进一步配置为：

从所述声音信息中提取声纹数据；

4.根据权利要求1所述的显示设备，其特征在于，接收通过图像采集器获取的用户图像信息的步骤中，所述控制器被进一步配置为：

从所述图像采集器获取视频流；

按照预设间隔帧数，从所述视频流中提取多帧待识别图像；

为每一帧所述待识别图像添加识别标签。

5.根据权利要求4所述的显示设备，其特征在于，根据所述声音信息和所述图像信息获取推荐数据的步骤中，所述控制器被进一步配置为：

在所述待识别图像中识别人脸图案；

从所述人脸图案区域内提取面部特征信息；

6.根据权利要求5所述的显示设备，其特征在于，根据所述声音信息和所述图像信息获取推荐数据的步骤中，所述控制器被进一步配置为：

根据所述图像识别结果的识别标签，匹配待识别图像；

7.根据权利要求6所述的显示设备，其特征在于，根据所述声音信息和所述图像信息获取推荐数据的步骤中，所述控制器被进一步配置为；

遍历多个所述图像识别结果的识别标签；

8.根据权利要求5所述的显示设备，其特征在于，如果在所述待识别图像中识别出多个人脸图案，所述控制器被进一步配置为：

根据所述识别结果和所述声音信息生成推荐请求。

9.根据权利要求1所述的显示设备，其特征在于，根据所述声音信息和所述图像信息获取推荐数据的步骤中，所述控制器被进一步配置为；

在所述声音信息中提取动作数据；

根据所述动作数据在配置库中匹配语音动作，以获得动作意图；

在所述图像信息中识别用户状态；

根据所述动作意图和所述用户状态生成推荐请求指令；

接收所述推荐数据。

10.一种内容推荐方法，其特征在于，应用于显示设备，所述显示设备包括显示器、检测器以及控制器，所述检测器包括声音采集器和图像采集器，分别被配置为采集用户的声音信息和图像信息；所述方法包括：